Local run with almost all modules

imallona · imallona · commit d53e15a6e642 · 2025-02-21T14:29:50.000+01:00
diff --git a/Clustering_conda.yml b/Clustering_conda.yml
@@ -1,11 +1,11 @@
-id: clustering_example
+id: clustering_example_conda
 description: Clustering benchmark on Gagolewski's, true number of clusters plus minus 2.
-version: 1.3
+version: 1.4
 benchmarker: "Izaskun Mallona, Daniel Incicau"
 storage: http://omnibenchmark.org:9000
 benchmark_yaml_spec: 0.04
 storage_api: S3
-storage_bucket_name: clusteringexample
+storage_bucket_name: clusteringexampleconda
 software_backend: conda
 software_environments:
   clustbench:
@@ -51,74 +51,74 @@ stages:
   - id: data
     modules:
       - id: clustbench
-        name: "clustbench datasets"
+        name: "clustbench datasets, from https://www.sciencedirect.com/science/article/pii/S0020025521010082#t0005 Table1"
         software_environment: "clustbench"
         repository:
           url: https://github.com/imallona/clustbench_data
           commit: 366c5a2
-        parameters:
+        parameters:  # comments depict the possible cardinalities and the number of curated labelsets
           - values: ["--dataset_generator", "fcps", "--dataset_name", "atom"] #	2	1
           - values: ["--dataset_generator", "fcps", "--dataset_name", "chainlink"] #	2	1
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "engytime"] #	2	2
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "hepta"] #	7	1
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "lsun"] #	3	1
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "target"] #	2, 6	2
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "tetra"] #	4	1
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "twodiamonds"] #	2	1
-          # - values: ["--dataset_generator", "fcps", "--dataset_name", "wingnut"] #	2	1
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "engytime"] #	2	2
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "hepta"] #	7	1
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "lsun"] #	3	1
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "target"] #	2, 6	2
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "tetra"] #	4	1
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "twodiamonds"] #	2	1
+          - values: ["--dataset_generator", "fcps", "--dataset_name", "wingnut"] #	2	1
           - values: ["--dataset_generator", "graves", "--dataset_name", "dense"] #	2	1
           - values: ["--dataset_generator", "graves", "--dataset_name", "fuzzyx"] #	2, 4, 5	6
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "line"] #	2	1
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "parabolic"] #	2, 4	2
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "ring"] #	2	1
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "ring_noisy"] #	2	1
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "ring_outliers"] #	2, 5	2
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "zigzag"] #	3, 5	2
-          # - values: ["--dataset_generator", "graves", "--dataset_name", "zigzag_noisy"] #	3, 5	2
+          - values: ["--dataset_generator", "graves", "--dataset_name", "line"] #	2	1
+          - values: ["--dataset_generator", "graves", "--dataset_name", "parabolic"] #	2, 4	2
+          - values: ["--dataset_generator", "graves", "--dataset_name", "ring"] #	2	1
+          - values: ["--dataset_generator", "graves", "--dataset_name", "ring_noisy"] #	2	1
+          - values: ["--dataset_generator", "graves", "--dataset_name", "ring_outliers"] #	2, 5	2
+          - values: ["--dataset_generator", "graves", "--dataset_name", "zigzag"] #	3, 5	2
+          - values: ["--dataset_generator", "graves", "--dataset_name", "zigzag_noisy"] #	3, 5	2
           - values: ["--dataset_generator", "graves", "--dataset_name", "zigzag_outliers"] #	3, 5	2
-          # - values: ["--dataset_generator", "other", "--dataset_name", "chameleon_t4_8k"] #	6	1
-          # - values: ["--dataset_generator", "other", "--dataset_name", "chameleon_t5_8k"] #	6	1
-          # - values: ["--dataset_generator", "other", "--dataset_name", "hdbscan"] #	6	1
-          # - values: ["--dataset_generator", "other", "--dataset_name", "iris"] #	3	1
-          # - values: ["--dataset_generator", "other", "--dataset_name", "iris5"] #	3	1
-          # - values: ["--dataset_generator", "other", "--dataset_name", "square"] #	2	1
-          # - values: ["--dataset_generator", "sipu", "--dataset_name", "aggregation"] #	7	1
-          # - values: ["--dataset_generator", "sipu", "--dataset_name", "compound"] #	4, 5, 6	5
-          # - values: ["--dataset_generator", "sipu", "--dataset_name", "flame"] #	2	2
-          # - values: ["--dataset_generator", "sipu", "--dataset_name", "jain"] #	2	1
+          - values: ["--dataset_generator", "other", "--dataset_name", "chameleon_t4_8k"] #	6	1
+          - values: ["--dataset_generator", "other", "--dataset_name", "chameleon_t5_8k"] #	6	1
+          - values: ["--dataset_generator", "other", "--dataset_name", "hdbscan"] #	6	1
+          - values: ["--dataset_generator", "other", "--dataset_name", "iris"] #	3	1
+          - values: ["--dataset_generator", "other", "--dataset_name", "iris5"] #	3	1
+          - values: ["--dataset_generator", "other", "--dataset_name", "square"] #	2	1
+          - values: ["--dataset_generator", "sipu", "--dataset_name", "aggregation"] #	7	1
+          - values: ["--dataset_generator", "sipu", "--dataset_name", "compound"] #	4, 5, 6	5
+          - values: ["--dataset_generator", "sipu", "--dataset_name", "flame"] #	2	2
+          - values: ["--dataset_generator", "sipu", "--dataset_name", "jain"] #	2	1
           - values: ["--dataset_generator", "sipu", "--dataset_name", "pathbased"] #	3, 4	2
           - values: ["--dataset_generator", "sipu", "--dataset_name", "r15"] #	8, 9, 15	3
           - values: ["--dataset_generator", "sipu", "--dataset_name", "spiral"] #	3	1
-          # - values: ["--dataset_generator", "sipu", "--dataset_name", "unbalance"] #	8	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "ecoli"] #	8	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "ionosphere"] #	2	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "sonar"] #	2	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "statlog"] #	7	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "wdbc"] #	2	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "wine"] #	3	1
-          # - values: ["--dataset_generator", "uci", "--dataset_name", "yeast"] #	10	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "circles"] #	4	1
+          - values: ["--dataset_generator", "sipu", "--dataset_name", "unbalance"] #	8	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "ecoli"] #	8	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "ionosphere"] #	2	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "sonar"] #	2	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "statlog"] #	7	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "wdbc"] #	2	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "wine"] #	3	1
+          - values: ["--dataset_generator", "uci", "--dataset_name", "yeast"] #	10	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "circles"] #	4	1
           - values: ["--dataset_generator", "wut", "--dataset_name", "cross"] #	4	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "graph"] #	10	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "isolation"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "labirynth"] #	6	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "mk1"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "mk2"] #	2	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "mk3"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "mk4"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "olympic"] #	5	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "graph"] #	10	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "isolation"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "labirynth"] #	6	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "mk1"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "mk2"] #	2	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "mk3"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "mk4"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "olympic"] #	5	1
           - values: ["--dataset_generator", "wut", "--dataset_name", "smile"] #	4, 6	2
           - values: ["--dataset_generator", "wut", "--dataset_name", "stripes"] #	2	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "trajectories"] #	4	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "trapped_lovers"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "twosplashes"] #	2	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "windows"] #	5	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "x1"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "x2"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "trajectories"] #	4	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "trapped_lovers"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "twosplashes"] #	2	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "windows"] #	5	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "x1"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "x2"] #	3	1
           - values: ["--dataset_generator", "wut", "--dataset_name", "x3"] #	4	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "z1"] #	3	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "z2"] #	5	1
-          # - values: ["--dataset_generator", "wut", "--dataset_name", "z3"] #	4	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "z1"] #	3	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "z2"] #	5	1
+          - values: ["--dataset_generator", "wut", "--dataset_name", "z3"] #	4	1
     outputs:
       - id: data.matrix
         path: "{input}/{stage}/{module}/{params}/{dataset}.data.gz"
@@ -189,7 +189,7 @@ stages:
           - values: ["--method", "FCPS_HDBSCAN_4"]
           - values: ["--method", "FCPS_HDBSCAN_8"]
           - values: ["--method", "FCPS_Diana"]
-          # - values: ["--method", "FCPS_Fanny"]
+          - values: ["--method", "FCPS_Fanny"]
           - values: ["--method", "FCPS_Hardcl"]
           - values: ["--method", "FCPS_Softcl"]
           - values: ["--method", "FCPS_Clara"]
diff --git a/Clustering_envmodules.yml b/Clustering_envmodules.yml
@@ -1,11 +1,11 @@
-id: clustering_example
+id: clustering_example_envmodules
 description: Clustering benchmark on Gagolewski's, true number of clusters plus minus 2.
-version: 1.2
+version: 1.4
 benchmarker: "Izaskun Mallona, Daniel Incicau"
-storage: https://play.min.io
+storage: http://omnibenchmark.org:9000
 benchmark_yaml_spec: 0.04
 storage_api: S3
-storage_bucket_name: clustering_example
+storage_bucket_name: clusteringexampleenvmodules
 software_backend: envmodules
 software_environments:
   clustbench:
@@ -23,24 +23,40 @@ software_environments:
     conda: envs/r.yml
     apptainer: envs/r.sif
     envmodule: fcps # not true, but
+  rmarkdown:
+    description: "R with some plotting dependencies"
+    conda: envs/rmarkdown.yml
+    apptainer: envs/r.sif # not true, but
+    envmodule: fcps # not true, but
   fcps:
     description: "CRAN's FCPS"
     conda: envs/fcps.yml
     apptainer: envs/fcps.sif
     envmodule: fcps
+metric_collectors:
+  - id: plotting
+    name: "Single-backend metric collector."
+    software_environment: "rmarkdown"
+    repository:
+      url: https://github.com/imallona/clustering_report
+      commit: f1a5876
+    inputs:
+      - metrics.scores
+    outputs:
+      - id: plotting.html
+        path: "{input}/{name}/plotting_report.html"
 stages:
-
   ## clustbench data ##########################################################
 
   - id: data
     modules:
       - id: clustbench
-        name: "clustbench datasets"
+        name: "clustbench datasets, from https://www.sciencedirect.com/science/article/pii/S0020025521010082#t0005 Table1"
         software_environment: "clustbench"
         repository:
           url: https://github.com/imallona/clustbench_data
           commit: 366c5a2
-        parameters:
+        parameters:  # comments depict the possible cardinalities and the number of curated labelsets
           - values: ["--dataset_generator", "fcps", "--dataset_name", "atom"] #	2	1
           - values: ["--dataset_generator", "fcps", "--dataset_name", "chainlink"] #	2	1
           - values: ["--dataset_generator", "fcps", "--dataset_name", "engytime"] #	2	2
diff --git a/Clustering_singularity.yml b/Clustering_singularity.yml
@@ -1,11 +1,11 @@
-id: clustering_example
+id: clustering_example_apptainer
 description: Clustering benchmark on Gagolewski's, true number of clusters plus minus 2.
-version: 1.2
+version: 1.4
 benchmarker: "Izaskun Mallona, Daniel Incicau"
-storage: https://play.min.io
+storage: http://omnibenchmark.org:9000
 benchmark_yaml_spec: 0.04
 storage_api: S3
-storage_bucket_name: clustering_example
+storage_bucket_name: clusteringexampleapptainer
 software_backend: apptainer
 software_environments:
   clustbench:
@@ -23,24 +23,40 @@ software_environments:
     conda: envs/r.yml
     apptainer: envs/r.sif
     envmodule: fcps # not true, but
+  rmarkdown:
+    description: "R with some plotting dependencies"
+    conda: envs/rmarkdown.yml
+    apptainer: envs/r.sif # not true, but
+    envmodule: fcps # not true, but
   fcps:
     description: "CRAN's FCPS"
     conda: envs/fcps.yml
     apptainer: envs/fcps.sif
     envmodule: fcps
+metric_collectors:
+  - id: plotting
+    name: "Single-backend metric collector."
+    software_environment: "rmarkdown"
+    repository:
+      url: https://github.com/imallona/clustering_report
+      commit: f1a5876
+    inputs:
+      - metrics.scores
+    outputs:
+      - id: plotting.html
+        path: "{input}/{name}/plotting_report.html"
 stages:
-
   ## clustbench data ##########################################################
 
   - id: data
     modules:
       - id: clustbench
-        name: "clustbench datasets"
+        name: "clustbench datasets, from https://www.sciencedirect.com/science/article/pii/S0020025521010082#t0005 Table1"
         software_environment: "clustbench"
         repository:
           url: https://github.com/imallona/clustbench_data
           commit: 366c5a2
-        parameters:
+        parameters:  # comments depict the possible cardinalities and the number of curated labelsets
           - values: ["--dataset_generator", "fcps", "--dataset_name", "atom"] #	2	1
           - values: ["--dataset_generator", "fcps", "--dataset_name", "chainlink"] #	2	1
           - values: ["--dataset_generator", "fcps", "--dataset_name", "engytime"] #	2	2