refactor: logs into compressed file (#159)

AKBrueggemann · web-flow · commit b8aa5c3ff285 · 2025-12-30T11:15:52.000+01:00
* Refactor logs into compressed file

* fmt

* fmt

* fmt

* fmt

* Additional all-filter fix

* fmt
diff --git a/workflow/Snakefile b/workflow/Snakefile
@@ -74,6 +74,10 @@ rule all:
             "results/{date}/{date}.tar.gz",
             date=get_date(),
         ),
+        expand(
+            "logs/{date}_logs.tar.gz",
+            date=get_date(),
+        ),
     output:
         touch(
             expand(
diff --git a/workflow/rules/outputs_DADA2.smk b/workflow/rules/outputs_DADA2.smk
@@ -615,3 +615,15 @@ rule zip_report:
         cp results/{wildcards.date}/{wildcards.date}.tar.gz {params.outpath}
         rm -r results/{wildcards.date}/16S-report
         """
+
+
+rule concatenate_logs:
+    input:
+        "results/{date}/{date}.tar.gz",
+    output:
+        "logs/{date}_logs.tar.gz",
+    shell:
+        """
+        tar -czvf {output} logs/{wildcards.date}/
+        rm -r logs/{wildcards.date}
+        """
diff --git a/workflow/rules/outputs_vsearch.smk b/workflow/rules/outputs_vsearch.smk
@@ -613,3 +613,15 @@ rule zip_report:
         cp results/{wildcards.date}/{wildcards.date}.tar.gz {params.outpath}
         rm -r results/{wildcards.date}/16S-report
         """
+
+
+rule concatenate_logs:
+    input:
+        "results/{date}/{date}.tar.gz",
+    output:
+        "logs/{date}_logs.tar.gz",
+    shell:
+        """
+        tar -czvf {output} logs/{wildcards.date}/
+        rm -r logs/{wildcards.date}
+        """
diff --git a/workflow/rules/reduced_analysis.smk b/workflow/rules/reduced_analysis.smk
@@ -833,3 +833,15 @@ rule export_parameters:
         "../envs/python.yaml"
     script:
         "../scripts/yaml_to_table.py"
+
+
+rule concatenate_logs:
+    input:
+        "results/{date}/{date}.tar.gz",
+    output:
+        "logs/{date}_logs.tar.gz",
+    shell:
+        """
+        tar -czvf {output} logs/{wildcards.date}/
+        rm -r logs/{wildcards.date}
+        """
diff --git a/workflow/rules/visualisation.smk b/workflow/rules/visualisation.smk
@@ -30,20 +30,34 @@ rule visualise_trimmed:
         "--verbose 2> {log}"
 
 
-rule visualise_joined:
-    input:
-        "results/{date}/out/joined-seqs.qza",
-    output:
-        "results/{date}/visual/joined-seqs.qzv",
-    log:
-        "logs/{date}/visualisation/visualise-joined.log",
-    conda:
-        "../envs/qiime-only-env.yaml"
-    shell:
-        "qiime demux summarize "
-        "--i-data {input} "
-        "--o-visualization {output} "
-        "--verbose 2> {log}"
+if config["datatype"] == "SampleData[PairedEndSequencesWithQuality]":
+
+    rule visualise_joined:
+        input:
+            "results/{date}/out/joined-seqs.qza",
+        output:
+            "results/{date}/visual/joined-seqs.qzv",
+        log:
+            "logs/{date}/visualisation/visualise-joined.log",
+        conda:
+            "../envs/qiime-only-env.yaml"
+        shell:
+            "qiime demux summarize "
+            "--i-data {input} "
+            "--o-visualization {output} "
+            "--verbose 2> {log}"
+
+    rule unzip_joined:
+        input:
+            "results/{date}/visual/joined-seqs.qzv",
+        output:
+            temp(directory("results/{date}/visual/joined-seqs")),
+        log:
+            "logs/{date}/outputs/unzip-joined.log",
+        conda:
+            "../envs/python.yaml"
+        script:
+            "../scripts/rename_qzv.py"
 
 
 rule unzip_samples:
@@ -72,19 +86,6 @@ rule unzip_trimmed:
         "../scripts/rename_qzv.py"
 
 
-rule unzip_joined:
-    input:
-        "results/{date}/visual/joined-seqs.qzv",
-    output:
-        temp(directory("results/{date}/visual/joined-seqs")),
-    log:
-        "logs/{date}/outputs/unzip-joined.log",
-    conda:
-        "../envs/python.yaml"
-    script:
-        "../scripts/rename_qzv.py"
-
-
 rule visualise_table:
     input:
         "results/{date}/out/table-cluster-lengthfilter.qza",
diff --git a/workflow/scripts/complete_filter.py b/workflow/scripts/complete_filter.py
@@ -11,37 +11,45 @@
 
 sys.stderr = open(snakemake.log[0], "w")
 
+config = snakemake.config
+datatype = str(config["datatype"])
+
 samples = pd.read_csv(
     str(snakemake.input.samples) + "/paired-seqs/data/per-sample-fastq-counts.tsv",
     sep="\t",
     header=0,
     index_col=0,
 )
-samples.drop(
-    ["reverse sequence count"],
-    axis=1,
-    inplace=True,
-)
+if datatype == "SampleData[PairedEndSequencesWithQuality]":
+    samples.drop(
+        ["reverse sequence count"],
+        axis=1,
+        inplace=True,
+    )
 samples.rename(columns={"forward sequence count": "Raw reads"}, inplace=True)
 trimmed = pd.read_csv(
     str(snakemake.input.trimmed) + "/trimmed-seqs/data/per-sample-fastq-counts.tsv",
     sep="\t",
     header=0,
     index_col=0,
 )
-trimmed.drop(
-    ["reverse sequence count"],
-    axis=1,
-    inplace=True,
-)
+if datatype == "SampleData[PairedEndSequencesWithQuality]":
+    trimmed.drop(
+        ["reverse sequence count"],
+        axis=1,
+        inplace=True,
+    )
 trimmed.rename(columns={"forward sequence count": "Reads after trimming"}, inplace=True)
-joined = pd.read_csv(
-    str(snakemake.input.joined) + "/joined-seqs/data/per-sample-fastq-counts.tsv",
-    sep="\t",
-    header=0,
-    index_col=0,
-)
-joined.rename(columns={"forward sequence count": "Reads after joining"}, inplace=True)
+if datatype == "SampleData[PairedEndSequencesWithQuality]":
+    joined = pd.read_csv(
+        str(snakemake.input.joined) + "/joined-seqs/data/per-sample-fastq-counts.tsv",
+        sep="\t",
+        header=0,
+        index_col=0,
+    )
+    joined.rename(
+        columns={"forward sequence count": "Reads after joining"}, inplace=True
+    )
 
 first = pd.read_csv(
     str(snakemake.input.first) + "/metadata.tsv", sep="\t", header=0, index_col=0
@@ -92,20 +100,35 @@
 )
 complete.rename(columns={"0": "Reads after abundance filter"}, inplace=True)
 
-merged_df = pd.concat(
-    [
-        samples,
-        trimmed,
-        joined,
-        first,
-        human,
-        wo_chimera,
-        length,
-        before_abundance,
-        complete,
-    ],
-    axis=1,
-)
+if datatype == "SampleData[PairedEndSequencesWithQuality]":
+    merged_df = pd.concat(
+        [
+            samples,
+            trimmed,
+            joined,
+            first,
+            human,
+            wo_chimera,
+            length,
+            before_abundance,
+            complete,
+        ],
+        axis=1,
+    )
+elif datatype == "SampleData[SequencesWithQuality]":
+    merged_df = pd.concat(
+        [
+            samples,
+            trimmed,
+            first,
+            human,
+            wo_chimera,
+            length,
+            before_abundance,
+            complete,
+        ],
+        axis=1,
+    )
 
 merged_df = merged_df.fillna(0)