clean code

baslia · baslia · commit 1c89aef6e629 · 2024-12-30T07:21:20.000+01:00
diff --git a/table-sort.py b/table-sort.py
@@ -5,20 +5,22 @@
 
 
 def main(headers):
-	rows = csv.DictReader(sys.stdin, delimiter='\t', dialect='excel-tab')
+    rows = csv.DictReader(sys.stdin, delimiter="\t", dialect="excel-tab")
 
-	# More efficient header check using set intersection
-	if not set(headers).intersection(rows.fieldnames):
-		raise ValueError(f"Couldn't find any of supplied headers ({', '.join(map(repr, headers))}) in the table.")
+    # More efficient header check using set intersection
+    if not set(headers).intersection(rows.fieldnames):
+        raise ValueError(
+            f"Couldn't find any of supplied headers ({', '.join(map(repr, headers))}) in the table."
+        )
 
-	# Optimized sorting using tuple comparison (generally faster than list comparison)
-	items = sorted(rows, key=lambda d: tuple(d.get(h, "") for h in headers))
+    # Optimized sorting using tuple comparison (generally faster than list comparison)
+    items = sorted(rows, key=lambda d: tuple(d.get(h, "") for h in headers))
 
-	wr = csv.DictWriter(sys.stdout, dialect='excel-tab', fieldnames=rows.fieldnames)
-	wr.writeheader()
-	wr.writerows(items)
-	# sys.stdout.flush()
+    wr = csv.DictWriter(sys.stdout, dialect="excel-tab", fieldnames=rows.fieldnames)
+    wr.writeheader()
+    wr.writerows(items)
+    # sys.stdout.flush()
 
 
-if __name__ == '__main__':
-	main(sys.argv[1:])
+if __name__ == "__main__":
+    main(sys.argv[1:])
diff --git a/table-summarize.py b/table-summarize.py
@@ -8,28 +8,32 @@
 
 
 def main(table):
-	with open(table, 'r', newline='', encoding='utf-8') as table_f:  # Improved file opening
-		rdr = csv.DictReader(table_f, delimiter='\t', dialect='excel')
-
-		# Check if fieldnames exist before proceeding to avoid potential errors
-		if not rdr.fieldnames or len(rdr.fieldnames) <= 1:
-			print("No data columns found in the table.")
-			return
-
-		summary = OrderedDict()
-		for row in rdr:  # Iterate directly without creating a list in memory
-			for name in rdr.fieldnames[1:]:
-				summary.setdefault(name, Counter()).update([row[name]])  # More efficient counting
-
-		total = rdr.line_num - 1  # get the number of rows
-
-		print("Summary:")
-		for name, results in summary.items():
-			print(f'{name}:')  # f-string
-			for result, num in results.items():
-				if result:
-					print(f"\t - {result}: {num} of {total}")  # f-string
-
-
-if __name__ == '__main__':
-	main(sys.argv[1])
+    with open(
+        table, "r", newline="", encoding="utf-8"
+    ) as table_f:  # Improved file opening
+        rdr = csv.DictReader(table_f, delimiter="\t", dialect="excel")
+
+        # Check if fieldnames exist before proceeding to avoid potential errors
+        if not rdr.fieldnames or len(rdr.fieldnames) <= 1:
+            print("No data columns found in the table.")
+            return
+
+        summary = OrderedDict()
+        for row in rdr:  # Iterate directly without creating a list in memory
+            for name in rdr.fieldnames[1:]:
+                summary.setdefault(name, Counter()).update(
+                    [row[name]]
+                )  # More efficient counting
+
+        total = rdr.line_num - 1  # get the number of rows
+
+        print("Summary:")
+        for name, results in summary.items():
+            print(f"{name}:")  # f-string
+            for result, num in results.items():
+                if result:
+                    print(f"\t - {result}: {num} of {total}")  # f-string
+
+
+if __name__ == "__main__":
+    main(sys.argv[1])
diff --git a/table-union.py b/table-union.py
@@ -5,49 +5,56 @@
 
 
 def main(unionize=True, *files):
-	header = []
-	items = []
-	possible_identity_headers = None
-
-	for fi in files:
-		with open(fi, 'r', newline='', encoding='utf-8') as table:  # Improved file opening
-			reader = csv.DictReader(table, delimiter='\t', dialect='excel-tab')
-
-			# Efficient header update using set operations
-			header_set = set(header)
-			new_headers = [field for field in reader.fieldnames if field not in header_set]
-			header.extend(new_headers)
-
-			rows = list(reader)  # Keep this for now, but see optimization below
-			if not rows:  # skip empty files
-				continue
-
-			# More efficient identity header detection
-			if possible_identity_headers is None:
-				possible_identity_headers = set(reader.fieldnames)
-
-			# Optimized identity header filtering
-			possible_identity_headers.intersection_update(
-				f for f in reader.fieldnames
-				if
-				len({row[f] for row in rows if f in row}) == len(rows) and all(row.get(f) is not None for row in rows)
-			)
-			items.extend(rows)
-
-	if possible_identity_headers and unionize:
-		key_column = possible_identity_headers.pop()
-		# More efficient merging using defaultdict
-		merged_rows = defaultdict(dict)
-		for row in items:
-			key = row.get(key_column)
-			if key is not None:  # skip rows with null keys
-				merged_rows[key].update(row)
-		items = list(merged_rows.values())
-
-	wr = csv.DictWriter(sys.stdout, delimiter='\t', dialect='excel-tab', fieldnames=header)
-	wr.writeheader()
-	wr.writerows(items)
-
-
-if __name__ == '__main__':
-	main(*sys.argv[1:])
+    header = []
+    items = []
+    possible_identity_headers = None
+
+    for fi in files:
+        with open(
+            fi, "r", newline="", encoding="utf-8"
+        ) as table:  # Improved file opening
+            reader = csv.DictReader(table, delimiter="\t", dialect="excel-tab")
+
+            # Efficient header update using set operations
+            header_set = set(header)
+            new_headers = [
+                field for field in reader.fieldnames if field not in header_set
+            ]
+            header.extend(new_headers)
+
+            rows = list(reader)  # Keep this for now, but see optimization below
+            if not rows:  # skip empty files
+                continue
+
+            # More efficient identity header detection
+            if possible_identity_headers is None:
+                possible_identity_headers = set(reader.fieldnames)
+
+            # Optimized identity header filtering
+            possible_identity_headers.intersection_update(
+                f
+                for f in reader.fieldnames
+                if len({row[f] for row in rows if f in row}) == len(rows)
+                and all(row.get(f) is not None for row in rows)
+            )
+            items.extend(rows)
+
+    if possible_identity_headers and unionize:
+        key_column = possible_identity_headers.pop()
+        # More efficient merging using defaultdict
+        merged_rows = defaultdict(dict)
+        for row in items:
+            key = row.get(key_column)
+            if key is not None:  # skip rows with null keys
+                merged_rows[key].update(row)
+        items = list(merged_rows.values())
+
+    wr = csv.DictWriter(
+        sys.stdout, delimiter="\t", dialect="excel-tab", fieldnames=header
+    )
+    wr.writeheader()
+    wr.writerows(items)
+
+
+if __name__ == "__main__":
+    main(*sys.argv[1:])
diff --git a/test_tables_ops.py b/test_tables_ops.py
@@ -2,7 +2,6 @@
 import subprocess
 import os
 import csv
-from collections import Counter
 
 
 class TestTableOps(unittest.TestCase):
@@ -20,29 +19,42 @@ def _run_command(self, command, input_data=None):
         return process.returncode, stdout, stderr
 
     def _compare_tsv(self, expected_file, actual_output):
-        with open(os.path.join(self.TEST_DATA_DIR, expected_file), 'r', encoding='utf-8') as f:
-            expected_lines = list(csv.reader(f, delimiter='\t'))
-        actual_lines = list(csv.reader(actual_output.splitlines(), delimiter='\t'))
+        with open(
+            os.path.join(self.TEST_DATA_DIR, expected_file), "r", encoding="utf-8"
+        ) as f:
+            expected_lines = list(csv.reader(f, delimiter="\t"))
+        actual_lines = list(csv.reader(actual_output.splitlines(), delimiter="\t"))
         self.assertEqual(expected_lines, actual_lines)
 
     def test_table_union_union(self):
         returncode, stdout, stderr = self._run_command(
-            ["table-union", os.path.join(self.TEST_DATA_DIR, "dingbat.tsv"), os.path.join(self.TEST_DATA_DIR, "loki.tsv")]
+            [
+                "table-union",
+                os.path.join(self.TEST_DATA_DIR, "dingbat.tsv"),
+                os.path.join(self.TEST_DATA_DIR, "loki.tsv"),
+            ]
         )
         self.assertEqual(returncode, 0)
         self._compare_tsv("combined.tsv", stdout)
         self.assertEqual(stderr, "")
 
     def test_table_union_join(self):
         returncode, stdout, stderr = self._run_command(
-            ["table-union", "--no-union", os.path.join(self.TEST_DATA_DIR, "users.tsv"), os.path.join(self.TEST_DATA_DIR, "orders.tsv")]
+            [
+                "table-union",
+                "--no-union",
+                os.path.join(self.TEST_DATA_DIR, "users.tsv"),
+                os.path.join(self.TEST_DATA_DIR, "orders.tsv"),
+            ]
         )
         self.assertEqual(returncode, 0)
         self._compare_tsv("merged_expected.tsv", stdout)
         self.assertEqual(stderr, "")
 
     def test_table_summarize(self):
-        returncode, stdout, stderr = self._run_command(["table-summarize", os.path.join(self.TEST_DATA_DIR, "data_summarize.tsv")])
+        returncode, stdout, stderr = self._run_command(
+            ["table-summarize", os.path.join(self.TEST_DATA_DIR, "data_summarize.tsv")]
+        )
         self.assertEqual(returncode, 0)
 
         expected_summary = """Summary:
@@ -63,14 +75,23 @@ def test_table_summarize(self):
 
     def test_table_sort(self):
         returncode, stdout, stderr = self._run_command(
-            ["table-sort", "-k", "Age", "-k", "Name", os.path.join(self.TEST_DATA_DIR, "data_sort.tsv")]
+            [
+                "table-sort",
+                "-k",
+                "Age",
+                "-k",
+                "Name",
+                os.path.join(self.TEST_DATA_DIR, "data_sort.tsv"),
+            ]
         )
         self.assertEqual(returncode, 0)
         self._compare_tsv("sorted_data_expected.tsv", stdout)
         self.assertEqual(stderr, "")
 
     def test_table_sort_pipe(self):
-        with open(os.path.join(self.TEST_DATA_DIR, "data_sort.tsv"), 'r', encoding="utf-8") as infile:
+        with open(
+            os.path.join(self.TEST_DATA_DIR, "data_sort.tsv"), "r", encoding="utf-8"
+        ) as infile:
             input_data = infile.read()
         returncode, stdout, stderr = self._run_command(
             ["table-sort", "-k", "Age", "-k", "Name"], input_data
@@ -81,4 +102,4 @@ def test_table_sort_pipe(self):
 
 
 if __name__ == "__main__":
-    unittest.main()
+    unittest.main()