Feature/43 cache downloaded data #44

pmayd · 2022-08-01T17:04:15Z

Closes #43

PR stellt einen cache_data decorator für die downloadfunktion get_data() zur Verfügung. get_data ist eine neue Methode, die mittels method="cubefile" cubefiles downloaden kann und mittels method="tablefile" tablefiles. Egal welche Methode verwendet wird, cache_data funktioniert wie folgt:

name ist ein required parameter für get_data, daher immer vorhanden
name wird verwendet, um im cache_dir (hinterlegt in der config.ini) im Unterordner data nach einem Ordner mit dem Namen zu suchen
Ist kein Ordner cache_dir/data/<name> vorhanden, wurde das Objekt noch nicht gedownloaded und get_data nutzt einen REST-API Call auf Genesis data Endpunkt
- Wenn die Daten erfolgreich heruntergeladen wurden, wird das pandas Dataframe (get_data liefert immer ein DataFrame Objekt zurück) mittels df.to_csv() im Ordner cache_dir/data/<name>/<yyyymmdd>/<name>.xz komprimiert abgespeichert
Ist der Ordner cache_dir/data/<name> vorhanden, so wird im Ordner nach dem letzten Datum gesucht ( wird in int umgewandelt und sortiert), und die Datei <name>.xz mittels pandas pd.read_csv() gelesen.

Offen:

Soweit klappt alles, siehe auch Tests, aber wir müssen das natürlich weiter testen und durchdenken. Eine TODO ist noch, wie wir damit umgehen, wenn Daten auf GENESIS aktualisiert werden. Ich würde das aber nicht in den Dekorator packen, sondern eine eigene Funktion dafür schreiben mit der der User alle seine gecachten Datensätze auf Aktualität überprüfen kann. Dazu müssen wir eventuell noch im Pfad abspeichern, ob es ein cube oder table war, oder über catalogue danach suchen.

…tests

…data is now in data.py module and table.py and cube.py only hold specific parsing logic

codehering · 2022-08-02T17:54:23Z

src/pygenesis/cube.py

@@ -4,77 +4,18 @@
 import pandas as pd


-def is_cube_metadata_header(line: str) -> bool:
-    """Check if a line is a cube metadata header.
+def get_data(data: str) -> pd.DataFrame:


die Methode get_data existiert auch in data.py. Würde diese hier dann eher get_cube_data oder so nennen

bzw, aktuell brauchen wir diese Methode ja nicht mehr, da in data.py schon die Logik abgebildet ist. Wobei man noch diskutieren könnte ob man diese Methode nicht analog zur tablefile-Methode in data.py importiert.

Gut gesehen! Ich packe es in cube.py. Bin nicht ganz glücklich mit der Logik...stehe aber auf dem Schlauch, ob es besser ist diese Indirektion einzubauen oder ob wir nicht direkt die Methoden aus den Modulen verwenden sollten. Ich mache erstmal letzteres und verzichte auf die private methods ganz

codehering · 2022-08-02T17:58:17Z

src/pygenesis/data.py

+    return cube["QEI"]
+
+
+def _get_tablefile_data(data: str) -> pd.DataFrame:


ich würde die Methode direkt aus table.py importieren

passt genau

Die Idee war, dass man später das ganze einfach erweitern können soll, dazu bietet es sich dann meist an solche Methoden an einer Stelle zu haben, anstatt in einer Hauptmethode immer weitere if else einzubauen. Aber genau das passiert gerade noch in der Methode get_data, daher ist dein Vorschlag sauberer. Irgendwann sollte get_data so umgebaut werden, dass man nicht jede Methode per if-else einbaut, sondern der Code ab Zeile 46 sollte durch etwas ersetzt werden, was automatisch die verüfbaren Methoden ausliest.

codehering · 2022-08-02T17:59:43Z

src/pygenesis/data.py

+        return _get_cubefile_data(data)
+
+
+def _get_cubefile_data(data: str) -> pd.DataFrame:


siehe Comments incube.py. Glaube es macht Sinn wenn wir die Logik hier nach cube.py auslagern. Dann wäre es analog zu table (+ eventuell zukünftige Endpunkte)

gut gesehen danke

pmayd · 2022-08-09T07:50:47Z

Code überarbeitet und gemergt

pmayd added 2 commits August 1, 2022 17:42

[#43] Cache downloaded data; Implement feature with decorator; added …

350ecb7

…tests

fix pylint errors; refactor code so that common code for downloading …

8c10c82

…data is now in data.py module and table.py and cube.py only hold specific parsing logic

codehering reviewed Aug 6, 2022

View reviewed changes

remove helper methods from get_data, move logic to the individual moduls

080d56a

pmayd merged commit 2d89642 into dev Aug 9, 2022

pmayd deleted the feature/43-cache-downloaded-data branch August 9, 2022 08:03

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Feature/43 cache downloaded data #44

Feature/43 cache downloaded data #44

Uh oh!

pmayd commented Aug 1, 2022

Uh oh!

codehering Aug 2, 2022

Uh oh!

codehering Aug 2, 2022

Uh oh!

pmayd Aug 9, 2022

Uh oh!

codehering Aug 2, 2022

Uh oh!

pmayd Aug 9, 2022

Uh oh!

pmayd Aug 9, 2022

Uh oh!

codehering Aug 2, 2022

Uh oh!

pmayd Aug 9, 2022

Uh oh!

pmayd commented Aug 9, 2022

Uh oh!

Uh oh!

		return cube["QEI"]


		def _get_tablefile_data(data: str) -> pd.DataFrame:

		return _get_cubefile_data(data)


		def _get_cubefile_data(data: str) -> pd.DataFrame:

Feature/43 cache downloaded data #44

Feature/43 cache downloaded data #44

Uh oh!

Conversation

pmayd commented Aug 1, 2022

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

pmayd commented Aug 9, 2022

Uh oh!

Uh oh!