Skip to content

Integrated kmers and adjusted reproducibility #49

Open
MiriamBalzer wants to merge 14 commits intodevelopmentfrom
integrated_kmers
Open

Integrated kmers and adjusted reproducibility #49
MiriamBalzer wants to merge 14 commits intodevelopmentfrom
integrated_kmers

Conversation

@MiriamBalzer
Copy link
Copy Markdown
Collaborator

No description provided.

Copy link
Copy Markdown
Collaborator

@Julian-W98 Julian-W98 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ich habe einige Unstimmigkeiten bezüglich constanten/variablennutzung gefunden. Auch eine große Code Dublikation in preprocessing.py ist mir aufgefallen.

Um zu überprüfen welcher Teil deines Codes für deterministisches Verhalten sorgt habe ich deine Änderungen einzeln getestet. Tatsächlich scheinen nur die beiden random_state=42 in classic_rf.py und stacked_rf.py den Unterschied zu machen. Zumindest hatte ich so mit den gleichen Daten im Modus TRAIN_TEST auf zwei verschiedenen Nodes das selbe Ergebniss. Alle weiteren Änderungen in stacked_rf.py und utils.py sollten daher aus meiner Sicht nicht vorgenommen werden weil sie nur unnötig die Komplexität erhöhen.

Sonst sind mir nur Kleinigkeiten aufgefallen

MIN_SAMPLE_NUMBER = 15
LOGGING_LEVEL = logging.INFO
KMERE = False
W2V_MODE = W2VMode.TUNE_W2V
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Warum gibt es jetzt den W2VMode und RETRAIN_W2V?

Wäre davon ausgegangen, dass W2VMode.TRAIN_W2V das gleich ist wie RETRAIN_W2V = True

Vielleicht die Benennung hier etwas anpassen um das Unterscheidbar zu machen wenn es wirklich beides braucht

Copy link
Copy Markdown
Collaborator Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ja, das ist dem Wachstum der implementation geschuldet. dadurch, dass ich nachträglich die Möglichkeit hinzugefügt habe das trainierte Modell zu speichern und wieder abzurufen. Ich schau mal, ob ich das etwas eindeutiger und weniger repetativ implementiert bekomme :)

TUNE_HYPERPARAMETER = "tune_hyperparameter"


class W2VMode(Enum):
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ist es gewollte das man jetzt W2V auf Train und den Execution Mode auf Predict stellen kann?

Hätte jetzt eher vermutet, dass wenn k-mere auf an gestellt wird und Execution Mode auf training steht der V2W auch mittrainiert wird.

Copy link
Copy Markdown
Collaborator Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

theoretisch kann W2V immer mit laufen, sobald das preprozessing angeschmissen wird, da es ja eben ein vorverarbeitungsschritt ist. Natürlich ist das aber nicht immer sinnvoll 😅 allerdings auch nicht wirklich schlimm. ich schau es mir aber nochmal an

…m, normal random forest deleted, changes in utils.py undone, minor changes according to PR comments
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants