Dieses Repository enhtält sowohl gesammelte Daten von Jobangeboten im Data Science und Analysis Bereich als auch deren Auswertung
Die allgemeine Analyse findet sich hier, eine Auswertung von Gehältern hier.
Die Daten wurden mit Hilfe von Skripten generiert, die nach Jobpostings auf gehalt.de unter den Schlagworten "junior+data+scientist", "junior+data+science", "junior+data+analyst" und "junior+data+analysis" suchen. Dafür wird die Webseite mit Selenium geöffnet und alle Jobspostings gescraped, bis genug bekannte Einträge gesammelt wurden, sodass sichergestellt werden kann, alle neuen Einträge gespeichert wurden. Anschließend werden die Inhalte der Jobangebote gescraped. Auch das funktioniert über Selenium und anschließend mit BeautifulSoup. Insgesamt werden so Titel, Unternehmen, Ort, die von gehalt.de prognostizierte Gehaltsbereiche, Informationen zu Teilzeit- und Remotemöglichkeit, sowie den gesamten Text der Stellenausschreibungen gespeichert.
Die Auswertung der Daten wurde mit pandas durchgeführt. Darstellungen wurden mit Matplotlib und Seaborn erstellt. Eine Geo-Analyse wurde mit Geopandas mit Daten vom Regionalatlas und opendatasoft durchgeführt.
Das Script cleaning
enthält Funktionen, die verwendet werden können, um ein aufbereitetes Datenset zu erhalten. Zentral ist die prep
Funktion.