Skip to content

Latest commit

 

History

History
13 lines (9 loc) · 1.78 KB

readme.md

File metadata and controls

13 lines (9 loc) · 1.78 KB

Readme

Dieses Repository enhtält sowohl gesammelte Daten von Jobangeboten im Data Science und Analysis Bereich als auch deren Auswertung

Die allgemeine Analyse findet sich hier, eine Auswertung von Gehältern hier.

Data Collection

Die Daten wurden mit Hilfe von Skripten generiert, die nach Jobpostings auf gehalt.de unter den Schlagworten "junior+data+scientist", "junior+data+science", "junior+data+analyst" und "junior+data+analysis" suchen. Dafür wird die Webseite mit Selenium geöffnet und alle Jobspostings gescraped, bis genug bekannte Einträge gesammelt wurden, sodass sichergestellt werden kann, alle neuen Einträge gespeichert wurden. Anschließend werden die Inhalte der Jobangebote gescraped. Auch das funktioniert über Selenium und anschließend mit BeautifulSoup. Insgesamt werden so Titel, Unternehmen, Ort, die von gehalt.de prognostizierte Gehaltsbereiche, Informationen zu Teilzeit- und Remotemöglichkeit, sowie den gesamten Text der Stellenausschreibungen gespeichert.

Analyse

Die Auswertung der Daten wurde mit pandas durchgeführt. Darstellungen wurden mit Matplotlib und Seaborn erstellt. Eine Geo-Analyse wurde mit Geopandas mit Daten vom Regionalatlas und opendatasoft durchgeführt.

Nutzung

Das Script cleaning enthält Funktionen, die verwendet werden können, um ein aufbereitetes Datenset zu erhalten. Zentral ist die prep Funktion.