Wie diskursivieren deutschsprachige literarische Texte die abnehmende Luftqualität im 19. Jahrhundert? Eine Fallstudie
Dieses interaktive Lehrbuch ist im Rahmen des Projekts QUADRIGA als 3. Fallstudie des Datentyps Text entstanden.
QUADRIGA ist das Berlin-Brandenburgische Datenkompetenzzentrum für Digital Humanities, Verwaltungswissenschaften, Informatik und Informationswissenschaft. Es wird gefördert im Rahmen der Richtlinie zur Förderung von Projekten zum Aufbau von Datenkompetenzzentren in der Wissenschaft des Bundesministeriums für Bildung und Forschung. Anhand modellhafter Forschungsfragen werden für die drei Datentypen Bewegtes Bild, Tabelle und Text Fallstudien entworfen, die Forschenden der angesprochenen Fachrichtungen Kompetenzen im Bereich der Datenanwendung disziplinspezifisch näher bringen.
Sie können dieses JupyterBook zu Lehr- und Lernzwecken verwenden. Sie können sie zudem teilen und bearbeiten unter der Bedingung der Nennung der Autor:innen und der gleichen Lizenzierung. Weitere Informationen dazu entnehmen Sie bitte den Lizenzhinweisen.
Dieses interaktive Lehrbuch vermittelt Methoden für die automatische Erstellung, Aufbereitung und Analyse eines Textkorpus. Im Zentrum steht die Frage, wie sich die mediale Aufmerksamkeit auf die Spanische Grippe in zeitgenössischen Berliner Zeitungen verändert. Der Fokus des Lehrbuchs liegt auf der Korpuserstellung mittels Optical Character Recognition (OCR) mit pytesseract. Das Lehrbuch ist in sechs Kapiteln aufgeteilt. Es wird zuerst in die Fragestellung und deren Operationalisierung eingeführt, dann werden Methoden des Korpusaufbaus beschrieben. Danach wird in die Methode der OCR sowie in die Nachbereichtung des Outputs eingeführt. Das Textkorpus wird dann mit scrapy lemmatisiert und schlussendlich wird eine diachrone Frequenzanalyse auf dem annotierten Korpus ausgeführt.
QUADRIGA ist ein Verbundprojekt mehrerer Institutionen, das von der Universität Potsdam koordiniert wird. Partner sind die Fachhochschule Potsdam, die Filmuniversität Babelsberg, das Fraunhofer FOKUS, die Freie Universität Berlin, die Humboldt-Universität zu Berlin, die Technische Universität Berlin und die Gesellschaft für Informatik.
Fragen und Feedback zu dieser OER können Sie uns sowohl über GitHub Issues als auch über Email zukommen lassen.