Toxizitätserkennung in historischen Drucken. Einführung in Text Mining-Verfahren mit R

May 22, 2024 | 09:00 AM - 03:00 PM

Dozent/in	Dr. Jörg Lehmann, wiss. Mitarbeiter Forschungsprojekt "Mensch.Maschine.Kultur", Staatsbibliothek zu Berlin
Veranstalter	Universitätsbibliothek
Maximale Teilnehmerzahl	24
Anmeldung	→ Online anmelden
Raum	Garystr. 35-37 HFB/K II Konferenzraum Konferenzraum II
Beginn	22.05.2024 \| 09:00
Ende	22.05.2024 \| 15:00

Zielgruppe

Wissenschaftler*innen der Freien Universität Berlin

Voraussetzungen

Laptop
Aktuelle Softwareversion von R (mind. 4.3.1): https://ftp.fau.de/cran/

Kulturerbe-Einrichtungen verfügen über umfangreiche Sammlungen, die oft über lange Zeiträume hinweg zusammengetragen wurden. Die Sammlungen spiegeln daher die kulturellen und gesellschaftlichen Normen der jeweiligen Zeit wider. Infolgedessen können sie Begriffe enthalten, die in unserer gegenwärtigen Gesellschaft als unangemessen wahrgenommen werden. Zugleich macht es der Umfang des digitalisierten Materials schwierig, problematische Begriffe zu erforschen und zu kontextualisieren.

Inhalt

Dieser Workshop nimmt das Problem einer veralteten Sprache und der Verwendung toxischer Begrifflichkeit in den Blick und benutzt dabei die digitalisierten Sammlungen der Staatsbibliothek zu Berlin als Grundlage. Mit Hilfe von Methoden der Digital Humanities führen Teilnehmende maschinelle Auswertungen eines kleinen Textkorpus (20-30 Texte) durch. Basale Text Mining-Verfahren wie wordfrequency und word clouds, tf-id, Bi- und Trigramme (n-Gramme) sowie die Berechnung von Wortassoziationen werden vorgestellt.

Lernziele

Die Teilnehmenden lernen grundlegende Text Mining-Verfahren mit Hilfe des statistischen Softwarepakets R kennen und werden dazu befähigt, eine quantifizierende Auswertung von Texten in R vorzunehmen.

Als Beispiele dienen Volltexte aus den digitalisierten Sammlungen der Staatsbibliothek zu Berlin, die rassistische, diskriminierende oder homophobe Begriffe enthalten, also abwertende Wörter und Ausdrücke, die nicht mit den Werten und der Ethik einer Kulturerbe-Einrichtung wie der Staatsbibliothek zu Berlin in Einklang stehen.

Ada Lovelace Center for Digital Humanities (ADA)

Ada Lovelace Center for Digital Humanities (ADA)

Toxizitätserkennung in historischen Drucken. Einführung in Text Mining-Verfahren mit R

Zielgruppe

Voraussetzungen

Inhalt

Lernziele

Ada Lovelace Center for Digital Humanities (ADA)

Toxizitätserkennung in historischen Drucken. Einführung in Text Mining-Verfahren mit R

Zielgruppe

Voraussetzungen

Inhalt

Lernziele

Related Links