Ermittlung von Wörtern, die immer wieder zusammen vorkommen (= in ähnlichen Kontexten) ⇒ Topics
Berechnung, wie wichtig jedes Topic in jedem Dokument ist
Wie funktioniert Topic Modeling?
etwas technischer:
ein Topic ist eine Wahrscheinlichkeitsverteilung über Wörter
ein Dokument ist eine Wahrscheinlichkeitsverteilung über Topics
Wörter, Topics, Dokumente
(David Blei, "Probabilistic Topic Models", 2012)
Generativ, iterativ
generativ
Im Zentrum der Technik steht ein generatives Modell
Wie hätten die Dokumente entstehen können?
iterativ
für jedes __Dokument__ in der Sammlung:
wähle eine Topic-Verteilung
für jedes __Wort__ im Dokument:
wähle ein Topic, zu dem das Wort gehört
wähle ein Wort aus dem Topic
wiederhole den ganzen Prozess!
Generativ, iterativ
(Steyvers and Griffiths, "Probabilistic Topic Modeling", 2006)
Generativ, iterativ
(Steyvers and Griffiths, "Probabilistic Topic Modeling", 2006)
Tagebuch einer Hebamme aus Maine, zwischen 1785 und 1812 geführt
von Cameron Blevins mit Text-Mining-Methoden analysiert
Zuvor: Monographie "A Midwife's Tale" von Laurel Ulrich
Tagebuch:
fast 10.000 Einträge
fast tägliche Notizen
Topic Modeling Martha Ballard's Diary
Ulrich: “The problem is not that the diary is trivial but that it introduces
more stories than can be easily recovered and absorbed.”
Blevins: “how does a reader (computer or human) recognize and conceptualize
the recurrent themes that run through nearly 10,000 entries?“
“One answer lies in topic modeling“
“in the case of Martha Ballard’s diary, it worked. Beautifully“
Topic Modeling Martha Ballard's Diary
Mallet, 30 Topics, hier ein Sample (Top 20 Wörter, von Blevins mit Titeln versehen):
MIDWIFERY: birth deld safe morn receivd calld left cleverly pm labour fine
reward arivd infant expected recd shee born patient
CHURCH: meeting attended afternoon reverend worship foren mr famely
performd vers attend public supper st service lecture discoarst administred supt
DEATH: day yesterday informd morn years death ye
hear expired expird weak dead las past heard days drowned departed evinn
GARDENING: gardin sett worked clear beens corn warm planted matters cucumbers
gatherd potatoes plants ou sowd door squash wed seeds
SHOPPING: lb made brot bot tea butter sugar carried oz
chees pork candles wheat store pr beef spirit churnd flower
ILLNESS: unwell mr sick gave dr rainy easier care head neighbor feet
relief made throat poorly takeing medisin ts stomach
Topic Modeling Martha Ballard's Diary
Blick in ein Dokument (Tagebucheintrag vom 28. November 1795):
“Clear and pleasant. I am at mr Pages, had another fitt of ye Cramp, not So
Severe as that ye night past. mrss Pages illness Came on at Evng and Shee was Deliverd
at 11h of a Son which waid 12 lb. I tarried all night She was Some faint a little while
after Delivery.”
→ dominantes Topic MIDWIFERY (passt)
Topic Modeling Martha Ballard's Diary
Blevins: „The power of topic modeling really emerges when we examine thematic trends across
the entire diary.“
COLD WEATHER-Topic
cold windy chilly snowy air...
Topic Modeling Martha Ballard's Diary
zwei HOUSEHOLD-Topics über die Zeit
Warum Anstieg am Ende?
Topic Modeling Martha Ballard's Diary
Blevins Fazit:
„I am absolutely intrigued by the potential for topic modeling
in historic source material. In many ways, it seems that Martha
Ballard’s diary is ideally suited for this kind of analysis. Short,
content-driven entries that usually touch upon a limited number of
topics appear to produce remarkably cohesive and accurate topics.“
distinktive Topics für verschiedene Untergattungen
Interpretation und Evaluation
Wie interpretierbar sind die Ergebnisse?
Ein Topic Model kann Topics hervorbringen, die nach Themen aussehen.
Es können aber auch andere Arten semantischer Relationen sichtbar werden: Motive, Redeweisen, …
Oder es ist kein semantischer Zusammenhang erkennbar.
Bei einer Interpretation sollten möglichst alle Ergebnisse des Topic Models berücksichtigt werden.
Interpretation und Evaluation
Wie können die Ergebnisse evaluiert werden?
Zufälligkeit der Ergebnisse
Evaluation von Topic Models - was wird erwartet?
z.B. semantische Kohärenz von Topics
dass Topic Models die Dokumente „gut“ beschreiben
(dass das Modell sich gut für andere Aufgaben einsetzen lässt)
Wie kann das überhaupt gemessen werden?
Fazit
Fazit
Topic Modeling ist relativ einfach einzusetzen, es fehlt derzeit aber vor allem noch an Werkzeugen,
welche die Modellierung selbst um Vor- und Nachbereitung ergänzen.
Entscheidungen hinsichtlich Korpus und Modell beeinflussen Art und Qualität der Ergebnisse.
Fazit
Eine Topic Modeling-Analyse ist vor allem distant reading.
Topic Modeling kann:
der Erschließung großer Textsammlungen dienen
einen neuen Blick auf Texte ermöglichen
aufdecken, wie Themen in Sammlungen literarischer Texten entfaltet werden
Fazit
Ein Topic Model ist vor dem Hintergrund der Methode zu sehen!
Wie die Ergebnisse an traditionelle Fragen angebunden werden können, ist noch weitgehend offen.
Fazit
„As Stephen Ramsay argues in Reading Machines, using algorithms need not propel
us towards applying an ersatz scientific and scientistic evidentiary standard to
literary interpretation, but rather should reveal and perhaps help amplify our
already part-algorithmic literary-critical reading practices, the regular sets of
protocols and procedures of analog literary criticism with which we are very—perhaps sometimes too—familiar“
(Rachel Sagner Buurma: The Fictionality Of Topic Modeling:
Machine Reading Anthony Trollope's Barsetshire Series)
Steyvers, M. and Griffiths, T. (2006). "Probabilistic Topic Models". In: Landauer, T. et al. (eds), Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum.
Schöch, C. (2016). "Topic Modeling Genre: An Exploration of French Classical and Enlightenment Drama". In: Digital Humanities Quarterly. http://digitalhumanities.org/dhq/