"Topic modeling is complicated and potentially messy but useful and even fun. The best way to understand how it works is to try it."(Megan R. Brett, "Topic Modeling: A Basic Introduction")
..."versteckte" semantische Strukturen zu entdecken.
Grundidee aus der Distributionellen Semantik:
"a word is characterized by the company it keeps"(John Firth, 1957)
Grundidee:
etwas technischer:
generativ
iterativ
für jedes __Dokument__ in der Sammlung:
wähle eine Topic-Verteilung
für jedes __Wort__ im Dokument:
wähle ein Topic, zu dem das Wort gehört
wähle ein Wort aus dem Topic
wiederhole den ganzen Prozess!
Wort, Topic, Dokument haben im Topic Modeling eine besondere Bedeutung
words
Dokumente
corpus
Topics
"Schule"
"Reise"
"Französische Intervention in Mexiko (1861-1867)"
"Landschaftsbeschreibung"
(Mallet und Python; siehe http://github.com/cligs/tmw.)
Name | Entwickler | Sprache | Link | ||
---|---|---|---|---|---|
MALLET | machine learning for language toolkit | Andrew McCallum et al. | Java | http://mallet.cs.umass.edu/topics.php | |
Gensim | topic modeling for humans | Radim Řehůřek | Python | https://radimrehurek.com/gensim | |
tmw | topic modeling workflow | Christof Schöch | Python | https://github.com/cligs/tmw | |
DARIAH Topics Explorer | topic modeling workflow | DARIAH/Würzburg | Python | https://github.com/DARIAH-DE/TopicsExplorer https://dariah-de.github.io/TopicsExplorer/ | |
dfr-browser | a simple topic-model browser | Andrew Goldstone | JavaScript | http://agoldst.github.io/dfr-browser/ |
(Mallet und Python; siehe http://github.com/cligs/tmw.)
(Mallet und Python; siehe http://github.com/cligs/tmw.)
Zwei Schritte:
/home/ulrike/Programme/mallet-2.0.8RC3/bin/mallet train-topics
--input TM/Korpora/es/model.mallet
--num-topics 40
--optimize-interval 100
--num-iterations 5000
--num-top-words 50
--output-topic-keys mallet/model/topics-with-words.txt
--output-doc-topics mallet/model/topics-in-texts.txt
--topic-word-weights-file mallet/model/word-weights.txt
(Mallet und Python; siehe http://github.com/cligs/tmw.)
nach dem Topic-Modeling:
(Mallet und Python; siehe http://github.com/cligs/tmw.)
... Interpretation
... Evaluation
Wortwolken
Wie interpretierbar sind die Ergebnisse?
Wie können die Ergebnisse evaluiert werden?
Wie kann das überhaupt gemessen werden? (z.B. http://mallet.cs.umass.edu/diagnostics.php)
(Mallet und Python; siehe http://github.com/cligs/tmw.)
Theorie und Methode
Beispiele von Topic Modeling-Analysen
Tools
Folien unter: https://hennyu.github.io/dhd_19/
tmw: https://github.com/cligs/tmw
CLiGS: http://cligs.hypotheses.de/
Kontakt: ulrike.henny@uni-wuerzburg.de