Roman-Typen als Topic-Modell-Klassen?
Roman-Typen als Topic-Modell-Klassen?
Es gibt sie!
Corpus of English Religious Prose, http://coerp.uni-koeln.de/, Screenshot
Es gibt sie!
Thalia.de, https://www.thalia.de/shop/home/show/, Screenshot
Es gibt sie!
Thalia.de, https://www.thalia.de/shop/romane-erzaehlungen-3/show/, Screenshot
0 | katholisch religion könig katholik kaiser protestantisch handeln niederland provinz protestantismus |
6 | erziehung erzieher tugend mensch ideell zögling gesellschaft abhandlung historisch inner |
7 | grenze nationalität heutig sprachgrenze südlich süddeutsch gebiet inner muttersprache einheitsstaat |
14 | bahn bahnlinie konzession bahnbau projekt geplant annullierung britisch anwenden ausdrücklich |
27 | virtuose pianoforte talent vater virtuos knabe welt klavierlehrer portrait instrument |
Name | Developer | Language | Link | ||
---|---|---|---|---|---|
MALLET | machine learning for language toolkit | Andrew McCallum et al. | Java | http://mallet.cs.umass.edu/topics.php | |
Gensim | topic modeling for humans | Radim Řehůřek | Python | https://radimrehurek.com/gensim | |
tmw | topic modeling workflow | Christof Schöch | Python | https://github.com/cligs/tmw | |
dfr-browser | a simple topic-model browser | Andrew Goldstone | JavaScript | http://agoldst.github.io/dfr-browser/ |
Romane über die Jahrzehnte, Vergleich von Korpus und Bibliographie
Romane im Korpus über die Jahrzehnte und nach Ländern
Anteile von Romanen verschiedener Untergattungen
Länge der Romane im Korpus in Tokens
Ziel: Ermitteln von Themen, die in den Romanen eine Rolle spielen
Anteile der Topics in der Textsammlung
(links absteigend,
rechts aufsteigend nach Wichtigkeit)
(eigene Darstellung, mit pygal)
Beispiel-Topic 34: palabra-asunto-posible (Wort-Angelegenheit-möglich)
(erstellt mit TMW)
Beispiel-Topic 39: corazón-lágrima-alma (Herz-Träne-Seele)
(erstellt mit TMW)
Beispiel-Topic 43: ejército-enemigo-prisionero (Heer-Feind-Gefangener)
(erstellt mit TMW)
Ziel: Ermitteln von Themen, die für die Einordnung der Romane in bestimmte Untergattungen zentral sind
3 Klassen: historical, sentimental, costumbrista
Optimale Baumtiefe: 4 | Genauigkeit: 97,2% im Training, 58,3% im Test
(Darstellung erstellt mit sklearn)
3 Klassen: historical, sentimental, costumbrista für die Entscheidung wichtige Merkmale:
... |
4 Klassen: historical, sentimental, costumbrista, social
Optimale Baumtiefe: 5 | Genauigkeit: 90,1% im Training, 41,9% im Test
(Darstellung erstellt mit sklearn)
4 Klassen: historical, sentimental, costumbrista, social für die Entscheidung wichtige Merkmale:
... |
2 Klassen: historical, sentimental
Optimale Baumtiefe: 1 | Genauigkeit: 83,3% im Training, 83,3% im Test
(Darstellung erstellt mit sklearn)
2 Klassen: historical, sentimental für die Entscheidung wichtiges Merkmal:
|
Ziel: Überprüfen, ob Romane sich auf der Grundlage
(zunächst aller)
ihrer Themen nach den Untergattungen gruppieren
(ohne dass die
Untergattungen vorher festgelegt sind)
3 Cluster | 95 Romane
3 Untergattungen: historical (39),
sentimental (33), costumbrista (23)
(eigene Darstellung, mit pygal)
5 Cluster | 95 Romane
3 Untergattungen: historical (39),
sentimental (33), costumbrista (23)
(eigene Darstellung, mit pygal)
7 Cluster | 95 Romane
3 Untergattungen: historical (39),
sentimental (33), costumbrista (23)
(eigene Darstellung, mit pygal)
Folien: https://hennyu.github.io/dh_coll_17
CLiGS-Gruppe: http://cligs.hypotheses.de/