Ansätze für digitale und korpusbasierte Wortschatzanalysen

spanischer und hispanoamerikanischer Romane des 19. Jahrhunderts


Ulrike Henny-Krahmer und José Calvo Tello
(CLiGS, Universität Würzburg)


Kolloquium zur romanistischen Sprachwissenschaft
16. Mai 2018


Folien unter: https://hennyu.github.io/koll_rom_18/

Übersicht

  1. Hintergrund
    • Nachwuchsgruppe CLiGS
    • CLiGS-Textbox
  2. Beispiele für digitale Wortschatzanalysen
    • Distinktive Merkmale mit Pyzeta
    • Wortfeld-Analyse mit dem NDHE
    • Wortschatzvergleich mit dem DRAE

1. Hintergrund

Nachwuchsgruppe

  • Computergestützte Literarische Gattungsstilistik
  • Nachwuchsgruppe am Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte in Würzburg (2014-2019)
  • Frage nach dem Verhältnis von Gattung und Stil (Großgattungen, Untergattungen von Romanen, Dramen, etc.)

CLiGS-Textbox

  • 9 Sammlungen historischer literarischer Texte
  • In verschiedenen romanischen Sprachen: Französisch, Spanisch, Portugiesisch und Italienisch
  • Verschiedene Gattungen: Roman, Theaterstücke, kürze Erzählungen

CLiGS-Textbox

  • Texte: 550
  • Tokens: 15 Mio.
  • In XML-TEI, PDF und plain text
  • Metadaten
  • Sprachliche Annotation (Freeling)

CLiGS-Textbox

  • Collection of 19th Century Spanish-American Novels (1880-1916): 24 novels
  • Corpus of Spanish Novels from 1880-1940: 39 novels
  • Collection de nouvelles françaises du dix-neuvième siècle: 28 novellas
  • Collection de romans français du dix-neuvième siècle: 36 novels.
  • Collection de pièces the théâtre français du dix-septième siècle: 100 plays.
  • Collection of 19th Century Portuguese Novels (1840-1910): 30 novels
  • Collection of Italian Short Stories and Novellas (1880s-1920s): 90 short stories and novellas
  • Corpus of Spanish Short Stories from 1880-1940: 193 single short stories
  • Collection of Italian Novels (1850 and 1890): 10 novels

CLiGS-Textbox

CLiGS-Textbox

  • Als GitHub-Repository veröffentlicht
  • Die Texte sind frei verfügbar (CC BY)
  • In Zenodo archiviert (DOI: 10.5281/zenodo.597430)

CLiGS-Textbox

2. Beispiele für digitale Wortschatzanalysen

Ermittlung distinktiver Merkmale von Textgruppen mit Pyzeta

Zeta

  • Maße der Distinktivität von Merkmalen ("keyness")
  • Von Burrows (2007) vorgeschlagen
  • Sehr verbreitet in Stylometrie und Digital Humanities
  • Implementiert in stylo oder pyzeta

Zeta

  • Welches sind die Wörter, die spanische Romane von hispanoamerikanischen Romane unterscheiden?
  • 24 spanische Romane vs. 24 hispanoamerikanische Romane (Argentinien, Kuba und Mexiko)
  • Lemmatisiert, Zeta, Split = 10.000

Zeta

Zeta

Vergleich mit Häufigkeiten in CORDE

Analyse von Wortfeldern mit dem Nuevo diccionario histórico del español (NDHE)

NDHE und Wortschatz in Romanen

  • Nuevo diccionario histórico del español: web.frl.es/DH
  • José Antonio Pascual und Mar Campos Souto (Instituo Rafael la Pesa, RAE)
  • Makrostruktur des Lexikons nach Wortfeldern
  • Krankheiten, Waffen, Instrumente...

NDHE und Wortschatz in Romanen

  • Tauchen Krankheiten (bzw. Wortschatz über Krankheiten) in naturalistischen Romanen häufiger auf?
  • Tauchen Waffen in Gaucho-Romanen häufiger auf?
  • Tauchen Waffen in historischen Romanen häufiger auf?

NDHE und Wortschatz in Romanen

  • Binarisierung von Untergattungen (z.B. naturalistisch vs. nicht-naturalistisch)
  • Lematisiert
  • Nur die Lemmata behalten, die zu einem bestimmten Wortfeld gehören
  • Zum Beispiel: von 481 Lemmata in NDHE mit Bezug zu Krankheiten kommen nur 28 in den Romanen vor
  • Durschnittliche relative Häufigkeit pro Roman

NDHE: Krankheiten in naturalistischen Romanen

NDHE: Waffen in Gaucho-Romanen

NDHE: Waffen in historischen Romanen

Wortschatzvergleich mit dem Diccionario de la lengua española de la Real Academia (DRAE)

Ausgangspunkt:

  • Diccionario de la lengua española de la Real Academia (DRAE)
    • aktuell 23. Edition (2014)
    • > 93.000 Lemmata
  • Analysekorpus
    • Teilsammlung aus der CLiGS Textbox
    • je 18 Romane aus Argentinien und Spanien (19.-20. Jh.)

Fragen

  • Wie gut deckt das DRAE das Vokabular der Romane ab?
  • Welches Vokabular ist für die Romane spezifisch, in dem Sinne, dass es nicht im Wörterbuch erfasst ist (z.B. "literarisches" Vokabular) oder besonders markiert ist, (z.B. historisches Vokabular)?
  • Welche Unterschiede gibt es zwischen den Texten aus Spanien und Hispanoamerika?

Aufbereitung des Lexikons

  • lexikographische Informationen müssen extrahiert werden
  • E-Book des Wörterbuchs: Konversion in einfaches XML-Format
  • Felder:
    • Lemma
    • grammatische Kategorie
    • ob es Wortbedeutungen gibt, die geographisch oder stilistisch markiert sind

Aufbereitung des Analysekorpus

  • Annotation der TEI-Fassungen der Romane mit FreeLing
    • Lemmata
    • grammatische Kategorien
    • Auswahl: Substantive, Verben, Adjektive, Adverbien

Ergebnisse:

Verteilung der Wortarten

Wortart DRAE Korpus
Substantive 61 % 55 %
Verben 14 % 19 %
Adjektive 28 % 19 %
Adverbien 3 % 6 %
gesamt ~ 90.000 ~ 30.000

Wörter im Korpus, die in DRAE vorkommen

Wortart Lemmata im DRAE Tokens im DRAE
Substantive 77 % 98 %
Verben 69 % 98 %
Adjektive 79 % 96 %
Adverbien 48 % 92 %
gesamt 74 % 97 %

Nicht abgedeckte Wörter

Typ Beispiele Lemmata Tokens
Wort mit historischer Schreibung á, fué, habia, luégo, oir 22 6.871
Komplexe Form a cada paso, hacer cargo, pues bien, tal vez, tomar parte 49 3.851
Zahl 1, 2, 3, 4 5 2.270
Lemmatisierung acurrucar, bajito, milicos, prostituta, pulperías 12 538
mündlicher Ausdruck ju ju, pa, usté, verdá 4 350
Anredeform donna, misia, ño, pae, señá 5 267
Historische Form díjole, púsose 2 71
Derivation apresuradamente 1 36
gesamt 100 14.254

Zwischenfazit

Analyse der häufigsten Wörter, die nicht im DRAE vorkommen, zeigt eher Besonderheiten der Daten und Interdependenzen zwischen NLP-Werkzeugen und dem Wörterbuch auf als stilistische Besonderheiten der Romantexte.

Ergebnisse, die auch in sprach- und literaturwissenschaftlicher Hinsicht interessant sind?

Zwei Autoren

  • Eduardo Ladislao Holmberg (1852-1937), Argentinien
  • Emilia Pardo Bazán (1851-1921), Spanien

Nicht-DRAE-Wortschatz Holmberg

Typ Beispiele Lemmata Tokens
Fremdwörter aurum, my lord, robe-de-chambre, rotissérie, spleen 11 12
Derivation desprecavidamente, enchalecar, fisionómico, mediumnidad, pesquisante 15 17
Komposition ante-marcial, antero-posterior, semiconvicción, semi espontáneo 4 5
Fachvokabular faquirismo, filodendro, fosfóreo, giratriz, soporífico 8 8
Neologismen etmóidues, paralelipípedo 2 2

Nicht-DRAE-Wortschatz Pardo Bazán

Typ Beispiele Lemmata Tokens
Diminutive arroyuelo, carita, golpecito, nubecilla, pequeñín 44 60
Augmentative bigardón, caseretón, ricachón 5 5
Fremdwörter champagne, esprit, highlife, kummel, nobis 31 37
Derivation alguacilatos, aportuguesada, barbacanesca, enarcamiento, noticierismo 22 28
Komposition autoconfesión, neosegundo, semisueño, ultrarrefinado, verdiblanco 14 15
Fachvokabular cabrifollo, genitriz, lamanisco, literalismo, psicalgia 9 11
Umgangssprache hecho añicos, miquitrefe, pillete, pilluelo, piperete 7 13

Ergebnisse: Wörter, die nicht in DRAE vorkommen

  • globale und quantitative Analyse
    • orthographische und grammatikalische Eigenschaften des Korpus
    • Funktionsweise der Lemmatisierung
  • Analyse des außergewöhnlichen Vokabulars einzelner Autoren
    • stilistische Besonderheiten der literarischen Texte aufdecken

Markiertes Vokabular

Welche der Wörter aus den Romanen, die in DRAE enthalten sind, gelten als:

  • veraltet/historisch
  • geographisch markiert (Spanien, Amerika/Argentinien)
  • dialektal
  • umgangssprachlich?

Markiertes Vokabular

Typ Beispiele Lemmata % Tokens %
veraltet despabilar, marchante, melecina, tropelía, vaivenear 2.023 6,50 228.148 22,76
dialektal abastar, abonar, apegar, cunero, fierro 5 0,02 67 0,007
umgangssprachlich asnal, baboso, curro, pajarraco, regordete 2.477 7,96 220.732 22,02
Spanien achuchar, marrón, pirrar, talego, zagal 96 0,31 5.041 0,50
Amerika botarate, bronca, caudillaje, gallero, milico 248 0,77 25.361 2,53
Argentinien endenantes, fifí, mate, palangana, viborear 739 2,35 38.930 3,88

Struktur eines Eintrags in DRAE

Fazit DRAE

  • DRAE nützlich auch für quantitative Wortschatzanalysen
  • Großteil des Vokabulars der Romane abgedeckt
  • Lexikon-basierte Analysen hilfreich (nicht-standardisiertes Vokabular, Anteile von Wortkategorien, etc.)
  • aber: mehr wäre möglich!
    • semantisch aufbereitete digitale Version des Lexikons
    • frei zugänglich über Programmierschnittstelle

Fazit

  • Textbox: Verbesserung der Verfügbarkeit von (historischen) literarischen Texten in romanischen Sprachen
  • Wortschatzanalysen:
    • verschiedene mögliche Ansätze zur Untersuchung der Textbox-Quellen
    • Integration von Quellen und sprachwissenschaftliche Resourcen
    • Pyzeta: distinktive Lemmata für Spanien und Hispanoamerika
    • NDHE-Wortfelder: für Roman-Untergattungen spezifische Bereiche
    • DRAE: Wortschatz der Texte im Verhältnis zum Referenzwörterbuch

Fazit

  • Ausblick: Kombination von digitalen Tools, kritischen Editionen, Korpora und linguistischen Ressourcen: neue Fragen, neue methodische Wege
  • nötig dafür: Standards verwenden, offene Bereitstellung von Ressourcen!

Literaturhinweise

  • DLE/DRAE = Real Academia Española (2014): Diccionario de la lengua española. 23.ª edición. Madrid. dle.rae.es
  • NDHE = Pascual, José Antonio / Mar Campos Souto (2013): Nuevo diccionario histórico del español. Madrid: Instituto de investigación Rafael Lapesa de la Real Academia Española. web.frl.es/DH/
  • Padró, Lluís / Evgeny Stanislovsky (2012): «FreeLing 3.0: Towards Wider Multilinguality», Proceedings of the Language Resources and Evaluation Conference, Istanbul. nlp.lsi.upc.edu/publications/papers/padro12.pdf
  • Schöch, Christof / Albin Zehe / José Calvo Tello (2018): «Burrows Zeta: Varianten und Evaluation», DHd 2018 Kritik der digitalen Vernunft. dhd2018.uni-koeln.de/programm/

Vielen Dank!

Folien unter: https://hennyu.github.io/koll_rom_18/

CLiGS: http://cligs.hypotheses.de/

Textbox: https://github.com/cligs/textbox/

CC-BY 4.0