Ulrike Henny-Krahmer (Universität Rostock)
Workshop "Text+: Digitale Forschung auf der Grundlage von Text- und Sprachdaten bereichern", DHd 2025, Bielefeld, 3. März 2025.
Präsentation: https://hennyu.github.io/dhd25_textplus/
Im Projekt wurden mehrere neue Korpora in verschiedenen Sprachen und zu verschiedenen Gattungen zusammengestellt und kuratiert.
Die Texte sind in XML-TEI aufbereitet und enthalten verschiedene Metadaten (u.a. administrativ und deskriptiv).
Wir haben die Textbox zunächst auf GitHub publiziert und auf Zenodo archiviert.
"They are not necessarily the first place to look for literary corpora, do not offer special features for text or literary texts, such as presenting the works together with other versions (different editions, different languages), nor are the texts or metadata properly indexed by these tools. They also do not facilitate to move the texts to other DH tools."
Das sind ganz schön viele Ziele und Wünsche! Ob das inzwischen alles geklappt hat?
Das TextGrid Repository & Laboratory erfüllt schon viele unserer Anforderungen!
Durch die Initiative von José Calvo Tello (SUB Göttingen) ist die Textbox inzwischen ein Projekt im TextGrid Repository.
✓ 1. Die Korpora sollten langzeitarchiviert werden.
✓ 2. Die Korpora sollten zitierbar und eindeutig referenzierbar sein.
✓ 3. Metadaten und Daten sollten vollständig indexiert werden.
Aber: woher die Werte für die Metadaten kennen, nach denen man suchen soll? (z. B. "por" für Portugiesisch)
Aber: es werden nicht alle Metadaten indexiert (?)
✓ 4. Wichtige Eigenschaften (z. B. Textsprache) sollten angezeigt werden.
Ja, aber die Sprache wird erst links angezeigt, wenn man danach gesucht hat! (mit der Metadatensuche)
✓ 5. Nutzer:innen können einzelne Texte und gesamte Korpora mit einem Klick herunterladen.
✓ 6. Nutzer:innen können ihre Texte einfach mit solchen aus anderen Korpora kombinieren.
✓ 7. Texte sollten einfach an andere Tools übergeben werden können.
✓ 8. Die Konversion in andere Formate sollte einfach sein.
? 9. Die Konversion der Metadaten in RDF sollten unterstützt werden.
Was wir nicht wissen:
Wie gut hätte die Integration der Textbox in TextGrid geklappt, wenn José Calvo Tello nicht zufällig inzwischen Mitarbeiter an der SUB Göttingen und im Projekt Text+ beteiligt wäre?
Daher unser Fazit:
Präsentation:
https://hennyu.github.io/dhd25_textplus/