Einführung in die Digital Humanities



Christof Schöch
(Universität Trier)

Modul Grundlagen der Digital Humanities
Master Digital Humanties
Trier University

17 Oct 2025

Sitzung 1 (17.10):
Organisatorisches und Überblick

Sitzungsablauf

  • Organisatorisches
  • (Vorstellungsrunde)
  • DH in Trier
  • Seminarplan: Überblick über die Themen
  • Empfehlung: Digital Humanities: Eine Einführung
    (Jannidis, Kohle, and Rehbein 2017).

Sitzung 2 (24.10.):
Was ist Digital Humanities?

Definition

Digital Humanities is the application of digital tools to the work of humanists and the creation of humanist works in the digital realm. Its applications encompass research and teaching. – Aaron Gulyas

Definition

For me, Digital Humanities is very similar to an English class just with a computer component to it.

Definition

DH is the application and the use of computing tecnologies for the research, teaching and investigation in the disciplines of the humanities.” – Alí Albarrán

Definition

Learning and sharing about who we are as human beings, past and present, through digital media and tools; Helping to develop digital techniques, tools, and methodologies that benefit the study of the humanities. – Jeremy Boggs

Definition

For me, Humanities Computing means the transformation of creative and informative communication (for all individuals, not just academics, students and other experts) via an ever- and expanding array of information and communication technologies, an amplification of the individual’s power to research, to write, to communicate, to publish and to participate in, and create new spaces in, the public sphere. Just as I feel that the Humanities enrich everyone’s life, humanities transformed by ICTs enrich everyone’s life. – Lesley Mary Smith, George Mason University

Definition

DH is part of what once was called ‘auxillary sciences’ in the humanities in the best sense: To know about the theory and methods of carrying out scholarly work in a digital way and in the digital age is prerequisite to all work done. – Torsten Schaßan

Wiederkehrende Diskussionspunkte

  • Vielfalt der Einsatzbereiche: Lehre, Forschung, WissKomm, ‘real world applications’
  • Vielfalt der Methoden und Gegenstände
  • DH als Hilfswissenschaft? Disziplin? Methode? Perspektive? Community? Impuls, …?
  • DH für Vergangenheit, Gegenwart und Zukunft
  • D nicht nur positiv, sondern auch Schattenseiten (biases, Ungerechtigkeiten)

Ein paar aktuelle Diskussionen

  • Sind die DH eine ‘junge Disziplin’?
  • Wird es die “DH” in 10 Jahren noch geben?
  • DH = D für H, aber auch H für D?
  • Ist die konkrete Bezeichnung eigentlich egal?
    • Computers and the Humanities
    • Computing in the Humanities
    • Humanities Computing
    • Digital Humanities
    • Computational Humanities

Mir persönlich wichtige Aspekte

  • DH als die Leute, und ihre Kompetenzen, die DH machen
  • Digital Humanists als ‘Brückenbauende’
  • Methodenimport = Methodenadaptation
  • Digitale Methoden nutzen, Digitalität mitgestalten, aber mit kritischer Perspektive

DH according to ChatGPT… (on 24 Oct 2025)

Sitzung 3 (31.10.)
Open Access

Neue Informationen zu OA

  • Geschäftsmodelle zur Finanzierung der OA Publikationen, insb. “subscribe-to-open”
  • Typische Publikationskosten von rund €500 (bei UbiquityPress)
  • Zug-Weichen-Modell der Creative Commons-Lizenzen
  • “5R” der Open-Content-Definition: Retain, Revise, Remix, Reuse, Redistribute
  • OA-Typen und Statistiken (Anteile, Zitationsraten)
  • Dass historisch gesehen die meisten Publikationen kostenlos und ohne Lizenz (bronze) waren
  • Das PDF-Format ist zum Lesen gut, aber sonst eigentlich nicht (Accessibility, Archivierung)
  • Die Bedeutung von Normdaten für Open Access

Open Access und KI

  • Frage: Brauchen wir separate Lizenzen für KI-Nutzung?
  • Antwort
    • Ganz aktuelle Debatte!
    • Siehe u.a.: “CC Signals”
    • OA unter Druck, weil Forschende keine AI-Nutzung wollen

Hybrid-Modell

  • Fragen:
    1. Verlangen Hybrid-Zeitschriften gleichzeitig Subskriptionsgebühren und “Article Processing Charges”?
    2. Wie gehen die DEAL-Verträge mit der Problematik des Hybridmodells um?
  • Antwort:
    1. Ja, man nennt das auch “double dipping”
    2. Es ist einfach eine weitere Option (DEAL statt APC, bspw. Springer)

Freemium

  • Frage: Widerspricht das “Freemium-Modell” nicht dem entscheidenden Vorteil von OA, der freien Verfügbarkeit?
  • Antwort
    • Das kommt auf die konkrete Ausgestaltung an
    • Beispiel: Open Edition: HTML frei zugänglich, PDF und ‘library services’ gegen Gebühr

Maschinenlesbare Aufbereitung

  • Frage: Wer leistet und bezahlt den Mehraufwand für die maschinenlesbare Aufbereitung der Artikel?
  • Antwort
    • Das kommt darauf an, wie das umgesetzt wird (und wie aufwändig es ist)
    • Beispiel heiUP: Umsetzung und Finanzierung durch den Universitätsverlag
    • Beispiel JCLS: Umsetzung durch Dienstleister, Finanzierung durch die Bibliothek
    • Beispiel DHd: Freiwillige bei den lokalen Organisator:innen, keine separat ausgewiesenen Kosten

Verbreitung der Finanzierungsmodelle

  • Frage: Wie ist die Verbreitung der unterschiedlichen Open-Access Finanzierungsmodelle?

Rechte

  • Frage: Wer darf geschützte Werke mit Lizenzen publizieren?
  • Antwort
    • Immer diejenige Person oder Institution, die das Urheberrecht innehat
    • Wer die Rechte nicht hat, darf den Zugang nicht steuern (öffnen oder schließen)
    • Beispiel: Editionen gemeinfreier Werke (Werk ist frei, aber was ist mit Texterstellung und Markup?)

Ressourcen zu Open Access / Open Science

Update 3 Nov 2025 zum Thema Open Access

Sitzung 4 (7.11.)
Digitalisierung von Text und Bild

(1) Rückfragen zum Screencast

(a) Pixelbasierte vs. vektorbasierte Bilder

Pixelbasierte Bilder (Rastergrafiken)

  • Ideal für komplexe, detailreiche Bilder wie Scans von Manuskripten, Gemälden oder Fotografien
  • Vorteile
    • Realitätsnahe Darstellung:
    • Weit verbreitet: Nahezu alle Bildanzeige- und Bearbeitungsprogramme unterstützen Rasterbilder.
    • Geeignet für digitale Editionen: Ermöglichen die originalgetreue Wiedergabe historischer Quellen (inklusive Textur, Flecken, Papierstruktur).
    • Standard in Bildarchiven: Viele Digitalisierungsprojekte (z. B. Europeana, DFG-Viewer) arbeiten mit hochauflösenden TIFF-Dateien.
  • Nachteile
    • Skalierungsverlust: Beim Vergrößern werden Pixel sichtbar.
    • Große Dateigrößen: Besonders bei hochauflösenden Scans (600 dpi oder mehr).
    • Schwierig zu analysieren: Automatische Erkennung oder Annotation (OCR, Musteranalyse) benötigt zusätzliche Verarbeitungsschritte.
    • Bearbeitung nicht verlustfrei: Jede Bearbeitung kann zu Qualitätsverlust führen.

Vektorbasierte Bilder

  • Ideal für Karten, Diagramme, Netzwerke, Schaubilder
  • Vorteile
    • Beliebig skalierbar: Keine Qualitätsverluste bei Vergrößerung
    • Kompakte Dateigröße: Besonders bei geometrischen Formen und Texten.
    • Semantische Struktur: Einzelne Elemente (Linien, Texte, Flächen) sind programmatisch zugänglich und können annotiert.
    • Gut für Daten-Visualisierungen: Netzwerkanalysen oder Statistiken
  • Nachteile
    • Höhere Erstellungskomplexität: Vektordaten müssen konstruiert oder aus Rasterbildern extrahiert werden (z. B. durch Vektorisierung).
    • Begrenzte Archivierungseignung: Nicht der Standard für Langzeitarchivierung historischer Quellen.
    • Kompatibilitätsprobleme: Nicht alle Werkzeuge oder Viewer unterstützen komplexe SVG-Funktionen gleich gut.

(b) RGB vs. HSV

Grundsätzliche Unterschiede der beiden Farbräume

  • RGB (Red–Green–Blue)
    • Additiver Farbraum, basiert auf den drei Primärfarben
    • Jeder Farbton entsteht durch Kombination unterschiedlicher Intensitäten von Rot, Grün und Blau
    • Typisch für Kameras, Scanner, Monitore
    • Meist als drei Werte zwischen 0 und 255 repräsentiert (8 Bit)
  • HSL (Hue–Saturation–Value)
    • Wahrnehmungsorientierter Farbraum
    • Trennt die Farbinformation (Farbton) von der Sättigung (Intensität / Weißanteil) und der Helligkeit
    • Beschreibt Farben näher an der menschlichen Wahrnehmung |

RGB visualisiert

HSV visualisiert

RGB (Red–Green–Blue)

  • Vorteile
    • Standard bei digitalen Scans: Scanner, Kameras und Bildschirme arbeiten intern mit RGB
    • Weit verbreitet in CV-Bibliotheken: Algorithmen in OpenCV, TensorFlow etc. erwarten oft RGB-Daten
    • Bei der Untersuchung von Farbveränderungen, Tinten, Papieren oder Alterungsvorgängen können die einzelnen RGB-Kanäle gezielt analysiert werden
  • Nachteile
    • Nicht intuitiv für menschliche Interpretation: Es ist schwierig, „Farbton“ oder „Sättigung“ direkt aus RGB-Werten zu erkennen
    • Empfindlich gegenüber Lichtverhältnissen: Kleine Belichtungsunterschiede führen zu großen Farbabweichungen
    • Berechnung von Farbunterschieden schwierig, Farbwahrnehmung und RGB-Werte nicht korrelieren

HSV (Hue–Saturation–Value)

  • Vorteile
    • Trennung von Farb- und Helligkeitsinformation: Erleichtert z. B. die Segmentierung oder Objekterkennung unabhängig von Beleuchtung.
    • Intuitiver für menschliche Annotation: Farbton und Helligkeit separat interpretierbar
    • Hilfreich bei Visualisierung: Farbvergleiche und Farbanpassungen können intuitiver vorgenommen werden
    • In manchen Kontexten: Bessere Trennung von Tinte / Hintergrund über den Hue-Kanal
    • Bei ungleichmäßig beleuchteten Scans: kann man über V-Kanal ausgleichen ohne Hue zu ändern
  • Nachteile
    • Nicht geräteorientiert / kein physikalisches Modell der Lichtmischung => kann bei exakter Farbreproduktion ungenauer sein.
    • Nicht linear: Kleine Änderungen in den RGB-Werten führen nicht zu gleichmäßigen Änderungen in HSL – problematisch bei quantitativen Analysen
    • Rechenaufwand: Umwandlung RGB => HSL beansprucht Rechenzeit
    • Begrenzte Unterstützung: viele CV-Frameworks arbeiten nicht nativ mit HSV

Low-budget OCR

  • Frage: Wie sieht das OCR Ökosystem für den arme Studis aus? Wie gut sind Handy-Scanner?
  • Eine Option: DocScan App + Handy + ScanTent + Transkribus
  • Viele Bibliotheken haben auch solche oder ähnliche Scan-Zelte
  • OCR mit Transkribus – 50 S. / Monat kostenlos :-(
  • Erfahrung mit Apps: gemischt; wird besser; nur für einzelne Seiten praktikabel

(2) Papers zu OCR/HTR mit LLMs

Unlocking the Archive: OCR (DOI)

“In our testing, we found that frontier model LLMs produce more accurate transcriptions of handwritten historical English language documents than state-of-the-art HTR models on “out-of-the-box” transcription tasks (Tables 1 and 2). To establish a baseline for conventional HTR software, we looked at both transcriptions generated with Trankribus’s older PyLaia model (which is the model most featured in the literature) and its newer and more advanced transformer based Titan Super Model. The PyLaia model transcribed the test data set with an average strict CER of 10.3% and WER of 27.0% which is comparable to the results reported by other authors (Christlein et al 2018; Ó Raghallaigh 2022; Prebor 2023). The Titan model improved on these results by 20% (CER=8.0%) and 26% (WER=19.7%). This means that on the task of achieving a perfect transcription, the Transkribus models correctly transcribed between 90 and 92% of the characters and 73 and 80% of the words in the ground truth document.
In terms of the LLMs, two of the three models tested outperformed the PyLaia model on strict CER while all three did better on strict WER. Only Claude Sonnet-3.5 improved on the Transkibus Titan Super Model, scoring 10% better on character accuracy and 19% on word accuracy, achieving a strict CER of 7.3% and strict WER of 15.9% (Gemini 1.5-Pro-002 also outperformed Titan by 4%). This shows that frontier LLMs can achieve state-of-the-art performance without fine-tuning or training on specific document formats or handwriting styles. While this was significantly better than the conventional HTR results, we should note that it is still about 60% less accurate than the upper error rates reported for non-expert human transcribers (Feng et al 2020; Nordo et al 2017; Oliveira 2018; Stolcke 2017).”

Benchmarking large language models for HTR (URL)

“It emerged that LLMs applied to HTR offer several advantages, including ease of implementation, improved user–model interaction, faster processing times and reduced costs. The differences in workflow, when compared to traditional approaches, could significantly alter how this task is adapted, potentially enabling a single general model to recognize various handwriting styles and languages. Such advancements could enhance HTR predictions and promote a wider adoption in digital libraries.
However, the results of this research show that the feasibility of using both proprietary and open-source LLMs for HTR is skewed towards the English language and mostly on modern handwriting documents, caused by the proportionally unbalanced datasets used during pre-training. Consequently, the performance on other languages and historical documents is consistently weaker, generally producing unusable results. The model which constantly demonstrated the best results overall is Claude Sonnet 3.5. While the accuracy is similar between proprietary and open-source models on modern handwriting and English materials, open-source model performance decreases significantly for historical documents in other languages. Moreover, MLLMs do not demonstrate a consistent and significant capability of autocorrection. In particular, it can be observed that post-corrections produced by open-source models reduced accuracy overall. As for the comparison with Transkribus’ models, it is not possible to generalize if the platform’s models outperform LLMs or vice versa. While LLMs achieved comparable results for English historical handwriting and outperformed Transkribus on modern handwriting and Italian datasets, Transkribus models showed better results on German and multilingual datasets.”

Sitzung 5 (14.11.):
Datenmodellierung 1

Projekte mit Datenmodell: Aufgabe

Suchen Sie sich auf der Projekte-Seite des EADH-Verbands ein geeignetes DH-Projekt heraus: https://eadh.org/projects.

Identifizieren einen bestimmten Aspekt des Projekts, in dem ein Modell erstellt wurde. Beschreiben Sie:

  1. Was der Gegenstand ist, den das Modells repräsentiert
  2. Inwiefern das Modell eine Vereinfachung oder Abstraktion dieses Gegenstandes ist
  3. Welchem Zweck das Modell im Projektkontext dient oder welche Vorteile es gegenüber dem Original-Gegenstand hat.

Sitzung 6 (26.11.):
Datenmodellierung 2

Überblick

  • Fragen zu Datenbanken: Normalisierung, SQL, SPARQL
  • Vergleich relationale Datenbanken vs. Graphdatenbanken

Frage / Diskussion: Wie viel Normalisierung?

  • Trade-off Normalisierung vs. Lesbarkeit
  • Wie konsequent bei der “Atomisierung” sein?

Fragen (2): SQL

Ein paar Beispielqueries auf https://livesql.oracle.com/next/.

SELECT *
FROM HR.COUNTRIES
WHERE REGION_ID = 50 ;
SELECT POSTAL_CODE, CITY, COUNTRY_ID 
FROM HR.LOCATIONS 
WHERE COUNTRY_ID = 'JP'
SELECT first_name, last_name, job_id
FROM HR.EMPLOYEES
WHERE job_id = 'FI_ACCOUNT'
ORDER BY first_name ; 
SELECT HR.EMPLOYEES.first_name, HR.EMPLOYEES.last_name, HR.JOBS.job_title  
FROM HR.EMPLOYEES
INNER JOIN HR.JOBS ON HR.EMPLOYEES.job_id=HR.JOBS.job_id 
ORDER BY HR.JOBS.job_title ;

Als Vergleich dazu: SPARQL-Queries

Vergleich relationale vs. graphbasierte DB

  • Vor- und Nachteile graphbasierter DB
    • (+) Insbesondere für stark vernetzte Daten geeignet
    • (+) Kein fixes Schema, kein Schema notwendig, dadurch flexibler
    • (+) Bei komplexen Abfragen bessere Performance (vgl. JOIN)
    • (+) Mmn: Kontextualisierung (qualifier/references); Widersprüchlichkeit;
    • (-) Überblick über die Daten bei Tripeln etwas schwieriger als bei Tabellen
    • (-) Performance bei Abfragen auf Wikidata oft problematisch (time-out)
  • Vor- und Nachteile relationaler DB
    • (+) In vielen Szenarien effizienter und performanter
    • (+) Bessere Möglichkeiten, die Integrität der Daten zu prüfen
    • (+) SQL: Standard, viele kennen es, viele Tutorials (bei Graphdatenbanken mehrere Optionen)
    • (-) Deutlich aufwändiger, im Verlauf der Zeit das Datenmodell zu ändern

Sitzung 7 (3. Dez.):
Digitale Edition

Entwicklungskosten

  • Frage: Entwicklungskosten digitalen historisch-kritischen Edition im Vergleich zu einer klassischen Print-Ausgabe
  • Antwort:
    • Der Vergleich ist schwierig, weil keine Edition gleich ist
    • Eine digitale Edition ist prinzipiell mindestens genauso aufwändig, leistet aber deutlich mehr
    • Auch Tool-Entwicklung ist oft notwendig, Tools können dann aber nachgenutzt werden
  • Beispiel: Digitale Edition von Stephan Heyms Ahasver
    • Das Projekt selbst: normale Sachbeihilfe (DFG, 2021–2024)
    • Nachnutzung von FuD (SFB 600) und Transcribo (Schnitzler-Edition)

Größte Schwierigkeit

  • Frage: Worin besteht die größte Schwierigkeit bei einer Digital Edition
  • Antwort
    • Auch hier: Jede Edition ist anders, jedes Projekt hat seine eigenen Herausforderungen
    • Typische Quellen von Herausforderungen kann man aber schon nennen
    • Rechteklärung: muss vorab schon geschehen, daran können Projekte scheitern
    • Förderung: auch die Mittel müssen bewilligt werden, auch daran kann ein Projekt scheitern
    • Textkodierung: hier ist die Herausforderung, das Datenmodell so einfach zu halten, dass man auch alles schaffen kann
    • Eine Edition hat viele Komponenten, die alle zusammenpassen müssen: Textüberlieferung, Faksimiles, Texte, Varianten, Kommentare, Register, User Interface / Interaktionsdesign
    • Langzeitarchivierung: große Herausforderung (siehe nächste Frage)

Langzeitarchivierung

  • Frage: Wie werden die Daten einer Digitalen Edition langfristig gesichert? Wie wird sichergestellt, dass eine Edition auch in 10 oder sogar 50 Jahren noch nutzbar ist?
  • Antwort: Für verschiedene Komponenten einer Edition gibt es hier unterschiedliche Antworten
    • Kodierte Texte: Durch XML, Standards (TEI) und Respositories (Gitlab, Zenodo): relativ problemlos
    • Webseite als solche: Internet Archive erlaubt zumindest einen Eindruck von “look and feel”
    • Persistenz von Links: schwierig zu erhalten, wenn Domain sich ändert (DOIs für Editions-Sichten?)
    • Benutzungsoberfläche: Tools und Webstandards entwickeln sich laufend, das ist ungelöst
    • Idee dafür: Ein konzeptuelles Modell von Funktionalitäten, mit dem man die GUI/Interaktion einer Edition technologie-unabhängig beschreiben kann
  • Aber auch:
    • Technische Dimension: Standards, Repos, DOIs, Domains, etc.
    • Institutionelle Dimension: Infrastrukturen, “Ewigkeitskosten”
  • Siehe auch: Roeder und Sahle: “Technische Architekturen für digitale Editionen”, 2020: https://www.i-d-e.de/wp-content/uploads/2020/02/12_Architekturen.pdf sowie Oltmanns et al., “Different Preservation Levels: The Case of Scholarly Digital Editions”, 2019: https://account.datascience.codata.org/index.php/up-j-dsj/article/view/dsj-2019-051.

TEI für nicht-alphabetische Schriften

  • Frage: Sind die ursprünglich von OHCO beeinflussten TEI-Guidelines auch geeignet für Texte, die in nichtalphabetischen Sprachen geschrieben werden bzw. in Sprachen, die von rechts nach links geschrieben werden?
  • Ja, das ist für TEI erst einmal kein Problem
  • Es gibt Editionen bspw. arabischer Texte in TEI (rechts-links-läufig)
  • Es gibt Editionen chinesischer Texte in TEI (nicht-alphabetisch)

Weitere Fragen

  1. Gibt es einen akzeptierten Rahmen für DH Wissenschaftler:innen, die digitale Editions von Texte vorbereiten, bearbeiten oder erforschen möchten, wenn die Urtexte selbst von vielen Leute als sakral bzw. als Wort Gottes betrachtet werden?
  2. Kennen Sie Beispiele wo eine durch die Produktion von Digitalen Editionen entstehende und entwickelte Theorie (z.B., script act theory oder textual performance theory) bzw. ein Analysemodus für Texte im digitalen Raum direkt zu Debatten in der traditionellen literarischen Wissenschaft beigetragen hat?

Diskussion: Digitale Editionen und ihre Typen

  1. Thomas Gray Archive: https://www.thomasgray.org/ – Historische-Kritische Edition
  2. Corpus of the Inscriptions of Camp?: https://isaw.nyu.edu/publications/inscriptions/campa/ – Medien Edition
  3. Roman Inscriptions of Britain: https://dig-ed-cat.acdh.oeaw.ac.at/entry-233.html – Digitale Version von Print-Editionen
  4. The Digital Dead Sea Scrolls: https://dig-ed-cat.acdh.oeaw.ac.at/entry-066.html – digitale Faksimile-Ausgabe
  5. The Papers of Thomas Jefferson: https://dig-ed-cat.acdh.oeaw.ac.at/entry-187.html – historisch-kritische Edition.
  6. The Adams Papers: https://dig-ed-cat.acdh.oeaw.ac.at/entry-167.html – historisch-kritische Edition
  7. The Geese Book: https://geesebook.asu.edu/volumes.htm – Faksimile-Ausgabe mit Knowledge Site
  8. In Transition: Selected Poems by the Baroness Elsa von Freytag-Loringhoven: https://digital.lib.umd.edu/transition/ – Archiv mit Kontext

Digitale Editionen und ihre Typen (2024)

Sitzung 8 (5. Dez.):
Visualisierung

Aufgabe

Stöbern Sie einmal in den Artikeln eines DH-Journals Ihrer Wahl nach einer Ihrer Meinung nach besonders gelungenen oder aber einer besonders wenig gelungenen Visualisierung. In Frage kommen unter anderem die Zeitschriften “Digital Humanities Quarterly”, “Zeitschrift für digitale Geisteswissenschaften” oder “Journal of Historical Network Research”, Sie können aber auch eine andere Zeitschrift wählen.

  1. Laden Sie als Antwort bitte die Bild-Datei der Visualisierung (PNG oder JPEG) hier hoch (Dateiupload).
  2. Und nennen Sie die genaue Quelle der Visualisierung (am Besten den DOI des Artikels) im Textfeld.

Zum Auftakt

Sitzung 9 (9. Jan. 2026):
Stilometrie

Überblick

  1. Zu welchen Aspekten oder Punkten möchten Sie gerne ein Beispiel oder weiterführende Informationen hören?
  2. Suchen Sie in den Proceedings der Konferenz “Computational Humanities Research 2025” nach einem Paper, das Sie inhaltlich interessiert: Welcher Machine Learning-Ansatz wurde dort verwendet und würden Sie diesen als supervised (=Klassifikation) oder unsupervised (=Clustering) beschreiben? Sie finden die Proceedings hier: https://anthology.ach.org/volumes/vol0003/

Stilometrie und Plagiate

  • Frage: Kann man durch Stilometrie erkennen, ob ein Werk Plagiate enthält?
  • Antwort:
    • Für die Plagiatserkennung ist distanzbasierte Ähnlichkeit von Texten nicht gut geeignet
      • Hauptgrund: Die Analyseeinheit ist zu groß (Texte oder mindestens Abschnitte)
      • Wenn es nicht um Plagiat, sondern um Pastiche (Imitation von Stil und Handlung) geht, schon eher
    • Für Plagiatserkennung relevant sind hier eher Verfahren des “text re-use”
      • Ziel ist hier, wörtliche (Zitat), fast wörtliche (Anspielung) oder auch sinngemäße (Inhalt) Wiederaufnahmen von Texten in einem neuen Text zu erkennen
      • Anforderung: sehr große Korpora von Texten mit potenziellen Quellen
      • Herausforderung LLMs: kann man sicher sein, dass diese keine Plagiate begehen?
    • Siehe: A. Amirzhanov, C. Turan and A. Makhmutova (2025): “Plagiarism types and detection methods: a systematic survey of algorithms in text analysis”. Frontiers in Computer Science. 7:1504725. 10.3389/fcomp.2025.1504725

Merkmale für Stilometrie

  • Frage: Welche Textmerkmale sind für stilometrische Analysen besonders geeignet?
  • Antwort:
    • Es kommt darauf an, um welche Zielkategorie es geht (Autorschaft vs. Genre vs. Thema)
      • Autorschaft: tendenziell eher häufigste Wörter und Zeichen N-Gramme (~ Rang bis 500)
      • Genre / Thema: tendenziell eher mittelhäufige Wörter (Rang ab ~ 300)
    • Komplexere Merkmale oft nicht hilfreich
      • Ausnahme: Wenn die Texte sehr kurz sind, kann es sinnvoll sein, viele Merkmale zu generieren und zu kombinieren
    • Siehe:

Stilometrie für “Bekennerschreiben”

  • Frage im Kontext Berliner Stromnetz und Bekennerschreiben. Wie gut funktionieren die klassischen ML-Verfahren für “Szenesprache”? Wie ist das ethisch-juristisch einzuschätzen?
  • Antwort:
    • Viele Herausforderungen bei juristisch relevanten Textsorten: Bekennerschreiben, Drohbriefe, politische Stellungnahmen
      • Texte sind oft sehr kurz
      • keine Vergleichstexte der gleichen Textsorte von Verdachtspersonen
      • Feld möglicher Autorschafts-Kandidaten oft sehr breit bzw. unbestimmt
    • Ein Ansatz zur Eingrenzung: “linguistic profiling” in der forensischen Linguistik
      • Aspekte eines Autor:inenn-Profils: Geschlecht, Alter, Bildung, Region, etc.
      • Siehe: Schilling, Natalie, and Alexandria Marsters. “Unmasking Identity: Speaker Profiling for Forensic Linguistic Purposes.” Annual Review of Applied Linguistics 35 (2015): 195–214. https://doi.org/10.1017/S0267190514000282.

Stilometrie und Übersetzungen

  • Frage: Wie gut funktioniert Stilometrie / klassische ML-Verfahren mit Übersetzungen?
  • Antwort (siehe aktuelles Vertiefungs-Seminar):
    • Das Autor:innen-Signal dominiert in der Regel das Übersetzer:innen-Signal
    • Die Performance ist bei übersetzten Texten meist etwas niedriger
    • Der Wechsel zwischen zwei Übersetzer:innen ist aber u.U. gut erkennbar
    • Siehe auch: Multilingual Stylometry Showcase, https://showcases.clsinfra.io/stylometry.

Digital Humanities und Leseforschung

  • Frage: Forscht jemand in die DH wie Leser*innen tatsächlich lesen?
  • Antwort: Ja, definitiv!
    • Empirische Literaturwissenschaft: Leseforschung bspw. mit Eye-Tracking; Spannung, Komplexität uvm.
    • Social Reading Studies: Analyse von Bewertungen und Kommentaren auf Lektüreplattformen oder in Umfragen, bspw.: Karina van Dalen, The Riddle of Literary Quality (Projekt und Buch)
    • Rezeption-Produktion: Fan Fiction als Gegenstand digitaler Untersuchungen, bspw.: Simone Rebora, Federico Pianzola.
  • Lektüreempfehlung: Federico Pianzola, Simone Rebora, Gerhard Lauer (2020): “Wattpad as a resource for literary studies. Quantitative and qualitative examples of the importance of digital social reading and readers’ comments in the margins”. PLoS ONE 15(1). 10.1371/journal.pone.0226708.

(2) Supervised oder unsupervised Machine Learning?

Cluster Ambiguity in Networks as Substantive Knowledge

“Crying like a Baby”

  • “Crying like a Baby”: Survival Analysis and the Multimodal Memory of Holocaust Survivors. 10.63744/sTRxoCHdBgK5: supervised (?)

Scalable Verb-Based Literary Semantics

Semantic Search for Ancient Inscriptions

Echoes of Antiquity

  • “Echoes of Antiquity: Towards Understanding History through Human and LLM-Based Classical Text Translations”, 10.63744/XcjZ0MxpjIPj: unsupervised (?)

Sitzung 11 (23. Jan. 2026):
Large Language Models

Überblick

  • Aufgabe: Beschreiben Sie ein Beispiel für eine Forschungsfrage aus den Digital Humanities, die man Ihrer Meinung nach mit LLMs gut bearbeiten könnte. (Alternativ können Sie auch eine Forschungsfrage beschreiben, die man Ihrer Meinung nach gerade nicht gut mit LLMs bearbeiten könnte.) Begründen Sie ihre Antwort.

Forschungsfragen

  1. Wie hat sich der semantische Kontext des Begriffs “Freiheit” in deutschen Zeitungen zwischen 1850 und 1950 verändert?
  2. Vergleich eines Idealtyps mit den tatsächlichen historischen Quellen, bspw. zum Thema Papsttum oder Bergbau.
  3. Identifikation von Anspielungen auf klassische Autoren in lateinischen Grabinschriften.
  4. Welche Krankheiten oder Leiden werden in einem Briefkorpus beschrieben? Wie häufig und vor allem in welchem Kontext treten diese auf?

Forschungsfragen und ihre Eignung für Bearbeitung mit LLMs

  • Für diese Art von Forschungsfragen oder -aufgaben sind LLMs gut geeignet
    • Informationsextraktion für Konzepte, die flexibel ausgedrückt werden (kontextabhängige Bedeutung, aber relativ lokaler Kontext, Aufgabe gut evaluierbar)
    • Wenn es primär um Performance bei solchen Tasks geht, nicht um Verständnis (Beispiel Erkennung direkter Rede)
    • Wenn es um Sprachen oder Daten geht, für die LLMs viele Trainingsdaten hatten (Englisch, aktuelle Textsorten)
  • Für diese Art von Forschungsfragen sind LLMs nicht geeignet
    • Offene Fragen nach dem Sinn oder der Bedeutung von Phänomenen (offene Quellenlage, nicht gut evaluierbar)
    • Wenn es primär um das Verständnis des Phänomens geht, um Interpretation, nicht um die reine Performance bei der Erkennung (dann ist traditionelles ML mit expliziten Merkmalen besser)
    • Identifikation von Keywords im statistischen Sinne durch Vergleich von Teilkorpora (besser statistisch zu beantworten, vergleichsweise intransparent, Evaluation schwierig)
    • Wenn es um Sprachen, Kulturen oder Artefakte geht, die in den Trainingsdaten von LLMs nicht gut repräsentiert sind (low-resource languages, historische Sprachstufen, Kulturen mit wenig Textzeugnissen, etc.)

Sitzung 12:
Grundannahmen und -konzepte der (Digitalen) Geisteswissenschaften

Motivation

In a nutshell the problem with computational literary analysis as it stands is that what is robust is obvious (in the empirical sense) and what is not obvious is not robust, a situation not easily overcome given the nature of literary data and the nature of statistical inquiry. There is a fundamental mismatch between the statistical tools that are used and the objects to which they are applied. (Nan Z. Da, “The Computational Case Against Computational Literary Studies”, Critical Inquiry, 2019)

  • Stimmt das für die CLS? Für die CH? Für die DH?

Intention: Problematisierung von…

  • “Grundannahmen der (Digitalen) Geisteswissenschaften” => gibt es ein (gemeinsames?) theoretisches und konzeptuelles Fundament?
  • Wie ist das Verhältnis zwischen Geisteswissenschaften und Digital Humanities zu verstehen?
  • DH als ein Teil der Geisteswissenschaften, oder als etwas Eigenständiges?
  • Verlieren wir vor lauter Technik und Methoden das Ziel aus den Augen?

(I) Grundannahmen der Geisteswissenschaften

(1) Das Ziel von Forschung ist Verstehen, d.h. die Erschließung und/oder Konstruktion von Bedeutung

  • Menschliche Erfahrung und menschlicher Ausdruck von Erfahrung sind bedeutungsvoll
  • Bedeutung kann vielschichtig, mehrdeutig, umstritten, kontextabhängig sein
  • Bedeutung wird nicht einfach vorgefunden, sondern aktiv konstruiert
  • Verstehen integriert formale und inhaltliche Aspekte eines Werks
  • => Hermeneutik (die Theorie und Praxis der Interpretation) und Semiotik (die Wissenschaft von Zeichen und Symbolen) zentral

(2) Bedeutung ist nicht absolut, sonden immer von Kontext und Perspektive abhängig

  • Texte, Bilder, Objekte, Artefakte und Handlungen existieren nicht isoliert oder autonom
  • Sie zu verstehen, erfordert die Mobilisierung von historischen, kulturellen, institutionellen und materiellen Kontexten
  • Kontexte, Werke und Individuen und ihr Wandel über die Zeit interagieren auf komplexe Weise miteinander
  • Auch die Perspektive der Forschenden ist so ein Kontext, sodass Interpretationen immer perspektiviert sind
  • Es gibt keine objektiv gegebene Realität oder Wahrheit, sondern diese wird aktiv konstruiert
  • => Epistemologie (Wissenschaft von Wissen und Erkenntnis), Systemtheorie

(3) Sprache und Geschichten prägen Wahrnehmung, Denken, Identität

  • Sprache (und Geschichten) sind nicht nur ein zweck-orientiertes Mittel der Kommunikation von Inhalten
  • Sprache (und Geschichten) sind unser Denken, unsere Wahrnehmung der Welt und unsere Identität
  • Menschen erschließen sich die Welt, und geben ihr Sinn, durch Geschichten
  • Sprache (und Geschichten) sind auch ein Machtinstrument, das manipulierend eingesetzt werden kann (e.g. Framing, ‘Narrative’)
  • Auch Erkenntnis kann durch Geschichten / Narrative transportiert, perspektiviert, oder verhindert werden
  • => Linguistik in einem weiten Sinne wichtig; Narratologie (Wissenschaft des Erzählens)

(4) Verstehen erfordert eine vertiefte, detaillierte Auseinandersetzung mit einzelnen Kunstwerken

  • Fokus liegt auf wenigen, als repräsentativ gesetzten Werken (Kanon)
  • Diese werden in ihrer Individualität erkannt und holistisch als Einheit verstanden
  • Interpretation generalisiert von repräsentativen Werken zu größeren Einheiten und Trends
  • Erkenntnisse werden durch repräsentative Beispiele plausibilisiert und veranschaulicht
  • => Praxis des ‘close readings’ ist zentral

(II) Diese Annahmen im Kontext der Digital Humanities

Präambel

  • Die Digital Humanities sind nicht monolitisch
    • qualitative DH: Edition, Annotation, Erschließung mittelgroßer Datensätze
    • quantitative DH: Machine Learning, Statistik großer Datensätze

(1) Bedeutung

  • Ähnlichkeiten
    • In den DH werden Daten als nicht einfach gegeben, sondern konstruiert, verstanden
    • Die Ambiguität bspw. von Kategorien wird anerkannt, in der Praxis der Modellierung aber eher minimiert
    • Zentrales Konzept von “Daten”
  • Unterschiede
    • In den ql. DH geht es eher um Erschließung im Sinne von Explizitmachen von Mikro-Phänomenen (e.g. Entitäten)
    • In den qn. DH geht es eher um die Identifikation von Mikro-Phänomenen in großen Datenmengen und die Ermittlung von Mustern und Trends (über die Zeit, nach Kategorien)
    • Zentrale Konzepte: Annotation, Muster

(2) Kontext und Perspektive

  • Ähnlichkeiten
    • Die Bedeutung von Kontextfaktoren wird auf jeden Fall anerkannt
    • Die subjektive Perspektive von Forschenden wird auch anerkannt (aber durch Annotation Guidelines und Inter-Annotator Agreement kontrolliert)
    • Zentrales Konzept: Operationalisierung (durch Dekonstruktion von Einheiten)
  • Unterschiede
    • qn. DH: Kontextfaktoren werden modelliert und Korrelation mit Phänomenen geprüft
    • Mit statistischer Vorsicht: “Correlation is not causation”, Kausalität etablieren ist kompliziert
    • Die Interaktion von Kontext und Werk gerät selten in den Blick (Systemtheorie!)

(3) Sprache und Geschichten => Modellierung und Visualisierung

  • Unterschiede
    • Statt Geschichten entwickeln die DH eher Modellierungen und Visualisierungen
    • Zentrales Konzept: Modell / Modellierung
  • Ähnlichkeiten
    • Solche Modelle und Visualisierungen können Wahrnehmung prägen, Perspektiven transportieren, manipulativ sein

(5) Einzelwerke und ‘close reading’

  • Ähnlichkeiten
    • ql. DH? Auch eher an breiterer Repräsentativität interessiert (bspw. Edition von Gesamtwerken)
    • qn. DH?
  • Unterschiede
    • Umfangreiche Korpora (Dekanonisierung)
    • Sog. ‘distant reading’ / quantitative Verfahren
    • Nicht so sehr der holistische Blick, sondern die Dekonstruktion in greifbare Aspekte
    • Vermittlung von Erkenntnis durch Daten, genauer: Hypothesentests oder zusammenfassende Visualisierungen
    • Zentrale Konzepte: Operationalisierung, Hypothesen, statistische Signifikanz

(III) Lektüreempfehlungen

Der Stachel des Digitalen


Sybille Krämer, Der Stachel des Digitalen. Geisteswissenschaften und Digital Humanities (Suhrkamp, 2025)

A New History of the Humanities


Rens Bod, A New History of the Humanities. The Search for Principles and Patterns from Antiquity to the Present (2013)

Geometry and Meaning


Dominic Widdows, Geometry and Meaning (2004)

Begriffe der Digital Humanities


Rabea Kleymann, Jonathan Geiger et al. (Hg.): Begriffe der Digital Humanities. Ein diskursives Glossar (ZfdG, 2023)

References


Jannidis, Fotis, Hubertus Kohle, and Malte Rehbein, eds. 2017. Digital Humanities: eine Einführung. Stuttgart: J.B. Metzler Verlag.