Einführung in die Digital Humanities



Christof Schöch
(Universität Trier)

Modul Grundlagen der Digital Humanities
Master Digital Humanties
Trier University

22 Oct 2024

Sitzung 1 (22.10):
Organisatorisches und Überblick

Sitzungsablauf

  • Organisatorisches
  • (Vorstellungsrunde)
  • Seminarplan: Überblick über die Themen
  • Empfehlung: Digital Humanities: Eine Einführung
    (Jannidis, Kohle, and Rehbein 2017).

Sitzung 2 (29.10.):
Was ist Digital Humanities?

Sitzung 3

Sitzung 4 (12.11.)
Digitalisierung von Text und Bild

HTR: Handwritten Text Recognition

  • Frage:
    • Ist es realistisch, dass OCR oder HTR handschriftlichen Text erkennen kann? Wie hoch ist die Genauigkeit in der Praxis?
    • Wie effektiv ist OCR bei der Erkennung historischer Handschriften aus dem zum Beispiel 17., 18. und 19. Jahrhundert
  • Antwort
    • Ja, das funktioniert auf jeden Fall! (siehe auch die Papers von Frage 2)
    • Das in den DH bekannteste Tool dafür ist Transkribus
    • Besonderheit: Von Mitgliedern der DH-Community getragenes Konsortium (keine Firma mit kommerziellen Interessen, aber auch nicht Open Source)

Verbesserung von OCR/HTR durch Neuronale Netze

Diskussionsfrage: Konsequenzen der Digitalisierung

  • Wie hat die Digitalisierung von Text und Bild das kulturelle Erbe und die Gesellschaft verändert? => Zugang, Forschungsmöglichkeit
  • Gibt es Risiken oder Verluste von Informationen bei der Digitalisierung von Texten und Bildern? => Repräsentation / Modell
  • Welche Herausforderungen gibt es bei der Speicherung und dem Schutz digitalisierter Texte und Bilder? => Kosten von LZA; Formatkonversionen
  • Digitalisierung in Wirtschaftsunternehmen vs. in den Digital Humanities? => Prozess ähnlich, Motivation unterschiedlich?
  • Was sind die ethischen Implikationen und Datenschutzherausforderungen bei Digitalisierung mit Deep Learning? => lokal vs. cloud-basiert
  • Rechtliche Fragen der Digitalisierung von Bild- und Textdaten? => UrhG, TDM-Schranke, abgeleitete Textformate

Technisches zu OCR

  • Wie werden verzerrte Dokumente in OCR-Systemen verarbeitet? => digitale Entzerrung vor dem OCR, bspw. Bindung.
  • Wie geht OCR mit der Mehrsprachigkeit innerhalb eines Dokuments um? => mehrere Vokabulare, mehrsprachige Modelle, ggfs. Spracherkennung
  • Wie können Fehler in den OCR-Ergebnissen die Genauigkeit der Textanalyse beeinträchtigen? => Beispiel Noise bei Stilometrie / Sentiment Analyse.
  • Wie funktioniert das Training neuronaler Netze? => Programmieren 2: Machine Learning

SVG vs. PNG

  • Was ist der Unterschied zwischen Vektor vs. Pixelgrafik?
  • Was sind die Anwendungsfälle und Vorteile von Vektorgrafiken und Rastergrafiken?
  • Wie werden die grafischen Primitive konkret eingesetzt? (=> Übung)

Sitzung 5 (19.11.):
Datenmodellierung 1

Projekte mit Datenmodell: Aufgabe

Suchen Sie sich auf der Projekte-Seite des DHd-Verbands ein geeignetes DH-Projekt heraus: https://dig-hum.de/forschung/projekte.

Identifizieren einen bestimmten Aspekt des Projekts, in dem ein Modell erstellt wurde. Beschreiben Sie:

  1. Was der Gegenstand ist, den das Modells repräsentiert;
  2. Inwiefern das Modell eine Vereinfachung oder Abstraktion dieses Gegenstandes ist;
  3. Welchem Zweck das Modell im Projektkontext dient oder welche Vorteile es gegenüber dem Original-Gegenstand hat.

Projekte

Sitzung 6 (26.11.):
Datenmodellierung 2

Überblick

  • Fragen zu Datenbanken, Fokus: Normalisierung und SQL
  • Vergleich relationale Datenbanken vs. Graphdatenbanken

Fragen: Beispiel für Normalisierung

Fragen (2): SQL

Ein paar Beispielqueries auf https://livesql.oracle.com/next/.

SELECT *
FROM HR.COUNTRIES
WHERE REGION_ID = 50 ;
SELECT POSTAL_CODE, CITY, COUNTRY_ID 
FROM HR.LOCATIONS 
WHERE COUNTRY_ID = 'JP'
SELECT first_name, last_name, job_id
FROM HR.EMPLOYEES
WHERE job_id = 'FI_ACCOUNT'
ORDER BY first_name ; 
SELECT HR.EMPLOYEES.first_name, HR.EMPLOYEES.last_name, HR.JOBS.job_title  
FROM HR.EMPLOYEES
INNER JOIN HR.JOBS ON HR.EMPLOYEES.job_id=HR.JOBS.job_id 
ORDER BY HR.JOBS.job_title ;

Vergleich relationale vs. graphbasierte DB

  • Vorteile graphbasierter DB
    • Kein fixes Schema, kein Schema notwendig, dadurch flexibler
    • Insbesondere für stark vernetzte Daten geeignet
    • Bei komplexen Abfragen bessere Performance (vgl. JOIN)
    • Intuitiver, um Beziehungen abzubilden (?)
    • Bessere Visualisierbarkeit (?)
    • Mmn: Kontextualisierung (qualifier/references); Widersprüchlichkeit;
  • Vorteile relationaler DB
    • In vielen Szenarien effizienter und performanter (e.g. Performance bei Abfragen auf Wikidata ist ein großes Problem)
    • Bessere Möglichkeiten, die Integrität der Daten zu prüfen
    • SQL als Standard (bei Graphdatenbanken mehrere Optionen)

Sitzung 7 (3. Dez.):
Digitale Edition

Frage: Schema

  • Frage: Um eine digitale Edition zu erstellen, muss man erstmal die Textquellen modellieren. Muss man sich jedes Mal ein projekt-spezifisches Schema ausdenken? Oder kann man in den meisten Fällen ein bereits vorhandenes Schema wieder verwenden?
  • Antwort
    • In der Regel kommt TEI als Datenmodell zum Einsatz
    • Modular, d.h. man sucht sich relevante Teile aus
    • Anpassbar und erweiterbar, wenn es zusätzliche Bedarfe gibt
    • Aber: ein angepasstes Schema als Teilmenge von TEI braucht man immer

Frage: Digitale Editionen und Zugänglichkeit

  • Frage: Sind digitale Editionen immer frei zugänglich?
  • Kurze Antwort: Ja!
  • Es gibt aber einige wenige Ausnahmen: Beispiel: Samuel Beckett Digital Manuscript Project, https://www.beckettarchive.org/
  • Gründe:
    • entweder urheberrechtlich gelagert (moderne Autor:innen)
    • oder restriktive Praktiken der Nachlassverwaltenden (Kontrolle, Geschäftsmodell)
  • Und: Frei zugänglich != frei lizenziert; es kommt also schon auch auf die Lizenz an

Standards und Plattformen

  • Frage: Welche technischen Standards und Plattformen sind für die Erstellung digitaler Editionen am effektivsten?
  • Antwort
    • Standards: Ganz klar TEI
    • Erstellung: oXygen, Codium mit ScholarlyXML-Plugin
    • Publikation: sehr vielfältig
  • Einige Publikations-Plattformen
    • TEI Publisher (eXist + ODD)
    • FuD von TCDH/SeS
    • eigene eXist-Datenbank
    • uvm.

Digitale Editionen und ihre Typen

Sitzung 8

Sitzung 9

Sitzung 10

Sitzung 11

Sitzung 12

Sitzung 13

Sitzung 14

Sitzung 15
Klausur

References


Jannidis, Fotis, Hubertus Kohle, and Malte Rehbein, eds. 2017. Digital Humanities: eine Einführung. Stuttgart: J.B. Metzler Verlag.