Grundlagen großer Sprachmodelle

Von word2vec über BERT bis zu GPTs



Christof Schöch
Universität Trier

Effektives Prompting für Large Language Models in der Romanistik
Organisation: Verena Weiland und Sascha Resch
AG Digitale Romanistik

07 Nov 2025



Orientierung







Teaser…

Any sufficiently advanced technology is indistinguishable from magic.

– Arthur C. Clarke, British science fiction writer

Unser Thema heute: generative Sprachmodelle verstehen

  • Grundlagen von LLMs verstehen, um…
    • … hinter die scheinbare Magie zu schauen
    • … kompetent mit LLMs umzugehen
    • … Stärken und Schwächen korrekt einzuschätzen
    • … sinnvolle Prompting-Strategien zu entwickeln
  • Erste Hinweise + Lektüreempfehlungen

Mein Profil / Perspektive: Digital Humanities

  • Französische Literatur + Computational Literary Studies
    • Topic Modeling
    • Stilometrische Autorschaftsattribution
    • Kontrastive Analyse (keyness)
    • Linked Open Data
  • Master of Science “Digital Humanities” @ Uni Trier
    • Programmierausbildung (Textprozessieren, Machine Learning)
    • Current Topics in DH (u.a. “Large Language Models in the Digital Humanities”)
  • Trier Center for Digital Humanities

Überblick

  • Was generative große Sprachmodelle nicht sind: Abgrenzung
  • Woher LLMs kommen: Konzeptuelle Grundlagen und Vorläufer
  • Wie generative LLMs trainiert werden und funktionieren
  • Welche neuen Entwicklungen es derzeit gibt
  • Was man mit LLMs in den Sprach- und Literaturwissenschaften machen kann

Was LLMs nicht sind:
Abgrenzung

Übersicht

  • (Traditionelles) Machine Learning
  • Künstliche Intelligenz (im starken Sinne)

Algorithmus => Machine Learning => Sprachmodelle

  • Erste Verschiebung (Architektur)
    • Algorithmus: Input + Regeln => Antwort
    • Machine Learning: Input + Antworten => Regeln (dann Einsatz im Algorithmus)
  • Zweite Verschiebung (Input)
    • Algorithmus und Machine Learning: Input = spezifisch generierte Merkmale (bspw. Annotation)
    • Sprachmodelle: Input = gelernte Repräsentation der Rohdaten (bspw. als Embeddings)

Trade-off bei komplexen Klassifikationsaufgaben

Algorithmus Machine Learning Sprachmodelle
Trainingsdaten keine notwendig viele notwendig sehr viele notwendig
Merkmale explizit erstellt
wenige
transparent
explizt erstellt
viele
transparent
gelernt
sehr viele
intransparent
Regeln vorgegeben
transparent
gelernt
ggfs. intransparent
gelernt
intransparent
Domänen-
expertise
viel notwendig einiges notwendig weniger notwendig
Ressourcenbedarf sehr niedrig moderat extrem hoch
Performance moderat oft deutlich höher oft noch höher

Generative Sprachmodelle vs. “echte KI” (AGI)

Generative LLMs (seit ~2018)

  • Beruhen auf statistischer Inferenz über Sprachmustern
  • Reagieren auf sprachliche Prompts
  • Haben nur ein begrenztes Gedächtnis für die laufende Interaktion
  • Haben kein echtes Verständnis von Kausalität oder Weltmodellen
  • Können nicht wirklich planen oder auf Umgebungsfeedback reagieren
  • Generieren plausiblen Text, der nicht unbedingt wahr / intelligent ist
  • Output wird trainiert und optimiert (RLHF)

Artificial General Intelligence (ab ??)

  • Derzeit unbekannte Architektur
  • Interagiert autonom mit der Welt und lernt daraus
  • Trifft autonome Entscheidungen
  • Hat eine kohärente innere Repräsentationen der Realität (statt Wortstatistik)
  • Versteht warum Dinge geschehen (nicht nur Korrelationen)
  • Habt eigene Ziele, Überzeugungen und Wünsche (nicht nur Trainingsfeedback)

Woher LLMs kommen:
Konzeptuelle Grundlagen und Vorläufer

Übersicht

  • Vektorraum-Modell
  • Distributionelle Semantik
  • Neuronale Netze
  • Word Embeddings
  • BERT-Modelle (Attention)

Vektorraum-Modell im Information Retrieval

  • Jedes Dokument ist durch die Häufigkeit seiner Keywords beschrieben
  • Ein Query besteht ebenfalls aus Keywords
  • Räumliche Nähe im Vektorraum = Ähnlichkeit von Query und Dokument

Distributionelle Semantik

You shall know a word by the company it keeps. (Firth 1957)

  • Bedeutung bestimmt sich aus dem Kontext
  • Wörter mit ähnlichem Kontext haben ähnliche Bedeutung
  • Kontext kann man statistisch modellieren
  • Bedeutung kann man statistisch modellieren
  • Umkehrung
    • IR: Dokumente als Vektoren aus Wörtern
    • DS: Wörter als Vektoren aus Dokumenten (!)

Neuronale Netze: Input, hidden, output layers

Lernen = Gewichte optimieren (Gradient Descent)

  • Neuronales Netz: Gewichte zufällig initialisieren
  • Klassifikationsaufgabe bearbeiten
  • Rückmeldung zur Abweichung zwischen Antwort und Lösung
  • Gewichte werden minimal und zielführend angepasst
  • Mechanismus: “gradient descent”

Word Embeddings: Semantik im Vektorraum (Ergebnis)


Word Embeddings: Training

Konzeptuelle Entwicklung von word2vec ab

  • Word Embeddings (word2vec, Mikolov 2013)
    • statisches, token-basiertes Encoder-Modell
    • Repräsentation von Morphologie + Semantik
  • BERT-Modelle / Transformer (Vaswani et al. 2017)
    • kontext-abhängiges Encoder-Modell
    • repräsentiert ganze Korpora als Embeddings
  • GPT (OpenAI 2018)
    • kontextuelles Encoder + Decoder-Modell
    • liest Input ein, reagiert mit Output
    • Sequence-to-sequence Modeling + ‘Autoregression’

Wie generative LLMs funktionieren

Übersicht

  • Trainingsdaten: Was steckt drin?
  • Modelle: Wie groß sind die Modelle?
  • Encoder + Decoder = ‘autoregressive sequence-to-sequence model’
  • RLHF (Human Feedback: erwünschte Antworten)
  • Inferenz auf festem Modell (Server oder Computer): Prompt als Input, wahrscheinliche Token-Sequenz als Antwort
  • Prompt (Kontext, Persona) und Temperatur (Wahrscheinlichkeit) wichtig

Trainingsdaten: Was steckt drin?

  • Wissensressourcen: Wikipedia, Wikidata
  • Akademische Publikationen: arXiv, PubMed, DOAJ
  • Web-Crawling: CommonCrawl, Amazon, YouTube
  • Bücher: Google Books, Project Gutenberg
  • Social Media: Reddit, Twitter
  • Code: Github, Kaggle, StackOverflow
  • Nachrichten: NYT, Google News, uvm.
  • Anderes: Patente, Gesetze, etc.

Wie groß sind die Modelle?

Bezeichnung (Jahr, Anbieter) Daten (Tokens) Modell (Parameter)
GPT-3 (2020, OpenAI) 300 B 175B
GPT-4 (2023, OpenAI) unbekannt ? 1 Trillion
LLama 2 (2023, Meta) 2 T 7B, 13B, 70B
DeepSeek V3.1 (2025) unbekannt 671 B
Mistral (20XX) unbekannt 7B, 8x7B MoE
GPT-OSS (2025, OpenAI, lokal) unbekannt 20B, 120B
*OLMo-2 (2025, AllenAI, lokal) 5 T 7B, 13B, 32B

Encoder-Modelle (BERT / Transformer)

BERT = Bidirectional Encoder Representations from Transformers

  • Unterschiede zu statischen Word Embeddings
    • Es wird nicht ein Lexikon repräsentiert, sondern ein Korpus
    • Jedes Token hat je nach Kontext einen eigenen Vektor (it => animal!)
    • Der Kontext wird in beide Richtungen berücksichtigt (bidirectional)
    • Der Kontext wird je unterschiedlich gewichtet (“Attention”)

Encoder + Decoder = GPT

GPT = Generative Pre-trained Transformer

  • Unterschiede zum BERT-Modell
    • Modell hat Encoder + Decoder: bekommt Input, produziert Output
    • Trainingsdaten sind paarweise Wort-Sequenzen:
      Frage/Antwort, Anfang/Fortsetzung, Original/Übersetzung, Problem/Code
  • Prinzipien
    • ‘Sequence-to-sequence modeling’ mit schrittweiser Generierung
    • ‘Autoregressiv’: die generierten Tokens werden Teil des Prompts für die Fortsetzung
    • Sukzessive Generierung: jedes weitere Token passt (optimal / fast optimal) zum vorangegangenen Kontext
  • Ergebnis
    • Modell, das auf einen sprachlichen Prompt mit natürlicher Sprache reagiert
    • Der Prompt beinhaltet die Anweisung und das zu bearbeitende Material (!)

GPT + RLHF (Reinforcement Learning from Human Feedback) = Chatbot

  1. Generatives LLM wird trainiert, um Text zu generieren
  2. Menschen bewerten die Antworten (nützlich? sinnvoll? angemessen? sozial erwünscht?)
  3. Auf dieser Grundlage wird ein “Belohnungsmodell” wird trainiert, das das genLLM steuert
  4. Das genLLM wird optimiert, damit es Antworten generiert, die Menschen nützlich, angemessen, ehrlich finden

Was aktuelle Modelle können (und was nicht)

  • Was sie können
    • Plausiblen, natürlich-sprachlichen Text generieren
    • Die interne Repräsentation von Sprache für Annotationsaufgaben mobilisieren
    • Auch: Programmiercode generieren, erklären, verbessern
    • Und (wegen RLHF): sozial erwünschte Reaktionen ausgeben
  • Was sie nicht (oder nicht so gut) können
    • Sich an die Faktenlage halten (keine Knowledge Base als Referenz)
    • Analyse von Metrik und Reim (Frage der internen Repräsentation, und Mathe)
    • Reproduzierbare Ergebnisse liefern (weil probabilistisch)
    • Zunehmend besser: strukturierte Daten liefern (nicht mehr nur ‘Prosa-Maschinen’)
    • Bei exotischeren technischen Fragen helfen (SPARQL, Typst)

Welche neuen Entwicklungen es gibt

Übersicht

  • Einige aktuelle Trends von Bedeutung für die Romanistik
    • Von Fine-Tuning zu Zero-Shot Ansätzen
    • Offene, effiziente Modelle für lokalen Einsatz
    • Multimodale Sprachmodelle
    • Mehrsprachigkeit / low-resoure languages
  • Weitere aktuell wichtige Themen
    • Agentive AI (LLMs, die Modelle und Datensätze taks-spezifisch auswählen)
    • Ethical AI: soziale, politische, ökologische, ästhetische Konsequenzen
    • Reproducible / explainable AI: mehr Transparenz und Reproduzierbarkeit

Verbreiteter Ansatz: Pre-Training + Fine-Tuning

  • Grundlage: auf sehr umfangreichen Daten trainiertes, unspezifisches Modell (pretrained models)
  • Fine-Tuning
    • mit spezifischen Daten (bspw. Sprache, Sprachstufe, Textsorte)
    • mit spezifischem Task (bspw. Rede-Erkennung, Orthografie-Modernisierung)
  • Ergebnis
    • Neues Modell mit verbesserter Performance auf spezifischem Task

Neuere Entwicklungen

  • Ansatz
    • Few-shot-learning: allgemeines Modell, lernt Task mit wenigen Beispielen
    • Beispiel: SetFit (Few-Shot Learning for Sentence Transformers), Unso et al. (2022).
    • Zero-shot-learning: allgemeines Modell, kann Task direkt ausführen
  • Vor- und Nachteile
    • Viel weniger Aufwand
    • Technisch viel einfacher
    • Performance nicht immer vorhersehbar

Multimodale Sprachmodelle

  • Modelle, die mit Sprache, aber auch mit Bildern umgehen können (Decoder und/oder Encoder)
  • Absoluter “game changer” für die Bildwissenschaften
  • Erlaubt algorithmischen Zugang zum Bildinhalt (Objekte, Farben, Stile)

Offene, effiziente Modelle für lokalen Einsatz

  • Sehr bequem bspw. über Ollama
  • Bessere Reproduzierbarkeit
  • Besserer Datenschutz
  • Geringerer Ressourceneinsatz
  • Keine Top-Performance
  • Modelle für Text, Bild, Code etc.

Was man mit LLMs in den Sprach- und Literaturwissenschaften machen kann

Überblick

  • Analyse von Redewiedergabe in narrativen Texten
  • Modelle für historische Sprachstufen
  • Lyrik-Analyse (Stanza-Typ, Metrik)
  • Eine Geschichte fortsetzen…
  • Gedichte interpretieren?
  • OCR korrigieren
  • Mit einer API interagieren
  • Autorschaftsattribution vornehmen
  • uvm.

Redewiedergabe-Projekt

  • Automatische Erkennung von Redewiedergabe (direkt/indirekt/free indirect)
  • Verschiedene Encoder-Modelle (BERT und FLAIR) mit Finetuning
  • Erkennungsraten (F1): 0.84 (direkt), 0.76 (indirekt), 0.59 (free indirect)

MacBERTh

  • MacBERTh: ein Transformer-basiertes Modell (BERT-style)
  • Trainiert auf sehr viel historischem Englisch
  • Verbesserte Performance auf historischen Daten für Standard-Tasks

ALBERTI

  • Zwei Aufgaben: stanza type classification, metrical pattern prediction
  • Mehrsprachige, für den Task trainierte BERT-Modelle
  • Verbesserte Performance gegenüber generischen mehrsprachigen Modellen

‘Predict what happens next…’

  • Grundidee: Ein LLM bekommt als Input
    • Eine Zusammenfassung der Romanhandlung bis zum aktuellen Punkt
    • Die 900 Wörter vor dem aktuellen Punkt
  • Schritt 1
    • Das 900-Wörter-Segment zusammenfassen
    • Eine Zusammenfassung des nächsten Segments generieren
  • Schritt 2
    • Das LLM bekommt das tatsächliche nächste Segment
    • Aufgabe: Zusammenfassung dieses Segments generieren
  • Evaluation
    • Wie ähnlich sind sich die beiden Zusammenfassungen?

Do LLMs understand poetry?

  • Aufgabe: Prompt-basierte Interpretation von Gedichten
  • Ergebnisse:
    • sehr gut bei Kontext-abhängigen Fragen (!)
    • nicht gut bei Fragen von Metrik und Reim (!)
  • Nicht-englischer Kontext muss explizit aufgerufen werden

OCR-Korrektur

We achieve a significant enhancement in OCR quality with Llama 2 outperforming BART, achieving a 54.51% reduction in the character error rate against BART’s 23.30%.
Thomas, Gaizauskas, and Lu (2024)


Our evaluation shows that LLMs are anything but efficient at this task.
Boros et al. (2024)

Sequence Labeling: Evalation

DraCor und MCP: Erfahrungen und Optimierung

Stilometrische Autorschafts-Attribution

Fazit

Meine persönlichen ‘Lessons Learned’

  • Begrifflich möglichst genau sein: Embeddings vs. generative LLMs vs. “KI”
  • Der eigentliche “game changer” waren die BERT-Modelle: nuancierter, algorithmischer Zugang zu Semantik
  • Wann immer möglich lokale Modelle nutzen, bspw. via Ollama (Reproduzierbarkeit, Effizienz, Datenschutz)
  • Immer möglichst offene Modelle nutzen, siehe European Open Source AI Index
  • Im wiss. Kontext: LLMs nur für evaluierbare Tasks einsetzen (Annotationstasks vs. offene Wissenstasks)
  • “Know when and when not to use LLMs”

Danke! Ich freue mich auf die Diskussion!

References

Alammar, Jay. 2018. “The Illustrated Transformer.” JAlammar. https://jalammar.github.io/illustrated-transformer/.
Allam, Hesham, Lisa Makubvure, Benjamin Gyamfi, Kwadwo Nyarko Graham, and Kehinde Akinwolere. 2025. “Text Classification: How Machine Learning Is Revolutionizing Text Categorization.” Information 16 (2): 130. https://doi.org/10.3390/info16020130.
Boros, Emanuela, Maud Ehrmann, Matteo Romanello, Sven Najem-Meyer, and Frédéric Kaplan. 2024. “Post-Correction of Historical Text Transcripts with Large Language Models: An Exploratory Study.” In Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024), edited by Yuri Bizzoni, Stefania Degaetano-Ortlieb, Anna Kazantseva, and Stan Szpakowicz, 133–59. St. Julians, Malta: Association for Computational Linguistics.
Brunner, Annelen, Ngoc Duyen Tanja Tu, Lukas Weimer, and Fotis Jannidis. 2020. “To BERT or Not to BERT - Comparing Contextual Embeddings in a Deep Learning Architecture for the Automatic Recognition of Four Types of Speech, Thought and Writing Representation.” In Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland, June 23-25, 2020. https://ceur-ws.org/Vol-2624/paper5.pdf.
Hicke, Rebecca M M, and David Mimno. 2023. “T5 Meets Tybalt: Author Attribution in Early Modern English Drama Using Large Language Models.” In Proceedings of Computational Humanities Research 2023. CEUR.
Jannidis, Fotis, Rabea Kleymann, Julian Schröter, and Heike Zinsmeister. 2025. “Do Large Language Models Understand Literature? Case Studies and Probing Experiments on German Poetry.” CCLS2025 Conference Reader. https://doi.org/10.26083/TUPRINTS-00030139.
Manjavacas Arevalo, Enrique, and Lauren Fonteyn. 2021. MacBERTh: Development and Evaluation of a Historically Pre-Trained Language Model for English (1450-1950).” In Proceedings of the Workshop on Natural Language Processing for Digital Humanities, edited by Mika Hämäläinen, Khalid Alnajjar, Niko Partanen, and Jack Rueter, 23–36. NIT Silchar, India: NLP Association of India (NLPAI). https://aclanthology.org/2021.nlp4dh-1.4/.
Philips, Hunter. 2023. “A Simple Introduction to Gradient Descent.”
Pichler, Axel, Janis Pagel, and Nils Reiter. 2025. “Evaluating LLM-Prompting for Sequence Labeling Tasks in Computational Literary Studies.” In Proceedings of the 9th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2025), edited by Anna Kazantseva, Stan Szpakowicz, Stefania Degaetano-Ortlieb, Yuri Bizzoni, and Janis Pagel, 32–46. Albuquerque, New Mexico: Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.latechclfl-1.5.
Rosa, Javier de la, Álvaro Pérez Pozo, Salvador Ros, and Elena González-Blanco. 2023. ALBERTI, a Multilingual Domain Specific Language Model for Poetry Analysis.” 2023. https://doi.org/10.48550/ARXIV.2307.01387.
Russell, Stuart J., and Peter Norvig. 2022. Artificial Intelligence: A Modern Approach. Fourth edition, global edition. Boston: Pearson.
Schöch, Christof. 2022. Quantitative Semantik. Word Embedding Models für literaturwissenschaftliche Fragestellungen.” In Digitale Literaturwissenschaft: DFG-Symposion 2017, edited by Fotis Jannidis, 535–62. Stuttgart: Metzler. https://doi.org/10.1007/978-3-476-05886-7_22.
Skansi, Sandro. 2018. Introduction to Deep Learning: From Logical Calculus to Artificial Intelligence. Undergraduate Topics in Computer Science. Cham: Springer. https://doi.org/10.1007/978-3-319-73004-2.
Thomas, Alan, Robert Gaizauskas, and Haiping Lu. 2024. “Leveraging LLMs for Post-OCR Correction of Historical Newspapers.” In Proceedings of the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA) @ LREC-COLING-2024, edited by Rachele Sprugnoli and Marco Passarotti, 116–21. Torino, Italia: ELRA and ICCL.
Trilcke, Peer, Ingo Börner, Henny Sluyter-Gäthje, Daniil Skorinkin, Frank Fischer, and Carsten Milling. 2025. “Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-Empowered LLM Usage of the DraCor API.” https://arxiv.org/abs/2508.13774.
Underwood, Ted. 2024. “Can Language Models Predict the Next Twist in a Story?” The Stone and the Shell.
Unso, Eun Seo Jo, Lewis Tunstall, Luke Bates, Daniel Korat, Oren Pereg, and Moshe Wasserblat. 2022. SetFit: Efficient Few-Shot Learning Without Prompts.” Huggingface Blog.
Widdows, Dominic. 2004. Geometry and Meaning. Stanford: CSLI Publ.