Grundlagen großer Sprachmodelle

Von word2vec über BERT bis zu GPTs

Christof Schöch
Universität Trier

Effektives Prompting für Large Language Models in der Romanistik
Organisation: Verena Weiland und Sascha Resch
AG Digitale Romanistik

07 Nov 2025

Orientierung

Teaser…

Any sufficiently advanced technology is indistinguishable from magic.

– Arthur C. Clarke, British science fiction writer

Unser Thema heute: generative Sprachmodelle verstehen

Grundlagen von LLMs verstehen, um…
- … hinter die scheinbare Magie zu schauen
- … kompetent mit LLMs umzugehen
- … Stärken und Schwächen korrekt einzuschätzen
- … sinnvolle Prompting-Strategien zu entwickeln
Erste Hinweise + Lektüreempfehlungen

Mein Profil / Perspektive: Digital Humanities

Französische Literatur + Computational Literary Studies
- Topic Modeling
- Stilometrische Autorschaftsattribution
- Kontrastive Analyse (keyness)
- Linked Open Data
Master of Science “Digital Humanities” @ Uni Trier
- Programmierausbildung (Textprozessieren, Machine Learning)
- Current Topics in DH (u.a. “Large Language Models in the Digital Humanities”)
Trier Center for Digital Humanities

Überblick

Was generative große Sprachmodelle nicht sind: Abgrenzung
Woher LLMs kommen: Konzeptuelle Grundlagen und Vorläufer
Wie generative LLMs trainiert werden und funktionieren
Welche neuen Entwicklungen es derzeit gibt
Was man mit LLMs in den Sprach- und Literaturwissenschaften machen kann

Was LLMs nicht sind:
Abgrenzung

Übersicht

(Traditionelles) Machine Learning
Künstliche Intelligenz (im starken Sinne)

Algorithmus => Machine Learning => Sprachmodelle

Erste Verschiebung (Architektur)
- Algorithmus: Input + Regeln => Antwort
- Machine Learning: Input + Antworten => Regeln (dann Einsatz im Algorithmus)
Zweite Verschiebung (Input)
- Algorithmus und Machine Learning: Input = spezifisch generierte Merkmale (bspw. Annotation)
- Sprachmodelle: Input = gelernte Repräsentation der Rohdaten (bspw. als Embeddings)

Trade-off bei komplexen Klassifikationsaufgaben

	Algorithmus	Machine Learning	Sprachmodelle
Trainingsdaten	keine notwendig	viele notwendig	sehr viele notwendig
Merkmale	explizit erstellt wenige transparent	explizt erstellt viele transparent	gelernt sehr viele intransparent
Regeln	vorgegeben transparent	gelernt ggfs. intransparent	gelernt intransparent
Domänen- expertise	viel notwendig	einiges notwendig	weniger notwendig
Ressourcenbedarf	sehr niedrig	moderat	extrem hoch
Performance	moderat	oft deutlich höher	oft noch höher

Generative Sprachmodelle vs. “echte KI” (AGI)

Generative LLMs (seit ~2018)

Beruhen auf statistischer Inferenz über Sprachmustern
Reagieren auf sprachliche Prompts
Haben nur ein begrenztes Gedächtnis für die laufende Interaktion
Haben kein echtes Verständnis von Kausalität oder Weltmodellen
Können nicht wirklich planen oder auf Umgebungsfeedback reagieren
Generieren plausiblen Text, der nicht unbedingt wahr / intelligent ist
Output wird trainiert und optimiert (RLHF)

Artificial General Intelligence (ab ??)

Derzeit unbekannte Architektur
Interagiert autonom mit der Welt und lernt daraus
Trifft autonome Entscheidungen
Hat eine kohärente innere Repräsentationen der Realität (statt Wortstatistik)
Versteht warum Dinge geschehen (nicht nur Korrelationen)
Habt eigene Ziele, Überzeugungen und Wünsche (nicht nur Trainingsfeedback)

Woher LLMs kommen:
Konzeptuelle Grundlagen und Vorläufer

Übersicht

Vektorraum-Modell
Distributionelle Semantik
Neuronale Netze
Word Embeddings
BERT-Modelle (Attention)

Vektorraum-Modell im Information Retrieval

Jedes Dokument ist durch die Häufigkeit seiner Keywords beschrieben
Ein Query besteht ebenfalls aus Keywords
Räumliche Nähe im Vektorraum = Ähnlichkeit von Query und Dokument

Distributionelle Semantik

You shall know a word by the company it keeps. (Firth 1957)

Bedeutung bestimmt sich aus dem Kontext
Wörter mit ähnlichem Kontext haben ähnliche Bedeutung
Kontext kann man statistisch modellieren
Bedeutung kann man statistisch modellieren
Umkehrung
- IR: Dokumente als Vektoren aus Wörtern
- DS: Wörter als Vektoren aus Dokumenten (!)

Neuronale Netze: Input, hidden, output layers

Lernen = Gewichte optimieren (Gradient Descent)

Neuronales Netz: Gewichte zufällig initialisieren
Klassifikationsaufgabe bearbeiten
Rückmeldung zur Abweichung zwischen Antwort und Lösung
Gewichte werden minimal und zielführend angepasst
Mechanismus: “gradient descent”

Word Embeddings: Semantik im Vektorraum (Ergebnis)

Word Embeddings: Training

Konzeptuelle Entwicklung von word2vec ab

Word Embeddings (word2vec, Mikolov 2013)
- statisches, token-basiertes Encoder-Modell
- Repräsentation von Morphologie + Semantik
BERT-Modelle / Transformer (Vaswani et al. 2017)
- kontext-abhängiges Encoder-Modell
- repräsentiert ganze Korpora als Embeddings
GPT (OpenAI 2018)
- kontextuelles Encoder + Decoder-Modell
- liest Input ein, reagiert mit Output
- Sequence-to-sequence Modeling + ‘Autoregression’

Wie generative LLMs funktionieren

Übersicht

Trainingsdaten: Was steckt drin?
Modelle: Wie groß sind die Modelle?
Encoder + Decoder = ‘autoregressive sequence-to-sequence model’
RLHF (Human Feedback: erwünschte Antworten)
Inferenz auf festem Modell (Server oder Computer): Prompt als Input, wahrscheinliche Token-Sequenz als Antwort
Prompt (Kontext, Persona) und Temperatur (Wahrscheinlichkeit) wichtig

Trainingsdaten: Was steckt drin?

Wissensressourcen: Wikipedia, Wikidata
Akademische Publikationen: arXiv, PubMed, DOAJ
Web-Crawling: CommonCrawl, Amazon, YouTube
Bücher: Google Books, Project Gutenberg
Social Media: Reddit, Twitter
Code: Github, Kaggle, StackOverflow
Nachrichten: NYT, Google News, uvm.
Anderes: Patente, Gesetze, etc.

Wie groß sind die Modelle?

Bezeichnung (Jahr, Anbieter)	Daten (Tokens)	Modell (Parameter)
GPT-3 (2020, OpenAI)	300 B	175B
GPT-4 (2023, OpenAI)	unbekannt	? 1 Trillion
LLama 2 (2023, Meta)	2 T	7B, 13B, 70B
DeepSeek V3.1 (2025)	unbekannt	671 B
Mistral (20XX)	unbekannt	7B, 8x7B MoE
GPT-OSS (2025, OpenAI, lokal)	unbekannt	20B, 120B
*OLMo-2 (2025, AllenAI, lokal)	5 T	7B, 13B, 32B

Encoder-Modelle (BERT / Transformer)

BERT = Bidirectional Encoder Representations from Transformers

Unterschiede zu statischen Word Embeddings
- Es wird nicht ein Lexikon repräsentiert, sondern ein Korpus
- Jedes Token hat je nach Kontext einen eigenen Vektor (it => animal!)
- Der Kontext wird in beide Richtungen berücksichtigt (bidirectional)
- Der Kontext wird je unterschiedlich gewichtet (“Attention”)

Encoder + Decoder = GPT

GPT = Generative Pre-trained Transformer

Unterschiede zum BERT-Modell
- Modell hat Encoder + Decoder: bekommt Input, produziert Output
- Trainingsdaten sind paarweise Wort-Sequenzen:
  Frage/Antwort, Anfang/Fortsetzung, Original/Übersetzung, Problem/Code
Prinzipien
- ‘Sequence-to-sequence modeling’ mit schrittweiser Generierung
- ‘Autoregressiv’: die generierten Tokens werden Teil des Prompts für die Fortsetzung
- Sukzessive Generierung: jedes weitere Token passt (optimal / fast optimal) zum vorangegangenen Kontext
Ergebnis
- Modell, das auf einen sprachlichen Prompt mit natürlicher Sprache reagiert
- Der Prompt beinhaltet die Anweisung und das zu bearbeitende Material (!)

GPT + RLHF (Reinforcement Learning from Human Feedback) = Chatbot

Generatives LLM wird trainiert, um Text zu generieren
Menschen bewerten die Antworten (nützlich? sinnvoll? angemessen? sozial erwünscht?)
Auf dieser Grundlage wird ein “Belohnungsmodell” wird trainiert, das das genLLM steuert
Das genLLM wird optimiert, damit es Antworten generiert, die Menschen nützlich, angemessen, ehrlich finden

Was aktuelle Modelle können (und was nicht)

Was sie können
- Plausiblen, natürlich-sprachlichen Text generieren
- Die interne Repräsentation von Sprache für Annotationsaufgaben mobilisieren
- Auch: Programmiercode generieren, erklären, verbessern
- Und (wegen RLHF): sozial erwünschte Reaktionen ausgeben
Was sie nicht (oder nicht so gut) können
- Sich an die Faktenlage halten (keine Knowledge Base als Referenz)
- Analyse von Metrik und Reim (Frage der internen Repräsentation, und Mathe)
- Reproduzierbare Ergebnisse liefern (weil probabilistisch)
- Zunehmend besser: strukturierte Daten liefern (nicht mehr nur ‘Prosa-Maschinen’)
- Bei exotischeren technischen Fragen helfen (SPARQL, Typst)

Welche neuen Entwicklungen es gibt

Übersicht

Einige aktuelle Trends von Bedeutung für die Romanistik
- Von Fine-Tuning zu Zero-Shot Ansätzen
- Offene, effiziente Modelle für lokalen Einsatz
- Multimodale Sprachmodelle
- Mehrsprachigkeit / low-resoure languages
Weitere aktuell wichtige Themen
- Agentive AI (LLMs, die Modelle und Datensätze taks-spezifisch auswählen)
- Ethical AI: soziale, politische, ökologische, ästhetische Konsequenzen
- Reproducible / explainable AI: mehr Transparenz und Reproduzierbarkeit

Verbreiteter Ansatz: Pre-Training + Fine-Tuning

Grundlage: auf sehr umfangreichen Daten trainiertes, unspezifisches Modell (pretrained models)
Fine-Tuning
- mit spezifischen Daten (bspw. Sprache, Sprachstufe, Textsorte)
- mit spezifischem Task (bspw. Rede-Erkennung, Orthografie-Modernisierung)
Ergebnis
- Neues Modell mit verbesserter Performance auf spezifischem Task

Neuere Entwicklungen

Ansatz
- Few-shot-learning: allgemeines Modell, lernt Task mit wenigen Beispielen
- Beispiel: SetFit (Few-Shot Learning for Sentence Transformers), Unso et al. (2022).
- Zero-shot-learning: allgemeines Modell, kann Task direkt ausführen
Vor- und Nachteile
- Viel weniger Aufwand
- Technisch viel einfacher
- Performance nicht immer vorhersehbar

Multimodale Sprachmodelle

Modelle, die mit Sprache, aber auch mit Bildern umgehen können (Decoder und/oder Encoder)
Absoluter “game changer” für die Bildwissenschaften
Erlaubt algorithmischen Zugang zum Bildinhalt (Objekte, Farben, Stile)

Offene, effiziente Modelle für lokalen Einsatz

Sehr bequem bspw. über Ollama
Bessere Reproduzierbarkeit
Besserer Datenschutz
Geringerer Ressourceneinsatz
Keine Top-Performance
Modelle für Text, Bild, Code etc.

Was man mit LLMs in den Sprach- und Literaturwissenschaften machen kann

Überblick

Analyse von Redewiedergabe in narrativen Texten
Modelle für historische Sprachstufen
Lyrik-Analyse (Stanza-Typ, Metrik)
Eine Geschichte fortsetzen…
Gedichte interpretieren?
OCR korrigieren
Mit einer API interagieren
Autorschaftsattribution vornehmen
uvm.

Redewiedergabe-Projekt

Automatische Erkennung von Redewiedergabe (direkt/indirekt/free indirect)
Verschiedene Encoder-Modelle (BERT und FLAIR) mit Finetuning
Erkennungsraten (F1): 0.84 (direkt), 0.76 (indirekt), 0.59 (free indirect)

MacBERTh

MacBERTh: ein Transformer-basiertes Modell (BERT-style)
Trainiert auf sehr viel historischem Englisch
Verbesserte Performance auf historischen Daten für Standard-Tasks

ALBERTI

Zwei Aufgaben: stanza type classification, metrical pattern prediction
Mehrsprachige, für den Task trainierte BERT-Modelle
Verbesserte Performance gegenüber generischen mehrsprachigen Modellen

‘Predict what happens next…’

Grundidee: Ein LLM bekommt als Input
- Eine Zusammenfassung der Romanhandlung bis zum aktuellen Punkt
- Die 900 Wörter vor dem aktuellen Punkt
Schritt 1
- Das 900-Wörter-Segment zusammenfassen
- Eine Zusammenfassung des nächsten Segments generieren
Schritt 2
- Das LLM bekommt das tatsächliche nächste Segment
- Aufgabe: Zusammenfassung dieses Segments generieren
Evaluation
- Wie ähnlich sind sich die beiden Zusammenfassungen?

Do LLMs understand poetry?

Aufgabe: Prompt-basierte Interpretation von Gedichten
Ergebnisse:
- sehr gut bei Kontext-abhängigen Fragen (!)
- nicht gut bei Fragen von Metrik und Reim (!)
Nicht-englischer Kontext muss explizit aufgerufen werden

OCR-Korrektur

We achieve a significant enhancement in OCR quality with Llama 2 outperforming BART, achieving a 54.51% reduction in the character error rate against BART’s 23.30%.
– Thomas, Gaizauskas, and Lu (2024)

Our evaluation shows that LLMs are anything but efficient at this task.
– Boros et al. (2024)

Sequence Labeling: Evalation

DraCor und MCP: Erfahrungen und Optimierung

Stilometrische Autorschafts-Attribution

Fazit

Meine persönlichen ‘Lessons Learned’

Begrifflich möglichst genau sein: Embeddings vs. generative LLMs vs. “KI”
Der eigentliche “game changer” waren die BERT-Modelle: nuancierter, algorithmischer Zugang zu Semantik
Wann immer möglich lokale Modelle nutzen, bspw. via Ollama (Reproduzierbarkeit, Effizienz, Datenschutz)
Immer möglichst offene Modelle nutzen, siehe European Open Source AI Index
Im wiss. Kontext: LLMs nur für evaluierbare Tasks einsetzen (Annotationstasks vs. offene Wissenstasks)
“Know when and when not to use LLMs”

Danke! Ich freue mich auf die Diskussion!

References

Alammar, Jay. 2018. “The Illustrated Transformer.” JAlammar. https://jalammar.github.io/illustrated-transformer/.

Allam, Hesham, Lisa Makubvure, Benjamin Gyamfi, Kwadwo Nyarko Graham, and Kehinde Akinwolere. 2025. “Text Classification: How Machine Learning Is Revolutionizing Text Categorization.” Information 16 (2): 130. https://doi.org/10.3390/info16020130.

Boros, Emanuela, Maud Ehrmann, Matteo Romanello, Sven Najem-Meyer, and Frédéric Kaplan. 2024. “Post-Correction of Historical Text Transcripts with Large Language Models: An Exploratory Study.” In Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024), edited by Yuri Bizzoni, Stefania Degaetano-Ortlieb, Anna Kazantseva, and Stan Szpakowicz, 133–59. St. Julians, Malta: Association for Computational Linguistics.

Brunner, Annelen, Ngoc Duyen Tanja Tu, Lukas Weimer, and Fotis Jannidis. 2020. “To BERT or Not to BERT - Comparing Contextual Embeddings in a Deep Learning Architecture for the Automatic Recognition of Four Types of Speech, Thought and Writing Representation.” In Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland, June 23-25, 2020. https://ceur-ws.org/Vol-2624/paper5.pdf.

Hicke, Rebecca M M, and David Mimno. 2023. “T5 Meets Tybalt: Author Attribution in Early Modern English Drama Using Large Language Models.” In Proceedings of Computational Humanities Research 2023. CEUR.

Jannidis, Fotis, Rabea Kleymann, Julian Schröter, and Heike Zinsmeister. 2025. “Do Large Language Models Understand Literature? Case Studies and Probing Experiments on German Poetry.” CCLS2025 Conference Reader. https://doi.org/10.26083/TUPRINTS-00030139.

Manjavacas Arevalo, Enrique, and Lauren Fonteyn. 2021. “MacBERTh: Development and Evaluation of a Historically Pre-Trained Language Model for English (1450-1950).” In Proceedings of the Workshop on Natural Language Processing for Digital Humanities, edited by Mika Hämäläinen, Khalid Alnajjar, Niko Partanen, and Jack Rueter, 23–36. NIT Silchar, India: NLP Association of India (NLPAI). https://aclanthology.org/2021.nlp4dh-1.4/.

Philips, Hunter. 2023. “A Simple Introduction to Gradient Descent.”

Pichler, Axel, Janis Pagel, and Nils Reiter. 2025. “Evaluating LLM-Prompting for Sequence Labeling Tasks in Computational Literary Studies.” In Proceedings of the 9th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2025), edited by Anna Kazantseva, Stan Szpakowicz, Stefania Degaetano-Ortlieb, Yuri Bizzoni, and Janis Pagel, 32–46. Albuquerque, New Mexico: Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.latechclfl-1.5.

Rosa, Javier de la, Álvaro Pérez Pozo, Salvador Ros, and Elena González-Blanco. 2023. “ALBERTI, a Multilingual Domain Specific Language Model for Poetry Analysis.” 2023. https://doi.org/10.48550/ARXIV.2307.01387.

Russell, Stuart J., and Peter Norvig. 2022. Artificial Intelligence: A Modern Approach. Fourth edition, global edition. Boston: Pearson.

Schöch, Christof. 2022. “Quantitative Semantik. Word Embedding Models für literaturwissenschaftliche Fragestellungen.” In Digitale Literaturwissenschaft: DFG-Symposion 2017, edited by Fotis Jannidis, 535–62. Stuttgart: Metzler. https://doi.org/10.1007/978-3-476-05886-7_22.

Skansi, Sandro. 2018. Introduction to Deep Learning: From Logical Calculus to Artificial Intelligence. Undergraduate Topics in Computer Science. Cham: Springer. https://doi.org/10.1007/978-3-319-73004-2.

Thomas, Alan, Robert Gaizauskas, and Haiping Lu. 2024. “Leveraging LLMs for Post-OCR Correction of Historical Newspapers.” In Proceedings of the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA) @ LREC-COLING-2024, edited by Rachele Sprugnoli and Marco Passarotti, 116–21. Torino, Italia: ELRA and ICCL.

Trilcke, Peer, Ingo Börner, Henny Sluyter-Gäthje, Daniil Skorinkin, Frank Fischer, and Carsten Milling. 2025. “Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-Empowered LLM Usage of the DraCor API.” https://arxiv.org/abs/2508.13774.

Underwood, Ted. 2024. “Can Language Models Predict the Next Twist in a Story?” The Stone and the Shell.

Unso, Eun Seo Jo, Lewis Tunstall, Luke Bates, Daniel Korat, Oren Pereg, and Moshe Wasserblat. 2022. “SetFit: Efficient Few-Shot Learning Without Prompts.” Huggingface Blog.

Widdows, Dominic. 2004. Geometry and Meaning. Stanford: CSLI Publ.

Grundlagen großer Sprachmodelle

Orientierung

Teaser…

Unser Thema heute: generative Sprachmodelle verstehen

Mein Profil / Perspektive: Digital Humanities

Überblick

Was LLMs nicht sind:Abgrenzung

Übersicht

Algorithmus => Machine Learning => Sprachmodelle

Trade-off bei komplexen Klassifikationsaufgaben

Generative Sprachmodelle vs. “echte KI” (AGI)

Woher LLMs kommen:Konzeptuelle Grundlagen und Vorläufer

Übersicht

Vektorraum-Modell im Information Retrieval

Distributionelle Semantik

Neuronale Netze: Input, hidden, output layers

Lernen = Gewichte optimieren (Gradient Descent)

Word Embeddings: Semantik im Vektorraum (Ergebnis)

Word Embeddings: Training

Konzeptuelle Entwicklung von word2vec ab

Wie generative LLMs funktionieren

Übersicht

Trainingsdaten: Was steckt drin?

Wie groß sind die Modelle?

Encoder-Modelle (BERT / Transformer)

Encoder + Decoder = GPT

GPT + RLHF (Reinforcement Learning from Human Feedback) = Chatbot

Was aktuelle Modelle können (und was nicht)

Welche neuen Entwicklungen es gibt

Übersicht

Verbreiteter Ansatz: Pre-Training + Fine-Tuning

Neuere Entwicklungen

Multimodale Sprachmodelle

Offene, effiziente Modelle für lokalen Einsatz

Was man mit LLMs in den Sprach- und Literaturwissenschaften machen kann

Überblick

Redewiedergabe-Projekt

MacBERTh

ALBERTI

‘Predict what happens next…’

Do LLMs understand poetry?

OCR-Korrektur

Sequence Labeling: Evalation

DraCor und MCP: Erfahrungen und Optimierung

Stilometrische Autorschafts-Attribution

Fazit

Meine persönlichen ‘Lessons Learned’

Danke! Ich freue mich auf die Diskussion!

References

Was LLMs nicht sind:
Abgrenzung

Woher LLMs kommen:
Konzeptuelle Grundlagen und Vorläufer