2023-10-30
“DH is to take advantage of digital resources to improve our work as philologists.” – Eleonora Arrigoni
„To me digital humanities is not adding computing to traditional humanities subjects; it is rethinking our subjects and core activities (teaching, scholarship) as the new communications media take us to new questions, new modes of creativity, and new connections among people and ideas.“ – Gideon Burton
DH is part of what once was called ‘auxillary sciences’ in the humanities in the best sense: To know about the theory and methods of carrying out scholarly work in a digital way and in the digital age is prerequisite to all work done. – Torsten Schaßan
“Researchers working with digital materials, tools, or methods in the humanities; researchers creating new digital materials, tools, or methods in the humanities; researchers studying computing using humanities methods.” – Stan Ruecker
“Technology and computing are used to reexamine traditional humanities research and explore new modes of scholarship.” – Timothy Lepczyk
“To me, digital humanities is about exploring the ways in which the affordances of technology can help us explore the deeper concerns of the humanities, from expanding archival access to thinking about what it means to read something. DH embodies a spirit of collaboration, experimentation, and play, in which failure is acceptable and part of the normal process, and in which the action of ‘making’ is as valued as the action of thinking.” – Katie Kaczmarek
“Personally, I don’t define DH. Definitions should be done by others than myself. But I have a pretty clear understanding what I think DH is: DH is the ‘place’ where various disciplines meet, especially informatics and humanities. There are numerous of problems that can only be solved if those expertises are brought together. The project I’m working on - SeNeReKo - is a great example for such co-operation of multiple disciplines.” – Jürgen Knauth
Convergence and Inclusion. The first because different disciplines are collaborating to create common languages. The latter as DH allow peripheral or hidden resources to be taken into consideration in the development of research questions. – Francesca Morselli
Frage: Ich würde gern etwas darüber erfahren, wie bit-stream-preservation funktioniert.
Digitale Daten sind fundamental und physisch auf dem Datenträger ein “Bitstream”, also eine Folge von Bits (0/1).
Bitstream Preservation ist die Fähigkeit, den Bitstream über Technologiewechsel (bspw. HDD zu SSD) hinaus zu erhalten.
Zuverlässige Bitstream Preservation ist fundamental für die LZA (Langzeitarchivierung), aber nicht ausreichend für Interoperabilität (passende Software + Dokumentation).
Dafür muss der Bitstream u.a. redundant (mehrfach) gespeichert werden; und er muss regelmäßig auf neue Speichermedien übertragen werden (wegen Alterung oder Technologiewechsel)
Quelle:




Kompakt, alle Infos vorhanden, wenig Redundanz, aber diverse Probleme mit der Normalisierung. Verschachtelte oder gruppierte Werte (Zelleninhalte) sind vorhanden.
| name | WD-ID | places |
|---|---|---|
| Marco Polo (1254-1324) | Q6101 | Bukhara, Uzbekistan (39,64); Hormuz, Iran (27,56); Beijing, China (39,116) |
| Ibn Battuta (1304-1369) | Q7331 | Tangier, Marokko (35,5); Cairo, Ägypten (30,31); Baghdad, Irak (33,44) |
| Freya Stark (1893-1993) | Q292480 | Aleppo, Syrien, (36,37); Baghdad, Irak (33,44); Muscat, Oman (23,58) |
| Paul Theroux (1941-) | Q510320 | Cairo, Ägypten (30,31); Bogotá, Kolumbien (4,74); Phnom Penh, Kambodscha (11,104) |
Jedes Attribut (Spalte) der Relation (Tabelle) hat atomare Werte. Also: Verschachtelte oder gruppierte Werte (Zelleninhalte) sind nicht vorhanden. Zweck: Sortierung, Suche. Aber: viel Redundanz.
| last | first | born | died | WD-ID | city | country | lat | long |
|---|---|---|---|---|---|---|---|---|
| Polo | Marco | 1254 | 1324 | Q6101 | Bukhara | Uzbekistan | 39 | 64 |
| Polo | Marco | 1254 | 1324 | Q6101 | Hormuz | Iran | 27 | 56 |
| Polo | Marco | 1254 | 1324 | Q6101 | Beijing | China | 39 | 116 |
| Battuta | Ibn | 1304 | 1369 | Q7331 | Tangier | Marokko | 35 | 5 |
| Battuta | Ibn | 1304 | 1369 | Q7331 | Cairo | Ägypten | 30 | 31 |
| Battuta | Ibn | 1304 | 1369 | Q7331 | Baghdad | Irak | 33 | 44 |
| Stark | Freya | 1893 | 1993 | Q292480 | Aleppo | Syrien | 36 | 37 |
| Stark | Freya | 1893 | 1993 | Q292480 | Baghdad | Irak | 33 | 44 |
| Stark | Freya | 1893 | 1993 | Q292480 | Muscat | Oman | 23 | 58 |
| Theroux | Paul | 1941 | n/a | Q510320 | Cairo | Ägypten | 30 | 31 |
| Theroux | Paul | 1941 | n/a | Q510320 | Bogotá | Kolumbian | 4 | 74 |
| Theroux | Paul | 1941 | n/a | Q510320 | Phnom Penh | Kambodscha | 11 | 104 |
Jedes Nicht-Schlüssel-Attribut (nicht Teil eines Schlüssels) ist jeweils von jedem ganzen Schlüsselkandidaten abhängig, nicht nur von einem Teil eines Schlüsselkandidaten. Schlüsselkandidaten hier: “last” oder “WD-ID” + “city” = Ortsbesuch einer Person. Nur eine Kombination ist eindeutig, mache Attribute sind von einem Teil der Schlüssel abhängig. Wir müssen die Relationen (Tabellen) splitten. Reduziert zugleich die Redundanz.
| last | first | born | died | WD-ID | city | country | lat | long |
|---|---|---|---|---|---|---|---|---|
| Polo | Marco | 1254 | 1324 | Q6101 | Bukhara | Uzbekistan | 39 | 64 |
| Polo | Marco | 1254 | 1324 | Q6101 | Hormuz | Iran | 27 | 56 |
| Polo | Marco | 1254 | 1324 | Q6101 | Beijing | China | 39 | 116 |
| Battuta | Ibn | 1304 | 1369 | Q7331 | Tangier | Marokko | 35 | 5 |
| Battuta | Ibn | 1304 | 1369 | Q7331 | Cairo | Ägypten | 30 | 31 |
| Battuta | Ibn | 1304 | 1369 | Q7331 | Baghdad | Irak | 33 | 44 |
| Stark | Freya | 1893 | 1993 | Q292480 | Aleppo | Syrien | 36 | 37 |
| Stark | Freya | 1893 | 1993 | Q292480 | Baghdad | Irak | 33 | 44 |
| Stark | Freya | 1893 | 1993 | Q292480 | Muscat | Oman | 23 | 58 |
| Theroux | Paul | 1941 | n/a | Q510320 | Cairo | Ägypten | 30 | 31 |
| Theroux | Paul | 1941 | n/a | Q510320 | Bogotá | Kolumbian | 4 | 74 |
| Theroux | Paul | 1941 | n/a | Q510320 | Phnom Penh | Kambodscha | 11 | 104 |
Jedes Nicht-Schlüssel-Attribut (nicht Teil eines Schlüssels) ist jeweils von jedem ganzen Schlüsselkandidaten abhängig, nicht nur von einem Teil eines Schlüsselkandidaten. Schlüsselkandidaten: “last” oder “WD-ID” für Personen und “city” für Städte. Das splitten reduziert die Redundanz (Personen nur noch einmal genannt).
Personen
| WD-ID | last | first | born | died |
|---|---|---|---|---|
| Q6101 | Polo | Marco | 1254 | 1324 |
| Q7331 | Battuta | Ibn | 1304 | 1369 |
| Q292480 | Stark | Freya | 1893 | 1993 |
| Q510320 | Theroux | Paul | 1941 | n/a |
Ortsbesuche
| WD-ID | city | country | lat | long |
|---|---|---|---|---|
| Q6101 | Bukhara | Uzbekistan | 39 | 64 |
| Q6101 | Hormuz | Iran | 27 | 56 |
| Q6101 | Beijing | China | 39 | 116 |
| Q7331 | Tangier | Marokko | 35 | 5 |
| Q7331 | Cairo | Ägypten | 30 | 31 |
| Q7331 | Baghdad | Irak | 33 | 44 |
| Q292480 | Aleppo | Syrien | 36 | 37 |
| Q292480 | Baghdad | Irak | 33 | 44 |
| Q292480 | Muscat | Oman | 23 | 58 |
| Q510320 | Cairo | Ägypten | 30 | 31 |
| Q510320 | Bogotá | Kolumbian | 4 | 74 |
| Q510320 | Phnom Penh | Kambodscha | 11 | 104 |
Das war nur die eine Hälfte der Arbeit. Auch die Orte müssen normalisiert werden. Wir verwenden jetzt auch einen Identifier für “city”, weil es u.U. mehrere gleichnamige Städte geben könnte. Jede Tabelle hat jetzt eigene Identifier. Hier mit Assoziationstabelle (mit kombiniertem Schlüsse, ist aber nicht notwendig).
Personen
| WD-ID | last | first | born | died |
|---|---|---|---|---|
| Q6101 | Polo | Marco | 1254 | 1324 |
| Q7331 | Battuta | Ibn | 1304 | 1369 |
| Q292480 | Stark | Freya | 1893 | 1993 |
| Q510320 | Theroux | Paul | 1941 | n/a |
Orte
| C-ID | city | country | lat | long |
|---|---|---|---|---|
| 01 | Bukhara | Uzbekistan | 39 | 64 |
| 02 | Hormuz | Iran | 27 | 56 |
| 03 | Beijing | China | 39 | 116 |
| 04 | Tangier | Marokko | 35 | 5 |
| 05 | Cairo | Ägypten | 30 | 31 |
| 06 | Baghdad | Irak | 33 | 44 |
| 07 | Aleppo | Syrien | 36 | 37 |
| 08 | Muscat | Oman | 23 | 58 |
| 09 | Bogotá | Kolumbian | 4 | 74 |
| 10 | Phnom Penh | Kambodscha | 11 | 104 |
Ortsbesuche
| Besuchs-ID | WD-ID | C-ID |
|---|---|---|
| Q6101_01 | Q6101 | 01 |
| Q6101_02 | Q6101 | 02 |
| Q6101_03 | Q6101 | 03 |
| Q7331_04 | Q7331 | 04 |
| Q7331_05 | Q7331 | 05 |
| Q7331_06 | Q7331 | 06 |
| Q292480_07 | Q292480 | 07 |
| Q292480_06 | Q292480 | 06 |
| Q292480_08 | Q292480 | 08 |
| Q510320_05 | Q510320 | 05 |
| Q510320_09 | Q510320 | 09 |
| Q510320_10 | Q510320 | 10 |
Das war nur die eine Hälfte der Arbeit. Auch die Orte müssen normalisiert werden. Wir verwenden jetzt auch einen Identifier für “city”, weil es u.U. mehrere gleichnamige Städte geben könnte. Hier jetzt mit Fremdschlüssel.
Personen
| WD-ID | last | first | born | died |
|---|---|---|---|---|
| Q6101 | Polo | Marco | 1254 | 1324 |
| Q7331 | Battuta | Ibn | 1304 | 1369 |
| Q292480 | Stark | Freya | 1893 | 1993 |
| Q510320 | Theroux | Paul | 1941 | n/a |
Ortsbesuche
| WD-ID | C-ID | city | country | lat | long |
|---|---|---|---|---|---|
| Q6101 | 01 | Bukhara | Uzbekistan | 39 | 64 |
| Q6101 | 02 | Hormuz | Iran | 27 | 56 |
| Q6101 | 03 | Beijing | China | 39 | 116 |
| Q7331 | 04 | Tangier | Marokko | 35 | 5 |
| Q7331 | 05 | Cairo | Ägypten | 30 | 31 |
| Q7331 | 06 | Baghdad | Irak | 33 | 44 |
| Q292480 | 07 | Aleppo | Syrien | 36 | 37 |
| Q292480 | 08 | Muscat | Oman | 23 | 58 |
| Q292480 | 06 | Baghdad | Irak | 33 | 44 |
| Q510320 | 05 | Cairo | Ägypten | 30 | 31 |
| Q510320 | 09 | Bogotá | Kolumbian | 4 | 74 |
| Q510320 | 10 | Phnom Penh | Kambodscha | 11 | 104 |
Definition: es bestehen keine funktionalen Abhängigkeiten der Nichtschlüssel-Attribute untereinander. Alle Nichtschlüssel-Attribute (Spalten) sind direkt vom Schlüssel abhängig. In unserem Beispiel bereits gegeben.
Wenn es eine Postleitzahl gäbe, wäre der Ortsname jeweils davon indirekt abhängig, während die Postleitzahl direkt vom der Orts-ID abhängig wäre. Das wäre nicht ok. Man könnte eventuell argumentieren, dass der Ortsname von den Geokoordinaten abhängt; dann wäre der Ortsname auszulagern.
Aber: Man könnte hier jetzt das Besuchsjahr wunderbar eintragen, was in der Personentabelle und der Ortstabelle nicht gut zu platzieren ist, weil es ja nicht allein vom Ort oder der Person abhängig ist.
Ortsbesuche mit Jahr
| WD-ID | C-ID | year |
|---|---|---|
| Q6101 | 01 | 1288 |
| Q6101 | 02 | 1294 |
| Q6101 | 03 | 1302 |
| Q7331 | 04 | 1355 |
| Q7331 | 05 | 1350 |
| Q7331 | 06 | 1350 |
| Q292480 | 07 | 1924 |
| Q292480 | 06 | 1924 |
| Q292480 | 08 | 1912 |
| Q510320 | 05 | 1978 |
| Q510320 | 09 | 1956 |
| Q510320 | 10 | 1966 |


Wer möchte eines der Papers vorstellen? Worum geht es? Wird Clustering oder Klassifikation eingesetzt? Sonstige interessante Aspekte?
German Question Tags: A Computational Analysis - Yulia Clausen - PDF
“How Exactly does Literary Content Depend on Genre? A Case Study of Animals in Children’s Literature” - Kirill Maslinsky - PDF
Profiling Anonymous Authors in the Corsican Autonomist Press of the Interwar Period - Vincent Sarbach-Pulicani - PDF
“Comparing ChatGPT to Human Raters and Sentiment Analysis Tools for German Children’s Literature” - PDF
Is Cinema Becoming Less and Less Innovative With Time? Using neural network text embedding model to measure cultural innovation - Edgar Dubourg, Andrei Mogoutov and Nicolas Baumard - PDF
(De)constructing Binarism in Journalism: Automatic Antonym Detection in Dutch Newspaper Articles - Alie Lassche, Ruben Ros, Joris Veerbeek - PDF
Blind Dates: Examining the Expression of Temporality in Historical Photographs - Alexandra Barancová et al. - PDF
Using Online Catalogs to Estimate Economic Development in Classical Antiquity - Charles de Dampierre, Valentin Thouzeau and Nicolas Baumard - PDF
If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History - Giselle Gonzalez Garcia, Christian Weilbach - PDF
Detecting Psychological Disorders with Stylometry: the Case of ADHD in Adolescent Autobiographical Narratives - Juan Barrios, Simon Gabay, Florian Caffiero, Martin Debbané - PDF
The Middle Dutch Manuscripts Surviving from the Carthusian Monastery of Herne (14th century): Constructing an Open Dataset of Digital Transcriptions - Wouter Haverals, Mike Kestemont - PDF
Bitte lesen Sie die beiden folgenden Beiträge:
Und bitte beantworten Sie die folgenden Fragen: