Wrap-Up zum Vortrag von Chiara Cenati (29.11.2023): Vergangenheit, Gegenwart und Zukunft der Digitalen Epigraphik: von EpiDoc zu KI

Was ist Digitale Epigraphik und was können wir in Zukunft von ihr erhoffen? Welche besonderen Erfordernisse stellen Inschriften überhaupt an digitale Editionen? Und wird die Künstliche Intelligenz (KI) irgendwann in der Lage sein, epigraphische Fragmente verlässlich zu ergänzen? Inschriften variieren schließlich eklatant in Form und Inhalt – von der kurzen Weihinschrift zum langen carmen – und können auch nicht als reine Textquellen angesprochen werden. Chiara Cenati (Institut für Alte Geschichte und Altertumskunde, Papyrologie und Epigraphik) zeigte in ihrem Vortrag, wie neuere digital-epigraphische Projekte den gattungsspezifischen und materiellen Erscheinungsformen von Inschriften gerecht werden wollen.

Dies galt allerdings nicht von Anbeginn: In der Pionierzeit der Digitalen Epigraphik (1980er) lag der Fokus noch auf der Erstellung von Datenbanken, deren vornehmliches Ziel die Durchsuchbarmachung von Text(-Corpora) war. Einige der damals entwickelten Projekte werden heute noch fortgeführt, aktualisiert und bleiben in ihren Gebieten maßgeblich: Für die Lateinische Epigraphik existiert die nahezu vollständige Epigraphik-Datenbank Clauss/Slaby (EDCS), für die Griechische Epigraphik die (unvollständige) Datenbank Searchable Greek Inscriptions (PHI). Bereits in den 1990ern gab es zunehmend Bemühungen um eine stärkere Berücksichtigung materieller und historischer Aspekte, was sich etwa in der Epigraphischen Datenbank Heidelberg (EDH; für die römischen Provinzen) oder der Epigraphic Database Roma (EDR; für die Stadt Rom) niederschlug.

Ab den 2000ern wurden mit EpiDoc (TEI-XML) eine eigene Metasprache sowie Richtlinien entwickelt, die sich an den Bedürfnissen der Epigraphik ausrichteten und nach wie vor etwa halbjährlich ein Update erfahren. Für dieses Vorhaben musste das ursprünglich nur auf Texte und nicht auch auf Textträger ausgerichtete TEI-Format adaptiert werden. EpiDoc wurde vielfach aufgegriffen, von digitalen Ausgaben bestehender Editionen (etwa den Vindolanda Tablets Online, heute Teil der Roman Inscriptions of Britain), aber auch von gänzlich anderen Projekten, etwa papyri.info.

Obwohl dieses Tool weite Verbreitung finden konnte, bleibt festzuhalten, dass sich viele Projekte – mit ihren sehr diversen Bedürfnissen und Zielsetzungen – gegen EpiDoc entschieden. Einen ersten großen Schritt zu gemeinsamen Standards, insbesondere mit der Etablierung von weithin verwendeten Vokabularen, setzte das mittlerweile nicht mehr weiterfinanzierte Best Practice Network EAGLE. EAGLE sollte die existierenden Plattformen miteinander verbinden; unterschiedliche Aufbereitungen der Daten in den Einzelprojekten und unzureichende Koordination der Datenflüsse zwischen EAGLE und den Datenbanken führten allerdings zu unbefriedigenden Suchoptionen, was das Netzwerk für die breite Verwendung unattraktiv machte.

Mit epigraphy.info (seit 2018) wurde die Idee eines gemeinsamen Portals mit Zugriff auf alle Einzelprojekte wieder aufgegriffen; daneben zielt das auf den FAIR-Prinzipien basierende Vorhaben auf die Instandhaltung abgeschlossener Projekte und die Erarbeitung von Richtlinien. Wichtige Schwerpunkte der Unternehmung sind die Erstellung von Vokabularen (also von für alle antiken epigraphischen Kulturen nutzbaren Datensätzen), Ontologien (von z.T. auf CIDOC CRM aufbauenden Definitionen und formalen Strukturen von Daten durch Angabe der (hierarchischen) Beziehungen untereinander) sowie eines „Epifinders“: Dies ist ein Tool zur Suche, Analyse und Bearbeitung von Inschriften, das mit den einzelnen Projekten interoperabel ist. Die Gewährleistung des Datenflusses in beide Richtungen – bei EAGLE nicht möglich – ist ebenfalls ein wichtiges Anliegen.

Hierfür ist es aber notwendig, dass die Daten abgeglichen werden und im XML-Format vorliegen. Da eine Neukodierung aller Daten unmöglich ist, muss auf Converter und Editors zurückgegriffen werden. Zurzeit steht der im Rahmen des ERC-Projekts PATRIMONIVM entwickelte Converter Open Access zur Verfügung, der die Konvertierung von Eingaben im Leidener System ermöglicht. Der Editor des DFG-geförderten EDEp-Projekts (Editionstools für eine Digitale Epigraphik) befindet sich in der Testphase und wird nach Abschluss des Vorhabens (2024) freigegeben.

Chiara Cenati ist selbst Mitarbeiterin im ERC-Projekt MAPPOLA (Mapping Out the Poetic Landscapes of the Roman Empire; PI: Peter Kruschwitz). Im Zuge dessen werden in einer Datenbank (Open Access, momentan noch in der Testphase mit beschränktem Zugang) die etwa 4.000 Versinschriften des Römischen Reichs gesammelt und auch auf einer Karte dargestellt. MAPPOLA adaptiert das EAGLE-Vokabular durch die Einführung von neuen Ober- und Unterkategorien sowie von für Versinschriften wichtigen Vokabularen für das Inschriftenlayout. Ebenso wird eine Ontologie für die verschiedenen Textgattungen (Prosa- und Versinschriften, quantitative und akzentuierende Schemata und die verschiedenen Versmaße) entwickelt. Zwar wurde der PATRIMONIVM-Converter integriert, für die Inschriften stehen jedoch drei Formen der Visualisierung (diplomatisch/interpretativ/Visualisierung nach Versen) zur Verfügung, was im Moment ein Alleinstellungsmerkmal von MAPPOLA ist. Bislang wurde höchstens auf die Versform hingewiesen, ohne weitere Angaben zur Unterscheidung von Vers und Zeile – was in den Inschriften aber differieren kann.

Ein rezentes Arbeitsfeld der Digitalen Epigraphik ist Machine Learning (ML). Prominent ist etwa ITHACA: Das Ziel ist eine mit existierenden Datenbanken trainierte KI, die Lücken in griechischen Inschriften ergänzen kann; Probleme bei derartigen Projekten betreffen etwa die Tatsache, dass die verwendeten Datenbanken unvollständig und teilweise fehlerhaft sind (und somit viel Arbeit in die Datenbereinigung investiert werden muss), aber auch, dass insgesamt zu wenig Inschriften bekannt (und ediert) sind, um Daten für zuverlässige Ergebnisse bereitzustellen. Oftmals ist zudem nicht eindeutig, wie viele Buchstaben in einer fragmentierten Inschrift überhaupt fehlen. Nichtsdestotrotz ist ML zur Lückenergänzung ein wichtiges Forschungsvorhaben; neben ITHACA entstehen gerade weitere Initiativen.

In der akademischen Lehre fristet die Digitale Epigraphik immer noch ein Nischendasein; für Interessierte hat das Project ENCODE einen MOOC zur Digitalen Epigraphik und Papyrologie entwickelt, der demnächst online zugänglich sein wird.

In der Diskussion bestand Einigkeit, dass eine automatisierte Ergänzung (die in jedem Fall von Wissenschaftler*innen überprüft werden muss) epigraphische Arbeit lediglich unterstützen könne; auch die historische Interpretation der Inschriften obliege weiterhin den Expert*innen. Erneut wurde auch die nicht immer gewährleistete freie Zugänglichkeit und langfristige Finanzierung der Datenbanken betont. Möglichkeiten und Grenzen institutioneller Anbindungen der Digitalen Epigraphik – etwa im Zuge eigener Professuren – wurden diskutiert. (Bericht: Felix Michler)

Liste der Partner von epigraphy.info (inkl. Verlinkungen).

Wrap-Up zum Vortrag von Christopher Arnold, Michael Hackl und Emil Lusser (24. April 2023): Vom Manuskript zur Website. Chancen und Grenzen digitaler Editionsarbeit (Bericht von Kamil Bazelides)

In dem Vortrag im Rahmen des Forschungsschwerpunkts Text und Edition wurden gemeinsam zwei vom FWF finanzierte Projekte der Evangelisch-Theologischen Fakultät vorgestellt. Im Zentrum der beiden von Univ.-Prof. Dr. Christan Danz geleiteten Forschungsprojekte stehen auf der einen Seite die Werke von Friedrich Wilhelm Joseph Schelling im Projekt Hybridedition „Schellings Berliner Philosophie der Offenbarung“ (1841-45) (P 34383-G) und auf der anderen Seite die Korrespondenz von Paul Tillich im Projekt Edition of Paul Tillich’s Correspondence (1887-1933) (I 4857-G). Die ausgewählten Textkorpora von Briefen, Manuskripten, und Vorlesungsmitschriften werden als Hybrideditionen aufbereitet, wobei beide Projekte eine kombinierte digitale open-access und eine gedruckte Ausgabe planen. Als Hauptargumente galten die jeweiligen Vorteile von Print- und Digitaledition für die Nachhaltigkeit sowie die bestmögliche Benützbarkeit der edierten Texte. Weitere Gegenstände der Diskussion waren der gemeinsame Workflow beider Projekte, die gattungsspezifischen Nutzungsszenarien beider Editionen sowie die Themen undatierte Briefe, unbekannte Personen und Korrespondenznetzwerke.

Schellings Berliner Vorlesungen zu einer Philosophie der Offenbarung sind in verschiedenen Formen erhalten: in Manuskripten, Drucken, Nachschriften, Tagebüchern sowie Notizen. Das Ziel wäre ein Text aus letzter Hand, der philosophiegeschichtlich aufgearbeitet ist. Dies stellt aber wegen der variierenden Lesbarkeit der Texte, der Fülle und Heterogenität des Materials sowie des Fehlens einer editorischen Infrastruktur früh eine besondere Herausforderung dar. Weitere Schwierigkeiten traten bei der Transkription auf. Aufgrund von unterschiedlichen Überlieferungsträger ­– etwa Korrekturschriften oder Konzepte – ist die maschinelle Transkription mit Transkribus nur partiell anwendbar – lediglich bei sauber gestalteter Kurrentschrift. Weitere Hürden ergaben sich aus der problematischen Identifizierung von Händen (wegen gleicher Tinte, die verwendet wurde). Bei der Kodierung der digitalen Edition wurde nicht nur allgemein TEI XML verwendet, sondern konkreter das Basisformat des Deutschen Textarchivs. Das Ziel ist ein abschnittsweise gestalteter unmittelbarer Vergleich zwischen dem gedruckten Text der Vorlesungen und dem dazu verhältnismäßig längeren Manuskripten; eine zusätzliche Referenzierung von Textabschnitten durch Schlagworte / ein Sachregister wird erwogen. Die Web-Präsentation, die in Zusammenarbeit mit der Bayerischen Akademie der Wissenschaften erstellt wird, ist gegenwärtig noch in Arbeit.

Demgegenüber basiert die Edition von Tillichs Korrespondenz – hier der erste Teil (1220 Briefe) eines umfangreicheren Korpus (2800 Briefe) – auf einer Exist-DB und verfügt bereits über ein mit dem TEI-Publisher erzeugtes Graphic User Interface. Unter Verwendung der in der digitalen Edition gesammelten Daten wird für die zukünftige Präsentation auch eine visualisierte Chronologie in einer Timeline mit Filtern überlegt.

Für die Transkription wurde wiederum mit Transkribus gearbeitet, wobei ein eigenes Modell am Ende nur geringfügige Vorteile gegenüber einem bestehenden bot. (Diskutiert wurde der eigenständige Quellenwert gedruckter Schreibkalender und die diesbezüglich noch in Entwicklung befindliche Layouterkennung in Transkribus. Tabellen werden in der digitalen Edition nicht kodiert, sondern auf der Website mithilfe von CSS und HTML erstellt). Die TEI-Kodierung wird mit ODD umgesetzt, so gibt es Pop-Up-Fenster etwa zu erwähnten Personen. Erfasst wurden einzelne Elemente des Briefes, wie Datum, Grußformel, Unterschrift, aber auch <bibl>, oder <persName>; <placeName>.

In der anschließenden Diskussion herrschte u.a. dahingehend Konsens, dass digitale Editionen zwar zeitgemäßer, handlicher und übersichtlicher sind, Printeditionen aber als Lesetexte durchaus weiterhin ihre Berechtigung haben.

Wrap-up zur ARCHITRAVE-Projektpräsentation

Am 19. Jänner 2023 veranstaltete das Österreichische Staatsarchiv in Kooperation u.a. mit dem Forschungsschwerpunkt “Text und Edition” eine Präsentationsveranstaltung rund um das deutsch-französische Kooperationsprojekt Architrave, in dem Ausschnitte aus sechs ausgewählten frühneuzeitlichen Reiseberichten aufbereitet und übersetzt wurden. Aus editorischer Perspektive sind die folgenden Punkte bemerkenswert: (a) Die Daten sind im Repositorium TextGrid abgelegt und damit auch im Rahmen der NFDI-Initiative nachhaltig gesichert (Ansprechpartner ist die UB Göttingen). (b) Die zentrale Editionsansicht erlaubt eine synoptische Ansicht mit Faksimile; die mit leaflet generierten Karten sind separat referenzierbar und abgelegt. (c) Die Struktur der (frei zugängilchen und CC-BY-NC lizensierten) TEI-Files kann auch bei der Kodierung anderer vergleichbarer Quellen (Selbstzeungnisse) eine hilfreiche Orientierung darstellen. Beispielsweise werden Orte, die auf der Reise tangiert werden, als solche gekennzeichnet (<placeName type=”city” subtype=”passingBy”>); Tagebucheinträge fungieren als strukturierende Einheiten (<div type=”diaryEntry” when=”1698-10-23″>), zugleich wird mit Seiten- und Zeilenwechseln auch das Layout abgebildet. (d) Die Dokumentation (Richtlinien, Verantwortliche, aber auch Datenschutz) ist recht ausführlich. Die projektspezifische Umsetzung der TEI-Richtlinien würde sich durchaus auch für pädagogische Zwecke eignen.

Wrap-Up zum Vortrag von Edith Kapeller (10. Oktober 2022): Editorische use cases für mehrere Textversionen

Die Diskussion zum Projekt Der Österreichische Bibelübersetzer, konkret zu dessen Evangelienwerk, adressierte an erster Stelle die Frage, worin der Mehrwert der synoptischen Edition der Erst- bzw. Bearbeitungsfassung bestehen kann. Da sich der Gestaltungswille bei der Bearbeitung des Textes vor allem in der Umstellung der Kapitel zeigte, wird in der Edition eine Umordnung der synoptischen Sicht nach entsprechenden (aber anders nummerierten) Kapiteln ermöglicht. So erfordert zwar das gezielte Lesen der Bearbeitungsfassung ein bewusstes Durchklicken der dortigen Kapitelzählung. Das ist aber, so der Konsens, dadurch argumentierbar, dass (a) mit einer gedruckten Lesefassung ein lesbarer fortlaufender Text geboten wird; dass (b) in der Einleitung die Besonderheiten der Umarbeitung verdeutlicht und aufbereitet werden; und dass (c) für die künftige Oberflächenentwicklung auch ein interaktiver Einstieg in die Kapitelverschiebungen etwa über einen Konkordanzbalken denkbar wäre (vergleichbar dem Einstieg über Karten, Personennetzwerke oder eine Lagendarstellung: vgl. Edition Visualization Technology (unipi.it)). Betont wurde, auch mit Blick auf vergleichbare Problemlagen (Herberstein, Commenrarii: bibliotheca Augustana (fh-augsburg.de), Welscher Gast Digital: Welscher Gast digital (uni-heidelberg.de)) die Notwendigkeit, editorische Entscheidungen mit Blick auf das Benutzer*innen-Verhalten zu treffen, also synoptische “Überforderung” zu vermeiden und gleichzeitig den eigenen Blick auf die Besonderheiten des Textes als leitend für das Editionsdesign explizit zu machen.

Ebenfalls diskutiert wurde der Umgang des Projekts mit Sonderzeichen sowie der Umstand, dass Abbreviaturzeichen nicht mit eincodiert sind: Wiedergegeben wird der Buchstabenbestand sowie die Auflösung. (Unsichere Auflösungen können auch als solche getagt werden.) Lediglich ein knappes Dutzend (Unicode-)Sonderzeichen kommt zum Einsatz, bei den meisten Fällen unterschiedlicher Grapheme in der Quelle (beispielsweise “s” in verschiedenen Schreibeweisen) wird in der Edition dagegen normalisiert. Ein Grund für diese Vorgehensweise liegt im Fehlen eines verbindlichen Standards für die Verwendung komplexerer Zeichensätze. Diese editorische Entscheidung kann zwar für einen philologischen Zugang Informationsverlust bedeuten, erleichtert jedoch die Arbeit und bringt auch keine Einschränkung bei der Durchsuchbarkeit, zumal Varianten in der Suche mit berücksichtigt werden können.  Im Hinblick auf den Workflow bestehen gute Erfahrungen (a) mit Transkribus, unter ausführlicher Verwendung der Tagging-Funktion; (b) mit einer Ediarum-Adaption (Mediaevum: ediarum: Module), die basierend auf ediarum.base im Kooperation mit TELOTA entwickelt wurde und auf Nachnutzung angelegt ist. Wo vorhanden, werden für die Personen GND-Verweise angebracht.