Uncategorized

Wrap-Up zum Vortrag von Mark Faulkner (24.10.2024): Towards Medieval Big Data: Corpora, Metadata and Methodologies for Early English

Der am Trinity College Dublin lehrende Dr. Mark Faulkner stellte im Rahmen dieses Vortrags einige Methoden und Projekte vor, die für die Forschung an mittelalterlichen Handschriften in altenglischer Sprache von Relevanz sind.

Faulkner eröffnete seinen Vortrag mit der Erläuterung darüber, dass ein Großteil der Tradition der Philologie auf den Forschungsergebnissen des 19. Jahrhunderts basiert. Daran anschließend ging es im Zusammenhang mit der Feature Extraction um die Erfassung verschiedener Schreibweisen einzelner Buchstaben, ausgehend von einer Handschrift aus dem 12. Jahrhundert. Faulkner sah sich dabei auf Basis der Methoden von Forschern des 19. Jahrhunderts zunächst an, wie oft in dieser Handschrift der Buchstabe b anstelle des Buchstaben v geschrieben wurde, welche unterschiedlichen Schreibweisen des Buchstaben b ersichtlich waren und wie oft diese vorkamen. Daraus versuchte er den Schluss zu ziehen, ob die unterschiedlichen Schreibweisen im weiteren Verlauf dieses Textes vorhersehbar oder gar kalkulierbar waren. Anschließend erfolgte mithilfe der Datenbank MANCASS C11 Database, des York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE) sowie des Werkes A Linguistic Atlas of Early Middle English 1150-1325 (LAEME) eine Untersuchung von Lemmata, also von Stammformen bestimmter Wörter, samt Analyse der Häufigkeit des Vorkommens bestimmter Formen. In einem letzten Schritt erfolgte eine Quasi-Lemmatisierung bestimmter im Dictionary of Old English (DOE) vorfindlichen Wörter, die im Dictionary of Old English Corpus (DOEC) unter dem Gesichtspunkt der Homographie dieser Wörter abgeglichen wurden, was eine Vielzahl von unterschiedlichen Schreibweisen ergab.

Als nächstes wurden im Vortrag verschiedene Methoden im Bereich des Linguistic Profiling vorgestellt. Dabei wurden nicht nur individuelle Größen, sondern auch ganze semantische Felder im Hinblick auf die Häufigkeit verschiedener Schreibweisen von Wörtern untersucht. Diese unterschiedlichen Schreibweisen wurden dann mittels Cluster-Analyse untersucht.

Zum Thema Metadaten präsentierte Faulkner das Projekt Searobend. Linked Metadata For English-Language Texts, das vom COALESCE-Programm des Irish Research Council gefördert wird. Das Hauptziel dieses Projekts besteht in der digitalen Verknüpfung von fünfzehn Quellen, die für das Studium englischer Texte aus der Zeit zwischen 1000 und 1300 von Bedeutung sind. Dadurch sollen grundlegende Informationen zu jedem Werk zur Verfügung gestellt und eine Steigerung des Nutzens dieser Ressourcen für die Wissenschaft erzielt werden. Dies soll zu einer Erleichterung der intensiveren Nutzung dieser Handschriften führen. In diesem Zusammenhang erläuterte Faulkner drei wichtige Komponenten, die für dieses Projekt von Relevanz sind: den Knowledge Graph (KG), die Ontologie (Ontology) sowie das CIDOC-Conceptual Reference Model (CRM).

Unter einem Knowledge Graph versteht man eine strukturierte Darstellung von Informationen, die miteinander verbunden sind. Dadurch werden Entitäten sowie Beziehungen zwischen diesen Entitäten dargestellt. Durch KGs werden Daten so organisiert, dass es leichter ist, sie miteinander zu verbinden und abzurufen, was dabei hilft, aussagekräftige Erkenntnisse zu gewinnen und Verbindungen innerhalb eines bestimmten Bereichs oder über unterschiedliche Datensätze hinweg abzufragen.

Eng mit KGs verbunden sind die sogenannten Ontologien. Dabei handelt es sich um formale und explizite Darstellungen von Wissen in bestimmten Bereichen. Sie spielen eine entscheidende Rolle bei der Strukturierung von Informationen in einem KG, da sie eine standardisierte Methode zur Modellierung und Organisation von Daten bieten und das Verständnis und die Abfrage dieser Daten erleichtern. Ontologien werden oftmals auch als gemeinsames Vokabular zur Beschreibung von Daten bezeichnet.

Als Beispiel für eine solche Ontologie wird das CIDOC-Conceptual Reference Model erläutert. Dabei handelt es sich um eine erweiterbare Ontologie für Informationen im Bereich des kulturellen Erbes. Die Searobend-Ontologie erweitert diese CIDOC-CRM-Ontologie und bietet ein Vokabular, das für die Beschreibung von Metadaten mittelalterlicher Handschriften verwendet werden kann. Zusammengefasst soll Searobend gleichsam als Standarddatenbank für Metadaten fungieren, die für Forschungsprojekte zur altenglischen Sprache von Nutzen sein können.

Im letzten Teil seiner Präsentation ging Faulkner auf die Handwritten Text Recognition (HTR) ein und erläuterte ihre Methodik. Demnach soll der Computer in der Lage sein, handgeschriebene Texte von Quellen zu erfassen und zu interpretieren. Als erstes werden Trainingsdaten in das System eingespeist, sodass es „lernt“, wie eine Schrift zu lesen ist. Ein Teil dieser Daten wird allerdings zurückgehalten, um die Genauigkeit der maschinellen Leistung beurteilen zu können. Ziel ist eine Character Error Rate (CER) von ca. 2%, wonach der Computer bei etwa einem von fünfzig Wörtern falsch liegen würde. Ein Vorteil der HTR liegt einerseits in der Schnelligkeit im Gegensatz zur manuellen Eingabe, andererseits ist der Computer potentiell in der Lage, unterschiedliche Formen von Buchstaben eher zu „erkennen“ als ein Mensch.

In weiterer Folge stellte der Referent das Ansund-Projekt vor. Das Hauptziel dieses Projekts besteht darin, ein neues, umfassendes, frei zugängliches Corpus der altenglischen Sprache mittels HTR zu erstellen. Zudem sollen neue Transkriptionskonventionen entwickelt werden, die sinnvolle orthographische und graphematische Variationen erfassen. Das Projekt zielt außerdem darauf ab, Forschungsteams aufzubauen, die in der Lage sind, Trainingsdaten für das HTR-Modell zu transkribieren und die Ergebnisse für die Veröffentlichung und Wiederverwendung als weitere Trainingsdaten zu korrigieren. Es soll getestet werden, ob eine Korrektur gewisser HTR-Outputs erforderlich ist, um für altenglische Studien nutzbar zu sein. Letztlich sollen ähnliche Modelle für andere Sprachtraditionen (wie etwa Anglolatein) bereitgestellt werden.

Durch dieses Projekt soll ermöglicht werden, durch das eingeflossene Quellenmaterial die Entwicklung der Darstellung einzelner Buchstaben über Jahrhunderte zu verfolgen und nachzuvollziehen.

Die nächsten Schritte des Ansund-Projekts bestehen in einer ausführlichen Bewertung der Ergebnisse dieses Modells und in einem erneuten Trainieren des Modells mit 700 Seiten Trainingsdaten samt Veröffentlichung. Zudem gibt es noch einige offene Fragen, etwa im Hinblick auf die Worttrennung. Letztlich ist eine reflexive Bewertung des herangezogenen Zeichensatzes erforderlich. Dabei wird auf Fehler, die der Computer gemacht hat, bzw. Fälle, in denen er unsicher ist, aufmerksam gemacht.

Zuletzt stellte Faulkner das Projekt Wandering Books vor, das auf die Möglichkeit einer besseren Lokalisierung von Handschriften abzielt und ein HTR-Modell für lateinische Abkürzungen sein soll. Hierbei sollen einige HTR-Modelle anhand wichtiger frühmittelalterlicher englischer, irischer oder kontinentaler Handschriften trainiert werden, um ihre Daten für lateinische Abkürzungen um das 10- bis 15-fache zu erweitern. Mittels der gewonnenen Daten sollen „insulare“ und „irische“ Abkürzungen überprüft sowie regionale Unterschiede in der Abkürzungspraxis der Schreiber untersucht werden. Letzteres betrifft vor allem zweisprachige Handschriften, sodass englische und lateinische Schreibpraktiken einer gemeinsamen Betrachtung unterzogen werden können. In der anschließenden Diskussion wurde über die herangezogenen Quellen und die unterschiedlichen Schreibweisen einzelner Buchstaben und Wörter diskutiert. Weiters wurde dargelegt, dass die Projekte derzeit nur mit altenglischen Texten trainiert werden und daher nicht auf andere Sprachen anwendbar sind. Einigkeit bestand darüber, dass die vorgestellten Methoden und Projekte für die Forschung an mittelalterlichen Handschriften in altenglischer Sprache sowohl aus paläographischer als auch aus linguistischer Sicht bedeutsam sind. (Bericht: Pia Tüchler)

Wrap-up zum Vortrag von Patrick Fiska (03.06.2024): Zur Omnipräsenz der Briefkorrespondenz  – am Beispiel verschiedener Briefeditionsprojekte

Thema dieses Vortrags war die Briefedition sowie die Probleme, vor die dieselbe gestellt ist, und wie verschiedene praktische Aspekte davon erörtert werden können, um eine gemeinsame Diskussion der Quellengattung Brief zu ermöglichen. Denn trotz der im Titel erwähnten Omnipräsenz von Briefen und Briefkorrespondenzen als Quellen wurde in der älteren Quellenkunde nicht die quantitative Konsequenz daraus gezogen und Handbücher nehmen kaum Rücksicht darauf. Dabei begegnet man Korrespondenzen, die so viel mehr interessanten historischen Inhalt bieten als nur Kommunikation zweier Parteien, öfter als man meint, wie Patrick Patrick Fiska aus seiner eigenen Erfahrung mit Forschungsprojekten u.a. aus seiner Recherche-Agentur berichtete. Gunilla Budde postulierte einst zur Rolle der Briefe in der Kulturgeschichte, dass deren Rezeption und daraus resultierende Forschung schwankenden Konjunkturen unterliege – etwa gemäß dem Prinzip, dass, je eifriger eine Epoche selbst im Briefeschreiben tätig war, desto stärker war auch ihr Interesse an Briefen vor ihrer eigenen Zeit.

Die Praxis des Briefeschreibens bildet laut der Literatur eine anthropologische Konstante der Kommunikation und reicht bis in die Antike zurück. Erhaltene antike Brief-Sammlungen sind etwa die in England gefundenen Vindolanda-Tablets und Bloomberg-Wachstäfelchen, deren Zusammenhang durch die zufällig gemeinsame Überlieferung gebildet wird, und am anderen Ende des Spektrums an literarischer Finesse die Briefsammlungen des Redners Marcus Tullius Cicero. Die „Entdeckung“ der letzteren im spätmittelalterlichen Italien führte dort und letztlich darüber hinaus nicht nur zu einer intensiveren Beschäftigung mit Briefkorrespondenzen, sondern auch zur Anlage und Zirkulation von zeitgenössischen Briefsammlungen Gelehrter, wie etwa Francesco Petrarcas oder im österreichischen Raum Johannes Schlitpachers, die zuerst handschriftlich zusammengetragen und in der Frühen Neuzeit dann auch gedruckt wurden. Ab diesem Zeitpunkt nehmen Briefe und deren Sammlungen als Korrespondenzen stetig an Menge zu.

Die nach und nach aus Einzelbriefen entstehende Korrespondenz bildet wiederrum ein konstitutionelles Element bei der Entstehung von Briefen und legitimiert so die Edition, denn durch eine solche wird nicht nur der Einzelbrief in der „Gemeinschaft“ der anderen Briefe auf eine höhere Ebene gehoben, sondern auch eine Grundlage für kontextualisierende Bearbeitung dieser Quellen gegeben. Korrespondenzen oder Sammlungen können um eine gebildete Person kreisen oder aus personell wie geographisch weit hinausreichende Netzwerken hervorgehen oder eben, wie die erwähnten antiken Täfelchen, „zufällig“ zu einem Corpus werden. Briefsammlungen wurden, wie bereits gesagt, im Spätmittelalter zu einem größeren Thema und vor allem Gelehrtenbriefsammlungen stellten ab der Neuzeit ein wissenschaftliches Arbeitsinstrument dar, wie etwa die Bibliotheca Otto und Johann Burckhardt Menckes zeigt, die Korrespondenzen aus allen möglichen Zeitperioden miteinschließt. Ähnlich ist es bei Veröffentlichungen der Brüder Pez, die in ihrem Thesaurus Anecdotorum einen eigenen Band für Briefe und deren Sammlungen vorsahen.

Als Beispiel-Editionsprojekt für eine Gelehrtenbriefsammlung als Arbeitsmittel im 18. Jahrhunderts soll der Cluster rund um die Korrespondenz des Apostolo Zeno, eines italienischen Numismatikers, dienen. Dieser veräußerlichte seine Münzsammlung durch Vermittlung eines weiteren Numismatikers, des Jesuiten Erasmus Fröhlich, dem Stift St. Florian, die zur bedeutendsten Sammlung neben der kaiserlichen in den österreichischen Ländern wurde. Doch diese Sammlung musste weiter gehegt und gepflegt werden, weswegen das Stift weiterhin mit Fröhlich in brieflichem Kontakt stand und so seine Informationen bezog. Dieser Kontakt wurde an Fröhlichs Schüler, Josef Khell, „weitervererbt“, der ihn nicht nur aufrecht erhielt, sondern dieses numismatische Netzwerk auf weitere namhafte Numismatiker, auch aus dem Ausland, ausdehnte. Für Khells Schüler und „Erbe“ wiederrum, Joseph Hilarius Eckhel, bildete dieses ständig wissenschaftliche Informationen austauschende Netz eine unersetzliche Quelle, die gewiss zu seiner eigenen Karriere beitrug. Allerdings gibt es auch Probleme bei dieser Edition, wie Fiska darlegte. So überwarf sich Eckhel mit einigen seiner „ererbten“ Korrespondenzpartner, von denen nun verdächtigerweise Briefe scheinbar fehlen. Ein weiteres Problem sind die Beilagen der Briefe, die unter anderem etliche Münzzeichnungen enthalten, aber nicht gemeinsam mit den Briefen gebunden wurden. Sie sind nur zu Teilen mit den Brief-Codices als „Anhängsel“ überliefert, zu anderen Teilen aus ihrem Zusammenhang gelöst von seinerseits Eckhels Nachfolger, Franz Neumann, und somit verstreut.

Im breiten Feld des Briefs existieren zahllose Untergruppen, die je nach den involvierten Personen und Inhalt stark variieren können, sowie deren korrespondierende Definitionen, so zum Beispiel der bereits genannte Gelehrtenbrief, aber das Spektrum reicht hin bis zum (erlaubten) Liebesbrief. Generell sollten all diese Arten jedoch von amtlichem Behördenschriftgut, das zwar auch briefähnliche Form hat, jedoch in diesem Fall „Schreiben“ genannt wird, getrennt werden, obwohl es sein kann, dass sich Privates und Amtliches in einem Stück, beziehungsweise einer Korrespondenz, mischt.

Für den stets für Editionen nötige Schritt der Transkription sucht sich jedes Projekt eine eigene Vorgehensweise, doch mit der sich stetig verbessernden Bildwiedergabe der Quellen wendet sich die generelle Präferenz näher zur buchstabengetreuen Wiedergabe zu. Einige Editionsunternehmen nutzen die Seite Transkribus als Darstellungsmedium, mit einem unterschiedlichen Grad an digitaler Erfassung und Verschachtelung des Textes der Quellenabbildung mit dem Interface. Eine andere viel genützte Methode ist die Erfassung des Textes als XML-File mittels des Programms Oxygen, das den Vorteil hat, Grundlage für sowohl eine analoge als auch eine digitale Edition bilden zu können. Welche der zahlreichen technischen Möglichkeiten auch immer benutzt wird, es sollte stets darauf geachtet werden, praktischen gemeinsamen Standards und Plattformen entgegenzuarbeiten, damit die Arbeit eines Unternehmens ohne viel Aufwand auch von anderen für zukünftige Forschungen verwendet werden kann und somit nur einmal erledigt werden muss.

Was etwaige Regesten von Briefinhalten betrifft, gehen die Meinungen auseinander. Während die Germanistik etwa den Volltext vorziehe, sieht die Geschichtswissenschaft in den Regesten einen Service, der Benutzer*innen viel Zeit erspart, und somit gegeben sein sollte. Der Umfang eines Regests kann vom knappen Kopfregest bis zu detaillierten Inhaltsangaben reichen, die mitunter als Ersatz für das eigentliche Stück verwendet werden könnten. Wie ausführlich die Regesten einer Briefkorrespondenz-Edition sein sollten, hängt hingegen von den Spezifika des Corpus ab, so hätte es etwa wenig Sinn, ein ausführliches Regest einer Feldpostkarte zu erstellen.

Eine weitere Komponente von Briefeditionen, die je nach Sammlung und Editionsaufgabe sehr verschieden ausfällt, ist der Kommentar in Form von einem Text- und Sachapparat. Dieser kann sogar völlig fehlen, wenn Museen etwa nur ein Bild der Quelle hochstellen, wie das Deutsche Museum etwa für die Korrespondenz zwischen Josef Popper-Lynkeus und Ernst Mach. Das Technische Museum in Wien befindet sich am anderen Ende der Aufwands-Skala, wo nicht nur das Bild, sondern auch der Text gleich daneben dank der Arbeit der Firma Semantics so verknüpft sind, dass sich der Text vorlesen lässt, wie beim Negrelli-Nachlass zu sehen ist.

Damit sind auch schon einige Formen der Editions- und Publikationsformate im musealen Bereich angesprochen. Weiters gibt es über den musealen Kontext hinaus die rein digitale Edition, bei der nichts Physisches erscheint oder die Hybridedition, bei der eine digitale Anwendung mit einer analogen Buch-Erscheinung Hand in Hand gehen. Als vorbildliches Beispiel für ein digitales Editionsprojekt wurde die Seite Early Modern Letters Online, kurz EMLO, genannt, das dank der Größe des Projekts und der immer wieder dafür lukrierten Geldmittel mehrere technische Umbrüche meisterte und zusätzlich noch zahlreiche Briefeditionsunternehmen untereinander verbindet, aber auch nur einen fragmentarischen Überblick geben kann, da noch viel mehr Quellenmaterial existiert, als im Projekt bisher eingearbeitet werden konnte.

In der Diskussion wurde daran gemahnt, dass nicht zu vergessen sei, dass einerseits besonders im Mittelalter beträchtliche Lücken zwischen tatsächlich versandten Briefen und dem, was als Brief in einer Sammlung festgehalten wurde, klaffen, da die Inhalte teils eklatante Redaktionen, auch von den Urheber*innen selbst, erfuhren und dass andererseits der Brief auch als literarische Gattung aufgegriffen wurde und somit eher wertvoll ist als Quelle zu dem/der Verfassenden wie als Sachinformation. Patrick Fiska antwortete, dass die mittelalterliche Perspektive auf die Briefsammlungen zeigt, wie wichtig der Brief für die Menschen als Konzept war, etwaige Autographen, beziehungsweise „Originale“ jedoch tatsächlich nur schwer zu erahnen seien. Ebenso wies er darauf hin, dass in der Neuzeit streng unterschieden wurde zwischen der Gattung „Brief“ und tatsächlich versandten Schriftstücken.

Eine weitere Frage, die aufkam, war jene nach der Sinnhaftigkeit des Befolgens von Dogmen bei Editionen, denn ein solches Vorgehen könnte die Signifikanz einzelner Quellen größer darstellen als sie tatsächlich ist, als Beispiel wurde die Feldpostkarte genannt, deren karger Inhalt ein ausführliches Regest nicht rechtfertigen würde. Trotzdem wurde für wissenschaftliche Standards beim Edieren plädiert. Dr. Thomas Wallnig führte als Gegenbeispiel die Edition der Leibniz-Korrespondenz an, die neben der gesellschaftlichen Elite als Briefpartner von Leibniz auch Briefe an etwa seinen Friseur enthält – was und mit wie viel Aufwand ediert würde, hinge stark von der Zielgruppe ab. Es sei zu viel, starre Dogmen aufzustellen, doch zumindest ein Regelwerk wird benötigt.

Gefragt wurde auch nach dem Vorgehen zu der Edition der besprochenen Numismatiker-Briefe, worauf Fiska zur Antwort gab, dass noch keine endgültige Entscheidung hinsichtlich der Erscheinungsform getroffen wurde, wobei eigentlich eine hybride Edition angestrebt würde, was in der derzeit unsicheren und sich schnell verändernden Verlagslandschaft schwierig sei.

Zuletzt wurde noch die Frage nach den Vorteilen einer Hybridedition gegenüber einer rein digitalen gefragt, wo zusätzlich noch die Schwierigkeit erwähnt wurde, dass das Interesse an einer gedruckten Ausgabe, wenn es ohnehin schon eine digitale Version gebe, quasi gegen null gehe. Die Vorteile der hybriden Edition, so Patrick Fiska, liegen in der schnellen Vernetzung und anpassungsfähigen Dynamik der digitalen Komponente einerseits und der Referenzierbarkeit und langlebigeren Natur des analogen Drucks andererseits, da es bei digitalen Projekten durchaus vorkomme, dass sie mit der Zeit nicht mehr gewartet werden und somit nicht mehr funktionieren oder ganz verschwinden. Was das Problem des „unwirtschaftlichen“ Drucks betrifft, so müsse dieser von Anfang an mit budgetiert werden, um nicht am Ende ohne physisches Buch dazustehen. Kurz wurde noch in der Diskussion überlegt, ob man auf den Druck und sogar Verlage generell verzichten könne, doch daraus ergab sich keine konkrete Antwort. (Bericht: Rosa Magits)

Wrap-Up zum Vortrag von James Cowey (08.05.2024): Digital editions of texts written on papyrus and other materials

Die Arbeit von Papyrolog*innen hat sich lange Zeit kaum verändert. Doch mit dem Aufkommen digitaler Technologien hat sich die Landschaft grundlegend gewandelt. Plattformen wie Papyri.info bieten eine zentrale, zugängliche Datenbank, die den Arbeitsalltag von Wissenschaftler*innen erheblich erleichtert. Dr. James Cowey (Institut für Papyrologie/Universität Heidelberg) beleuchtete in seinem Vortrag, wie digitale Werkzeuge die klassische Editionsarbeit transformieren und welche neuen Möglichkeiten und Herausforderungen sie für die wissenschaftliche Gemeinschaft bereithalten.

Traditionell bestand die Arbeit von Papyrolog*innen darin, Papyri zu entziffern, Texte zu rekonstruieren, die Inhalte zu analysieren und zu kommentieren. Eine „klassische“ Edition umfasst jede Menge Details, wie zum Beispiel die Datierung, Maße und Inventarnummer des Papyrus sowie eine Darstellung des Inhalts, wobei sowohl der Text als auch die verwendete Sprache genauer beleuchtet werden. Im Apparatus werden Abweichungen zu den erwarteten Formen in der Koine des Altgriechischen und mögliche Sonderformen im Schriftbild angegeben. In der heutigen digitalen Welt hat sich diese Arbeit jedoch verändert. Dank Papyri.info, der zentralen Sammelstelle für Papyrolog*innen, gibt es eine leicht zugängliche Datenbank, die die Arbeit für Wissenschaftler*innen erheblich erleichtert. Der Erfolg der Datenbank liegt darin, dass zum Start der Plattform mehrere bereits existierende Datenbanken miteinander verbunden und über ein gemeinsames Interface zugreifbar gemacht wurden. Ziel war es nicht, eine neue Datenbank zu gründen, sondern auf vorhandene Datenbestände zuzugreifen und diese zu kombinieren. Während Daten zunächst in Datenbanken wie Filemaker-DB (z.B. in Heidelberg) oder SQL-Datenbanken gespeichert wurden, ist man mittlerweile auf XML-Datensätze umgestiegen, da diese die Meta-Daten und Texte strukturierter speichern und besser durchsuchbar machen.

Früher musste man mühsam Daten in Listen oder Zettelkatalogen sammeln oder sich in Bibliotheken durch Indizes von Büchern blättern. Heute kann die Online-Datenbank sehr einfach durchsucht werden, wobei sowohl der Text nach bestimmten Worten oder Wortteilen als auch die eingegebenen Meta-Daten durchsucht werden können.

Die Grundlage für Papyri.info wurde bereits in den späten 90ern mit Epidoc, ursprünglich speziell für den Bereich der Epigraphik gegründet, geschaffen. Mit Epidoc wollte man nicht nur die Texte, sondern auch die Meta-Daten durchsuchbar machen und setzte deswegen auf XML anstatt auf Datenbanken. Bei der Begründung von Papyri.info suchte man ein einfaches System für die Dateneingabe und Speicherung und stieß dabei auf Epidoc. Man entwickelte es für die eigenen Bedürfnisse weiter und erstellte mit Leiden+ eine eigene Markup-Syntax, die auf die Eigenheiten von Papyri angepasst wurde.

Trotz aller Vorteile, verschwieg Dr. Cowey nicht die Einschränkungen, die bei digitalen Editionen vorliegen. So können beispielsweise keine Klammern am Anfang oder Ende einer Zeile offenbleiben, wie man es in gedruckten Editionen gewohnt ist. Eine weitere Einschränkung ist die fehlende Möglichkeit, die grafische Darstellung von Papyri zu übernehmen, weshalb alle Texte auf Papyri.info linksbündig sind und somit hier Informationen verloren gehen, die man erst durch die Betrachtung von Fotos wieder erlangt.

Damit in der digitalen Version alles auffindbar ist, müssen die XML-Dateien jedoch möglichst genau bearbeitet werden. Dr. Cowey erklärte, dass Papyri.info nicht perfekt sei, und es Fehler und Ungenauigkeiten gäbe, da in der Vergangenheit nicht alles gleich konsequent markiert wurde oder man sich manches erst mit der Zeit bewusst wurde. Er betonte deswegen, dass es wichtig sei, dass die aktuellen Neueintragungen möglichst genau sind.

Insgesamt überwiegen die Vorteile digitaler Editionen. Die eingespielten Daten können nicht nur effizienter genutzt werden, sondern die strukturierten Daten der XML-Dateien lassen sich mit minimalen Anpassungen vielfältig verwenden. Dadurch ist es möglich, digitale Editionen sowohl auf Plattformen wie Papyri.info einzuspielen als auch für Artikel oder wissenschaftliche Journals zu nutzen.

Als Beispiel wurde im Vortrag von Dr. Cowey die Arbeit beim Journal „Pylon: Editions and Studies of Ancient Texts“ vorgestellt, welches an der Universität Heidelberg herausgegeben wird. Die Artikel werden wie in jedem Journal als Word- oder PDF-Dokument an das Editorial Board geschickt. Sobald der Artikel angenommen wird, werden die Autor*innen bei der Umwandlung der Texte in XML-Dateien eingebunden. Hierfür gibt es je nach Artikelart verschiedene Templates, und die Autor*innen müssen Details und Meta-Daten selbst markieren und die Editions-Texte in Leiden+ umschreiben. Das Team hinter dem Journal hilft jedoch auch Personen, die dies nicht selbst schaffen oder auf Probleme stoßen. Da die Texte für Pylon vollständig als XML vorliegen, ist es mit nur wenigen Handgriffen möglich, die Daten sowohl für das Journal als auch für Papyri.info zu nutzen. Durch diesen Arbeitsablauf will man doppelte Arbeitsschritte verhindern und sorgt dafür, dass die Texte schnell und einfach in Papyri.info übertragen werden können. Zudem werden die Artikel in Pylon durch die XML-Strukturierung interaktiver, und alle Daten sind miteinander verlinkt. Per einfachem Klick kann man beispielsweise direkt zur Fußnote springen und von dort zu externen Quellen weitergehen.

Digitale Editionen haben jedoch auch ihre Grenzen, da gewisse Zeichenbesonderheiten aktuell digital nicht auf Papyri.info aufgenommen und dargestellt werden können. Dr. Cowey stellte die Frage in den Raum, ob detailgetreue diplomatische Editionen digital überhaupt notwendig sind, da die Fotos der Papyri diese Besonderheiten ohnehin zeigen. Er betonte, dass diese Sonderschreibformen zwar interessant sein können, aber in einer Datenbank wie Papyri.info nur dann Sinn machen würden, wenn man sie auch maschinell durchsuchen könnte.

Dr. Cowey betonte, dass die Digitalisierung des Fachbereiches Papyrologie stetig fortschreitet und die Editionsarbeit sich verändert. Verschiedene Journals nähern sich trotz all ihrer Eigenheiten immer mehr aneinander an, was vorteilhaft ist. Zum Abschluss wurde dabei noch betont, wie wichtig faire Prinzipien sind und dass Daten für alle auffindbar, zugänglich, interoperabel und wiederverwendbar sein müssen. Gerade hierfür bietet sich das XML-Modell besonders gut an und was für Papyrolog*innen bereits funktioniert, kann auch für andere Wissenschaftsfelder wie die Epigraphik ebenso funktionieren. Welchen Vorteil diese Datenoffenheit hat, zeigte Cowey an den beiden Projekten Trismegistos und PapyGreek, die beide auf den Daten von Papyri.info basieren.

In der nachfolgenden Diskussion wurde vor allem das Thema Finanzierung und Ressourcen von Datenbanken aufgegriffen. Dr. Cowey betonte, dass er sich um Papyri.info keine großen Sorgen macht, da es genug Personen gibt, die sich mit der Plattform auskennen, und die Datenbank von der Universitätsbibliothek Heidelberg betrieben wird. Auch Pylon als Journal ist in der Universitätsbibliothek Heidelberg angesiedelt, und er ist zuversichtlich, dass jemand aus dem Editorial Board die Leitung übernehmen wird, wenn er in Pension geht. Da der heutige Wissenschaftsnachwuchs mit digitalen Medien aufwachse, mache er sich auch keine Sorgen, um andere Journals, da diese früher oder später von diesen Personen digitalisiert werden würden, wenn sie in die verantwortungsvollen Rollen kommen. Zum Abschluss betonte Dr. Cowey, dass Projekte wie Papyri.info als Chance gesehen werden sollten. In der heutigen Zeit ließen sich Projekte, wie das Sammelbuch leider nicht mehr so einfach finanzieren, und das eigentlich notwendige Personal ist nicht leistbar. Hier können Plattformen, wie insbesondere Papyri.info jedoch Lösungen bieten, da die Arbeitslast verteilt wird. James Cowey zog hier die Community der Papyrolog*innen in die Verantwortung. Es wäre am besten, wenn die Herausgeber*innen ihre Editionen selbst auf Papyri.info eintragen würden. Der Gastsprecher ermutigte alle Anwesenden, sich aktiv zu beteiligen und die Datenbank weiter zu füllen, da jeder Einzelne zum Erfolg von Papyri.info beitragen und die wertvollen Papyri-Quellen einem noch breiteren Publikum zugänglich machen kann (Bericht: Andreas Zommer).

Wrap-Up zum Vortrag von Chiara Cenati (29.11.2023): Vergangenheit, Gegenwart und Zukunft der Digitalen Epigraphik: von EpiDoc zu KI

Was ist Digitale Epigraphik und was können wir in Zukunft von ihr erhoffen? Welche besonderen Erfordernisse stellen Inschriften überhaupt an digitale Editionen? Und wird die Künstliche Intelligenz (KI) irgendwann in der Lage sein, epigraphische Fragmente verlässlich zu ergänzen? Inschriften variieren schließlich eklatant in Form und Inhalt – von der kurzen Weihinschrift zum langen carmen – und können auch nicht als reine Textquellen angesprochen werden. Chiara Cenati (Institut für Alte Geschichte und Altertumskunde, Papyrologie und Epigraphik) zeigte in ihrem Vortrag, wie neuere digital-epigraphische Projekte den gattungsspezifischen und materiellen Erscheinungsformen von Inschriften gerecht werden wollen.

Dies galt allerdings nicht von Anbeginn: In der Pionierzeit der Digitalen Epigraphik (1980er) lag der Fokus noch auf der Erstellung von Datenbanken, deren vornehmliches Ziel die Durchsuchbarmachung von Text(-Corpora) war. Einige der damals entwickelten Projekte werden heute noch fortgeführt, aktualisiert und bleiben in ihren Gebieten maßgeblich: Für die Lateinische Epigraphik existiert die nahezu vollständige Epigraphik-Datenbank Clauss/Slaby (EDCS), für die Griechische Epigraphik die (unvollständige) Datenbank Searchable Greek Inscriptions (PHI). Bereits in den 1990ern gab es zunehmend Bemühungen um eine stärkere Berücksichtigung materieller und historischer Aspekte, was sich etwa in der Epigraphischen Datenbank Heidelberg (EDH; für die römischen Provinzen) oder der Epigraphic Database Roma (EDR; für die Stadt Rom) niederschlug.

Ab den 2000ern wurden mit EpiDoc (TEI-XML) eine eigene Metasprache sowie Richtlinien entwickelt, die sich an den Bedürfnissen der Epigraphik ausrichteten und nach wie vor etwa halbjährlich ein Update erfahren. Für dieses Vorhaben musste das ursprünglich nur auf Texte und nicht auch auf Textträger ausgerichtete TEI-Format adaptiert werden. EpiDoc wurde vielfach aufgegriffen, von digitalen Ausgaben bestehender Editionen (etwa den Vindolanda Tablets Online, heute Teil der Roman Inscriptions of Britain), aber auch von gänzlich anderen Projekten, etwa papyri.info.

Obwohl dieses Tool weite Verbreitung finden konnte, bleibt festzuhalten, dass sich viele Projekte – mit ihren sehr diversen Bedürfnissen und Zielsetzungen – gegen EpiDoc entschieden. Einen ersten großen Schritt zu gemeinsamen Standards, insbesondere mit der Etablierung von weithin verwendeten Vokabularen, setzte das mittlerweile nicht mehr weiterfinanzierte Best Practice Network EAGLE. EAGLE sollte die existierenden Plattformen miteinander verbinden; unterschiedliche Aufbereitungen der Daten in den Einzelprojekten und unzureichende Koordination der Datenflüsse zwischen EAGLE und den Datenbanken führten allerdings zu unbefriedigenden Suchoptionen, was das Netzwerk für die breite Verwendung unattraktiv machte.

Mit epigraphy.info (seit 2018) wurde die Idee eines gemeinsamen Portals mit Zugriff auf alle Einzelprojekte wieder aufgegriffen; daneben zielt das auf den FAIR-Prinzipien basierende Vorhaben auf die Instandhaltung abgeschlossener Projekte und die Erarbeitung von Richtlinien. Wichtige Schwerpunkte der Unternehmung sind die Erstellung von Vokabularen (also von für alle antiken epigraphischen Kulturen nutzbaren Datensätzen), Ontologien (von z.T. auf CIDOC CRM aufbauenden Definitionen und formalen Strukturen von Daten durch Angabe der (hierarchischen) Beziehungen untereinander) sowie eines „Epifinders“: Dies ist ein Tool zur Suche, Analyse und Bearbeitung von Inschriften, das mit den einzelnen Projekten interoperabel ist. Die Gewährleistung des Datenflusses in beide Richtungen – bei EAGLE nicht möglich – ist ebenfalls ein wichtiges Anliegen.

Hierfür ist es aber notwendig, dass die Daten abgeglichen werden und im XML-Format vorliegen. Da eine Neukodierung aller Daten unmöglich ist, muss auf Converter und Editors zurückgegriffen werden. Zurzeit steht der im Rahmen des ERC-Projekts PATRIMONIVM entwickelte Converter Open Access zur Verfügung, der die Konvertierung von Eingaben im Leidener System ermöglicht. Der Editor des DFG-geförderten EDEp-Projekts (Editionstools für eine Digitale Epigraphik) befindet sich in der Testphase und wird nach Abschluss des Vorhabens (2024) freigegeben.

Chiara Cenati ist selbst Mitarbeiterin im ERC-Projekt MAPPOLA (Mapping Out the Poetic Landscapes of the Roman Empire; PI: Peter Kruschwitz). Im Zuge dessen werden in einer Datenbank (Open Access, momentan noch in der Testphase mit beschränktem Zugang) die etwa 4.000 Versinschriften des Römischen Reichs gesammelt und auch auf einer Karte dargestellt. MAPPOLA adaptiert das EAGLE-Vokabular durch die Einführung von neuen Ober- und Unterkategorien sowie von für Versinschriften wichtigen Vokabularen für das Inschriftenlayout. Ebenso wird eine Ontologie für die verschiedenen Textgattungen (Prosa- und Versinschriften, quantitative und akzentuierende Schemata und die verschiedenen Versmaße) entwickelt. Zwar wurde der PATRIMONIVM-Converter integriert, für die Inschriften stehen jedoch drei Formen der Visualisierung (diplomatisch/interpretativ/Visualisierung nach Versen) zur Verfügung, was im Moment ein Alleinstellungsmerkmal von MAPPOLA ist. Bislang wurde höchstens auf die Versform hingewiesen, ohne weitere Angaben zur Unterscheidung von Vers und Zeile – was in den Inschriften aber differieren kann.

Ein rezentes Arbeitsfeld der Digitalen Epigraphik ist Machine Learning (ML). Prominent ist etwa ITHACA: Das Ziel ist eine mit existierenden Datenbanken trainierte KI, die Lücken in griechischen Inschriften ergänzen kann; Probleme bei derartigen Projekten betreffen etwa die Tatsache, dass die verwendeten Datenbanken unvollständig und teilweise fehlerhaft sind (und somit viel Arbeit in die Datenbereinigung investiert werden muss), aber auch, dass insgesamt zu wenig Inschriften bekannt (und ediert) sind, um Daten für zuverlässige Ergebnisse bereitzustellen. Oftmals ist zudem nicht eindeutig, wie viele Buchstaben in einer fragmentierten Inschrift überhaupt fehlen. Nichtsdestotrotz ist ML zur Lückenergänzung ein wichtiges Forschungsvorhaben; neben ITHACA entstehen gerade weitere Initiativen.

In der akademischen Lehre fristet die Digitale Epigraphik immer noch ein Nischendasein; für Interessierte hat das Project ENCODE einen MOOC zur Digitalen Epigraphik und Papyrologie entwickelt, der demnächst online zugänglich sein wird.

In der Diskussion bestand Einigkeit, dass eine automatisierte Ergänzung (die in jedem Fall von Wissenschaftler*innen überprüft werden muss) epigraphische Arbeit lediglich unterstützen könne; auch die historische Interpretation der Inschriften obliege weiterhin den Expert*innen. Erneut wurde auch die nicht immer gewährleistete freie Zugänglichkeit und langfristige Finanzierung der Datenbanken betont. Möglichkeiten und Grenzen institutioneller Anbindungen der Digitalen Epigraphik – etwa im Zuge eigener Professuren – wurden diskutiert. (Bericht: Felix Michler)

Liste der Partner von epigraphy.info (inkl. Verlinkungen).

Wrap-Up zum Vortrag von Christopher Arnold, Michael Hackl und Emil Lusser (24. April 2023): Vom Manuskript zur Website. Chancen und Grenzen digitaler Editionsarbeit (Bericht von Kamil Bazelides)

In dem Vortrag im Rahmen des Forschungsschwerpunkts Text und Edition wurden gemeinsam zwei vom FWF finanzierte Projekte der Evangelisch-Theologischen Fakultät vorgestellt. Im Zentrum der beiden von Univ.-Prof. Dr. Christan Danz geleiteten Forschungsprojekte stehen auf der einen Seite die Werke von Friedrich Wilhelm Joseph Schelling im Projekt Hybridedition „Schellings Berliner Philosophie der Offenbarung“ (1841-45) (P 34383-G) und auf der anderen Seite die Korrespondenz von Paul Tillich im Projekt Edition of Paul Tillich’s Correspondence (1887-1933) (I 4857-G). Die ausgewählten Textkorpora von Briefen, Manuskripten, und Vorlesungsmitschriften werden als Hybrideditionen aufbereitet, wobei beide Projekte eine kombinierte digitale open-access und eine gedruckte Ausgabe planen. Als Hauptargumente galten die jeweiligen Vorteile von Print- und Digitaledition für die Nachhaltigkeit sowie die bestmögliche Benützbarkeit der edierten Texte. Weitere Gegenstände der Diskussion waren der gemeinsame Workflow beider Projekte, die gattungsspezifischen Nutzungsszenarien beider Editionen sowie die Themen undatierte Briefe, unbekannte Personen und Korrespondenznetzwerke.

Schellings Berliner Vorlesungen zu einer Philosophie der Offenbarung sind in verschiedenen Formen erhalten: in Manuskripten, Drucken, Nachschriften, Tagebüchern sowie Notizen. Das Ziel wäre ein Text aus letzter Hand, der philosophiegeschichtlich aufgearbeitet ist. Dies stellt aber wegen der variierenden Lesbarkeit der Texte, der Fülle und Heterogenität des Materials sowie des Fehlens einer editorischen Infrastruktur früh eine besondere Herausforderung dar. Weitere Schwierigkeiten traten bei der Transkription auf. Aufgrund von unterschiedlichen Überlieferungsträger ­– etwa Korrekturschriften oder Konzepte – ist die maschinelle Transkription mit Transkribus nur partiell anwendbar – lediglich bei sauber gestalteter Kurrentschrift. Weitere Hürden ergaben sich aus der problematischen Identifizierung von Händen (wegen gleicher Tinte, die verwendet wurde). Bei der Kodierung der digitalen Edition wurde nicht nur allgemein TEI XML verwendet, sondern konkreter das Basisformat des Deutschen Textarchivs. Das Ziel ist ein abschnittsweise gestalteter unmittelbarer Vergleich zwischen dem gedruckten Text der Vorlesungen und dem dazu verhältnismäßig längeren Manuskripten; eine zusätzliche Referenzierung von Textabschnitten durch Schlagworte / ein Sachregister wird erwogen. Die Web-Präsentation, die in Zusammenarbeit mit der Bayerischen Akademie der Wissenschaften erstellt wird, ist gegenwärtig noch in Arbeit.

Demgegenüber basiert die Edition von Tillichs Korrespondenz – hier der erste Teil (1220 Briefe) eines umfangreicheren Korpus (2800 Briefe) – auf einer Exist-DB und verfügt bereits über ein mit dem TEI-Publisher erzeugtes Graphic User Interface. Unter Verwendung der in der digitalen Edition gesammelten Daten wird für die zukünftige Präsentation auch eine visualisierte Chronologie in einer Timeline mit Filtern überlegt.

Für die Transkription wurde wiederum mit Transkribus gearbeitet, wobei ein eigenes Modell am Ende nur geringfügige Vorteile gegenüber einem bestehenden bot. (Diskutiert wurde der eigenständige Quellenwert gedruckter Schreibkalender und die diesbezüglich noch in Entwicklung befindliche Layouterkennung in Transkribus. Tabellen werden in der digitalen Edition nicht kodiert, sondern auf der Website mithilfe von CSS und HTML erstellt). Die TEI-Kodierung wird mit ODD umgesetzt, so gibt es Pop-Up-Fenster etwa zu erwähnten Personen. Erfasst wurden einzelne Elemente des Briefes, wie Datum, Grußformel, Unterschrift, aber auch <bibl>, oder <persName>; <placeName>.

In der anschließenden Diskussion herrschte u.a. dahingehend Konsens, dass digitale Editionen zwar zeitgemäßer, handlicher und übersichtlicher sind, Printeditionen aber als Lesetexte durchaus weiterhin ihre Berechtigung haben.

Wrap-up zur ARCHITRAVE-Projektpräsentation

Am 19. Jänner 2023 veranstaltete das Österreichische Staatsarchiv in Kooperation u.a. mit dem Forschungsschwerpunkt “Text und Edition” eine Präsentationsveranstaltung rund um das deutsch-französische Kooperationsprojekt Architrave, in dem Ausschnitte aus sechs ausgewählten frühneuzeitlichen Reiseberichten aufbereitet und übersetzt wurden. Aus editorischer Perspektive sind die folgenden Punkte bemerkenswert: (a) Die Daten sind im Repositorium TextGrid abgelegt und damit auch im Rahmen der NFDI-Initiative nachhaltig gesichert (Ansprechpartner ist die UB Göttingen). (b) Die zentrale Editionsansicht erlaubt eine synoptische Ansicht mit Faksimile; die mit leaflet generierten Karten sind separat referenzierbar und abgelegt. (c) Die Struktur der (frei zugängilchen und CC-BY-NC lizensierten) TEI-Files kann auch bei der Kodierung anderer vergleichbarer Quellen (Selbstzeungnisse) eine hilfreiche Orientierung darstellen. Beispielsweise werden Orte, die auf der Reise tangiert werden, als solche gekennzeichnet (<placeName type=”city” subtype=”passingBy”>); Tagebucheinträge fungieren als strukturierende Einheiten (<div type=”diaryEntry” when=”1698-10-23″>), zugleich wird mit Seiten- und Zeilenwechseln auch das Layout abgebildet. (d) Die Dokumentation (Richtlinien, Verantwortliche, aber auch Datenschutz) ist recht ausführlich. Die projektspezifische Umsetzung der TEI-Richtlinien würde sich durchaus auch für pädagogische Zwecke eignen.

Wrap-Up zum Vortrag von Edith Kapeller (10. Oktober 2022): Editorische use cases für mehrere Textversionen

Die Diskussion zum Projekt Der Österreichische Bibelübersetzer, konkret zu dessen Evangelienwerk, adressierte an erster Stelle die Frage, worin der Mehrwert der synoptischen Edition der Erst- bzw. Bearbeitungsfassung bestehen kann. Da sich der Gestaltungswille bei der Bearbeitung des Textes vor allem in der Umstellung der Kapitel zeigte, wird in der Edition eine Umordnung der synoptischen Sicht nach entsprechenden (aber anders nummerierten) Kapiteln ermöglicht. So erfordert zwar das gezielte Lesen der Bearbeitungsfassung ein bewusstes Durchklicken der dortigen Kapitelzählung. Das ist aber, so der Konsens, dadurch argumentierbar, dass (a) mit einer gedruckten Lesefassung ein lesbarer fortlaufender Text geboten wird; dass (b) in der Einleitung die Besonderheiten der Umarbeitung verdeutlicht und aufbereitet werden; und dass (c) für die künftige Oberflächenentwicklung auch ein interaktiver Einstieg in die Kapitelverschiebungen etwa über einen Konkordanzbalken denkbar wäre (vergleichbar dem Einstieg über Karten, Personennetzwerke oder eine Lagendarstellung: vgl. Edition Visualization Technology (unipi.it)). Betont wurde, auch mit Blick auf vergleichbare Problemlagen (Herberstein, Commenrarii: bibliotheca Augustana (fh-augsburg.de), Welscher Gast Digital: Welscher Gast digital (uni-heidelberg.de)) die Notwendigkeit, editorische Entscheidungen mit Blick auf das Benutzer*innen-Verhalten zu treffen, also synoptische “Überforderung” zu vermeiden und gleichzeitig den eigenen Blick auf die Besonderheiten des Textes als leitend für das Editionsdesign explizit zu machen.

Ebenfalls diskutiert wurde der Umgang des Projekts mit Sonderzeichen sowie der Umstand, dass Abbreviaturzeichen nicht mit eincodiert sind: Wiedergegeben wird der Buchstabenbestand sowie die Auflösung. (Unsichere Auflösungen können auch als solche getagt werden.) Lediglich ein knappes Dutzend (Unicode-)Sonderzeichen kommt zum Einsatz, bei den meisten Fällen unterschiedlicher Grapheme in der Quelle (beispielsweise “s” in verschiedenen Schreibeweisen) wird in der Edition dagegen normalisiert. Ein Grund für diese Vorgehensweise liegt im Fehlen eines verbindlichen Standards für die Verwendung komplexerer Zeichensätze. Diese editorische Entscheidung kann zwar für einen philologischen Zugang Informationsverlust bedeuten, erleichtert jedoch die Arbeit und bringt auch keine Einschränkung bei der Durchsuchbarkeit, zumal Varianten in der Suche mit berücksichtigt werden können.  Im Hinblick auf den Workflow bestehen gute Erfahrungen (a) mit Transkribus, unter ausführlicher Verwendung der Tagging-Funktion; (b) mit einer Ediarum-Adaption (Mediaevum: ediarum: Module), die basierend auf ediarum.base im Kooperation mit TELOTA entwickelt wurde und auf Nachnutzung angelegt ist. Wo vorhanden, werden für die Personen GND-Verweise angebracht.