Uncategorized

Report: SCOOP Workshop and Conference on HTR/ATR, Princeton (June 2025)

From 9 to 13 June 2025, Princeton University hosted a week-long discussion of the state of the art in Handwritten Text Recognition (HTR) and its broader context within Automated Text Recognition (ATR).

Following a series of HTR winter schools held in recent years at the Institute for Medieval Research at the Austrian Academy of Sciences, a three-day workshop at the beginning of the week provided Princeton humanities students with both foundational knowledge and hands-on experience. The instructors introduced the technical basis of machine learning, the specific challenges of the HTR/ATR use case, and the range of available tools—particularly Transkribus and eScriptorium, which played a central role in the practical sessions. Students conducted test runs using their own data, and considerable time was spent discussing experiences, model selection, and the critical evaluation of results. Key questions included: Was layout detection functioning properly? To what extent was the Character Error Rate (CER) influenced by punctuation or abbreviations? And, when training one’s own model—how scalable is it?

The workshop, held each afternoon, was followed by a two-day conference at the Institute for Advanced Study, which broadened the conversation. Around 50 participants (mainly from European and North American universities) presented their work and projects, helping to map out the diversity of approaches and spark lively debate during the final session.

One central issue concerns the future development of the large-scale models currently available in Transkribus and eScriptorium. One path forward is represented by PARTY, a multilingual and multiscript ATR model that encodes images and decodes them into text—page by page—using language models. Its strengths include a broad training base (660,000 historical document pages), while its drawbacks include the need for substantial datasets to fine-tune the model. The contrasting paradigm involves a variety of smaller models trained on relatively modest datasets, often aimed simply at producing a functional first transcription—frequently for “minority” languages or scripts such as Yiddish or Glagolitic. An overarching question persists: to what extent should large language models (LLMs) be integrated into this process, and if so, where, how, and with what kind of explanation (especially regarding terminology) for scholarly users?

The choice of approach depends significantly on the community behind a corpus or project, and the goals being pursued. These may include efforts to scale up the quantity of handwritten Persian texts in OpenITI via Automatic Collation for Diversifying Coprpra, or the engagement of local communities in Chocó, Colombia to help correct VLM-based auto-catalogued historical materials. Other initiatives might focus on tracking character frequency distribution in time and space, or on using CNNs for text recognition of Greek epigraphy.

Once ATR/HTR has been successfully applied to manuscript material, it opens the door to a range of analytical possibilities. One example is a project on “Scripts, Scribes and the Production of Literature in London 1377-1471,” in which computer vision methods are used for scribal hand identification—essentially a form of digital palaeography, particularly focused on Gothic Cursive. Automated scribe classification using visual transformer models has also been tested on Vat. Lat. 653, with accompanying accuracy visualizations designed to explain the algorithm’s decisions—although these often hinge more on background features than on actual character shapes. Such explanations remain ex post facto and do not necessarily reveal the model’s internal statistical reasoning.

At a more granular level, transformer models are used to compare individual letters in Greek papyri from the era between Alexander the Great and the Arab conquest. But the role of the individual character remains ambiguous in digital paleography—not least because medieval scribes often aimed to de-individualize their handwriting. Conversely, images of entire papyri pages (not individual characters) have shown potential for automated dating.

Other research cases discussed included: Latin and Celtic glossing traditions (analyzed using eScriptorium with SegmOnto for layout and a CATMuS model for transcription); orthographic change in medieval Czech texts between the 15^th and the 19^th centuries (using a Transkribus model based on a late medieval norm); and code-switching in Czech words embedded in Latin sermons, including the identification of trigger words for such switches.

Future directions may include automated AI-based text comparison or Named Entity Recognition; many dedicated software packages already exist for such purposes.

Some use cases present particular challenges that go far beyond typical HTR/ATR applications—for instance: X-ray tomography (Dragonfly) to read fragments inside book bindings, or the automated transcription of Byzantine neumes, where neumes are converted into word sequences and aligned semantically and visually. This raises the question of whether it might eventually be possible to work directly with the sonic dimension of historical music.

Other presentations focused on community-building, often centered around a particular language or script—such as Syriac, Sanskrit, Indic Scripts, or Arabic. In many cases, layout recognition, a crucial component of ATR, may be best addressed using lightweight vision models. These communities, like in the case of Old French, also highlight the need for shared standards—whether for eScriptorium server specifications, dataset citation standards of different types, or transcription guidelines like those developed by CATMuS. These resources help researchers make informed decisions when creating ground-truth data for training.

Yet another form of community is built within heritage institutions, which increasingly see manuscript collections as research data and aim to support workflows and pipelines accordingly. The Linguistic Data Consortium provides similar support through workflows for Multilingual Automatic Document Classification, Analysis and Translation, for the linguistic processing of low-resource / endangered languages, or ground-truth datasets (plus images). While using existing editions as ground truth has not yet been tested, it is clear that such tools are essential for academic teaching—otherwise, students will not be able to work effectively with manuscript sources.

Throughout the discussions, participants repeatedly emphasized the need for collaboration and exchange—whether through domain-specific communities, shared infrastructure, collaborative projects, or international fora.

A long-term goal will be to structure and organize the discussions and findings from this workshop into concrete agendas—at the levels of community, academic research, and technical infrastructure. These agendas must remain realistic, adapted to what can be achieved through cooperation, and also identify areas where individual solutions (shaped by local infrastructures) will likely continue to dominate.

This will require distinguishing between academic fields in which collaboration can build on shared models, datasets, and results, and services that depend more on user engagement than on research per se.

Topical clusters emerging from the workshop thus include: (a) Corpus building / standards / ground-truth provision; (b) Models – universality, AI integration, chunking, quality control; (c) Outreach, teaching, community-building, and business models; (d) Interfaces, workflows, publication pipelines, and scholarly use cases.

A follow-up meeting is planned for late summer 2026 in Vienna, with the aim of further developing such agendas, potentially in the framework of a COST Action or similar collaborative initiative. The event will be announced and featured on this website. (Report by Thomas Wallnig, Vienna)

July 21, 2025 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Workshop „Digitales und hybrides Edieren an der Universität Wien“ am 09.05.2025

Am 9. Mai lud der FSP Text & Edition – Editorik zu einem Workshop bezüglich des Stands von digitalen und hybriden Editionen an der Universität Wien. Im Rahmen des Workshops wurden mehrere laufende Projekte vorgestellt, um in der anschließenden Diskussionsrunde gemeinsam mit universitätsexternen Stakeholdern Lösungsansätze für bestehende Probleme zu finden. Vorgestellt wurden die digitale Edition der Korrespondenz der Brüder Pez, die (hybriden) Quelleneditionen des Instituts für Österreichische Geschichtsforschung, die Edition der Kanzleiregisters Papst Honorius III. und die synoptische Darstellung von Editionen anhand eines mittelhochdeutschen Mariengedichts.

Am Institut für Österreichische Geschichtsforschung beschäftigt sich seit Jahren eine Forschungsgruppe unter der Leitung von Thomas Wallnig mit der Edition der Korrespondenz der Benediktiner-Gelehrten Bernhard und Hieronymus Pez. Die Korrespondenz umfasst mehr als 1000 Stücke, von denen mittlerweile rund die Hälfte ediert und zwei Bände publiziert wurde. Mittlerweile hat die Forschungsgruppe auch beschlossen, dass in Zukunft alle Edition hybrid erscheinen und alle bereits bestehenden Editionen als digitale Version zur Verfügung gestellt werden sollen. Im Zuge dessen wurde gemeinsam mit dem Austrian Centre for Digital Humanities and Cultural Heritage an der ÖAW ein vom FWF finanziertes Projekt ausgearbeitet. Ziel dieses Projektes ist es, über die hybride Edition der Korrespondenz der Brüder Pez die technischen Grundlagen für andere derartige Projekte in Zukunft zu schaffen. Die digitale Edition erschient nun in der „Brill Scholarly Editions Platform“, da Brill den ursprünglichen Herausgeber der analogen Edition, Böhlau, übernommen hat. Von technischer Seite erlaubt das Interface neben Metadaten-Feldern das Öffnen von zwei Fenster, sodass Text bzw. Regest bzw. Kommentar nebeneinandergestellt werden können.

Die Quelleneditionen des Instituts für Österreichische Geschichtsforschung wurden vor rund zwanzig Jahren mit dem Ziel gegründet, verschiedenste Quellentypen, die in großen Reihen keinen Platz finden, einen editorischen Platz zu bieten. Aufgrund des Weges der Edition der Pez-Korrespondenz planen auch die QIÖG – vertreten durch die Redaktionsmitglieder Claudia Feller, Josef Löffler, Julian Ecker und Herwig Weigl – in Zukunft nach Möglichkeit hybrid zu edieren. Wie bei der Pez-Korrespondenz ist der derzeitige Host der digitalen Edition eines Folgebandes (s.u.) die „Brill Scholarly Editions Platform“. Eines der noch ungelösten Probleme betrifft das Verhältnis von normalisiertem Lemma und nicht-normalisierten Quellenbegriff; hier muss für potentielle künftige Editionen eine Lösung gefunden werden. Darüber hinaus ist für die QIÖG wichtig, dass die Eingabe möglichst niederschwellig und leicht anwendbar ist, da man eine große Zahl von Editor*innen aufgrund mangelnder technischer Erfahrung erst überzeugen muss, (auch) digital zu edieren. Daher sollten die festgelegten Templates zur Dateneingabe möglichst generelle Gültigkeit haben. Abschließend erfolgte zur Illustration eine kurze Vorstellung der technischen Aspekte des zweiten dQIÖG-Bandes nach der Pez-Korrespondenz, der Bischöflichen Visitationsprotokolle von Pfarren im Wiener Umland 1582 von Nicole Kröll.

In der Konzeptionsphase befindet sich hingegen die Edition der Kanzleiregister des Papstes Honorius III. unter der Leitung von Daniel Luger. In den letzten Monaten wurden sowohl für die analoge als auch die digitale Edition Arbeitspapiere von Johannes Laroche verfasst. Die Grundlage der Edition bilden die Kanzleiregister im „Archivio Apostolico Vaticano“, welche ca. 5000 Urkunden beinhalten. Das Projekt steht in der Tradition der Edition der Register Innocenz’ III., die am Institut für Österreichische Geschichtsforschung in Kooperation mit dem Österreichischen Historischen Institut Rom entstanden ist. Ein Vorteil des gegenwärtigen Projektes besteht darin, dass man bei Papst Honorius mit den Originalregistern arbeiten kann und daher weniger mit alten Drucken kollationieren muss. Diese freien Kapazitäten kann man für ausführlichere Regesten oder eine stärkere Darstellung der Überlieferung bei den Empfängern verwenden.

Die analoge Edition soll den klassischen Standards der Editionstechnik folgen. Die digitale Edition wird in XML und CEI umgesetzt werden. Sie soll über eine umfangreiche Filterfunktionen nach Empfänger, Formular und Inhalten verfügen. Daneben sollen nach Möglichkeit eine Reihe weiterer Informationen und Funktionen zur Verfügung gestellt werden, so etwa die Empfängerüberlieferung, weiterführende Literatur und eine Exportfunktion. Einige Unsicherheiten bestehen noch hinsichtlich der Verlinkung mit Analysetools, der Verfügbarkeit von Faksimiles (aufgrund der Gepflogenheiten des AAV), sowie der Möglichkeiten, die Kopfregesten automatisiert in andere Sprachen zu übersetzen. Mit solchen ließe sich die internationale Forschung besser erreichen. Eine weitere Frage stellt sich nach möglichen Kooperationen mit Papstdiplomatik-Projekten in anderen Ländern, wie etwa dem Censimento, APOSCRIPTA, Regesta Pontificum Romanorum Online, oder Monumenta Vaticana res gestas Polonicas illustrantia.

Abschließend folgte der Werkstattbericht von Gabriel Viehhauser zur Edition von „Driu liet von der maget“. Es handelt sich dabei um ein Mariengedicht, das 1171 vermutlich in Augsburg entstanden ist und aus drei Büchern mit insgesamt 5 900 Versen besteht. Von dem Text sind zwei Versionen vollständig und fünf fragmentarisch überliefert. Angesichts der Überlieferungslage kann man nicht von einer Leithandschrift ausgehen. Von Anfang an bestanden mehrere Fassungen nebeneinander, die zum Teil vollständig unabhängige Ergänzungen und Bearbeitungen erfuhren.

Diese Edition soll auch genutzt werden, um ein digitales Template für Germanist*innen, die wenig Know-how im Umgang mit digitalen Editionen haben, zur Verfügung zu stellen. Eine der Hauptfunktionen des Tools soll die synoptische Darstellung mehrere Texte und die Hervorhebung von Varianz und Konkordanz sein. Der technische Rahmen, der von Friedrich Haak erarbeitet wird, soll möglichst simpel und generisch sein und an existierende static site generator anknüpfen. Die Umsetzbarkeit davon ist noch fraglich; was bereits besteht ist ein (teil-)automatisierbarer Workflow (mittels XSLT, verfügbar auf Github): einem Textzeugen entspricht ein HTML-Snippet, das dann (via Javascript) ins Frontend geladen und (via CSS) ausgespielt wird. Dem Snippet entspricht ein JSON-File mit Metadaten und Pfaden. Das Projekt befindet sich noch in Entwicklung, zumal einige der geplanten Funktionen erst eingebaut werden müssen. Wenn diese Arbeiten abgeschlossen sind, müsste das Template an einer größeren Menge an Daten, durch Testintegration einer bestehenden Edition oder Zurverfügungstellung an Forschende, getestet werden.

An der Diskussion, die an die Präsentationen anschloss, beteiligten sich neben den bisher Genannten besonders Max Kaiser (UB Wien) und Peter Andorfer (ACDH-CH). Wie bereits zuvor in den Vorträgen wurde mehrmals die Problematik angesprochen, dass viele Forschende nicht genügend technisches Know-how für eine alleinige Umsetzung von digitalen oder hybriden Editionen besitzen. Daher bestand Einigkeit im Wunsch nach strukturierten – idealerweise automatisierten – Work-Flows und einer allgemeingültigen, statischen Lösung mit langfristiger Verfügbarkeit. Dafür sollte es Verantwortlichen mit technischem Background geben, die mit den verschiedenen laufenden Projekten in Verbindung stehen.

Zugleich wurde eingemahnt, dass von geisteswissenschaftlicher Seite ein Paradigmenwechsel nötig ist. Es sei nicht mehr möglich, Editionen bloß analog zu denken und von der informatischen Seite eine digitale Umsetzung zu erwarten. Vielmehr sollten Editionen grundlegend digital – gegebenenfalls hybrid – gedacht werden oder Ausnahmen davon begründet werden, wie es die DFG bereits in ihren Förderrichtlinien praktiziert.

Freilich entsteht dadurch das Problem, dass von Förderstellen häufig eine digitale Edition eingefordert wird, was wiederum Verlage ungern sehen, da ihrer Meinung nach die Verfügbarkeit einer digitalen Edition für geringere Verkaufszahlen der Print-Version sorgt. Diese vermutete Differenz lassen sich die Verlage oft in Form einer Einmalzahlung von Editionsprojekten vergüten, sodass diesen Mehrkosten entstehen. Hier reiht sich die Editions-Problematik in den größeren Kontext des Open-Access-Publishing ein.

Bezüglich der angesprochenen Problematik der Bildrechte der Papstregister wurde schließlich zu Protokoll gegeben, dass vom ACDH-CH gerade eine diesbezügliche Handreichung ausgearbeitet wird. Den Forschenden werden darin die notwendigen Schritte, um Bildrechte von Archiven und Bibliotheken für Publikationen zu erhalten, erläutert. (Bericht: Stefan Haindl)

June 13, 2025 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Vortrag von Roman Gundacker (05. 03. 2025): Von Quellen zu Texten, von Texten zu Geschichte – philologische und sprachwissenschaftliche Herausforderungen in der Ägyptologie

Wie können schriftliche Quellen aufgenommen, bearbeitet und interpretiert werden, um daraus historische Erkenntnisse zu gewinnen? Vor dieser Herausforderung stehen alle altertumswissenschaftlichen Disziplinen. Jeder einzelne Schritt bringt methodische Schwierigkeiten mit sich. Gerade kleine Fächer müssen oft Methoden importieren, um überhaupt an neuen Entwicklungen teilzuhaben. Die übernommenen Methoden sind jedoch teilweise nicht ideal für das spezielle Quellenmaterial des Fachs geeignet. Dr. Roman Gundacker (ÖAI, ÖAW) zeigte in seinem Vortrag, dass gerade die Ägyptologie mit ihren vielfältigen Schriftsystemen und Textträgern als Musterbeispiel für die beschriebenen Forschungsumstände dienen kann. Ein Teil der besprochenen Forschungsergebnisse ist im Rahmen des ERC Starting Grants „Challenging Time(s): A New Approach to Written Sources for Ancient Egyptian Chronology” entstanden.

Die Ägyptologie stellt schon in Bezug auf den Aufbau des Fachs einen Spezialfall dar: Während sich Archäologie, Klassische Philologie und Alte Geschichte bereits im 19. Jahrhundert zu eigenen Disziplinen entwickelt haben, sind in der Ägyptologie bis heute alle drei Bereiche in einem Fach vereint. Hinzu kommt die große Schriftenvielfalt, mit der sich Ägyptolog:innen auseinandersetzen: Sie untersuchen Texte in Hieroglyphen, hieratischer, demotischer und koptischer Schrift. Die Textträger sind ebenso vielfältig wie die Schriften selbst. Sie reichen von monumentalen Inschriften (z. B. in Abu Simbel) über Ostraka bis hin zu Papyri und Graffiti. Wie nimmt man die verschiedenen Textzeugen am besten auf? Die Methoden haben sich historisch stark gewandelt. Früh wurden bereits Zeichnungen bzw. Stiche angefertigt (z. B. vom Hypostylsaal von Karnak). Viele dieser Zeichnungen sind so präzise, dass sogar die darauf gezeigten Inschriften akkurat abgebildet sind. Eine weitere Methode, die bald zur Quellensicherung genutzt wurde, war der Abklatsch – sogar ganze ptolemäische Tempel (z. B. in Philae) wurden abgeklatscht. Zudem wurden die Methoden der Faksimile-Zeichnung und der Autographie angewendet. Diese Verfahren haben jedoch auch Nachteile: So geben autographische Aufnahmen in Büchern oft nicht viel über das Aussehen des Originals preis. Heute sind Fotografien, die mit einer zusätzlichen 1:1-Umzeichnung kombiniert werden, sowie moderne Methoden der digitalen Epigraphik wie 3D-Scans üblich. Eine Herausforderung stellen dabei technische und rechtliche Einschränkungen wie z. B. Drohnenverbote oder Exportverbote für C14-Proben dar.

Nachdem die Quellen aufgenommen wurden, müssen sie bearbeitet und in Texteditionen formal aufbereitet werden. Die klassische Philologie hat mit der Lachmann-Maas-Methode ein etabliertes Verfahren zur Textkritik entwickelt, das in acht Schritten von der Sammlung der Textzeugen (collectio) bis zur Edition (editio textus) reicht. Die verschiedenen Lesarten der erhaltenen Textzeugen werden systematisch geprüft und miteinander verglichen. Die Ergebnisse der Bearbeitung werden in der Edition abgebildet. Diese kann unterschiedlich aussehen. Ein typisches Format ist die kritische Edition (editio critica) eines Texts. Dabei wird versucht, den ursprünglichen Text anhand der erhaltenen Textzeugen möglichst detailgetreu zu rekonstruieren. Der so hergestellte Text wird in der Regel von einem ausführlichen kritischen Apparat begleitet, wie Gundacker am Beispiel der kritischen Edition von Homers Ilias zeigte. In einem Stemma wird dargestellt, wie die Textzeugen voneinander abhängen. Daneben existiert z. B. die synoptische Edition (editio synoptica). Hier werden die verschiedenen Textversionen nebeneinander abgebildet. Diese Methode wandte etwa Kurt Sethe bei der Edition der Altägyptischen Pyramidentexte an. In den Texten, mit denen sich die Ägyptologie auseinandersetzt, fehlt – anders als im Lateinischen oder Griechischen – oft eine standardisierte Orthographie. Das erschwert die Rekonstruktion des Urtexts zusätzlich. Die Ägyptologie übernahm zunächst die Methoden der Klassischen Philologie, entwickelte diese jedoch weiter. So kombinierte etwa Jürgen Zeidler in seinen Pfortenbuchstudien bei den Texteditionen Abbildung, Umschrift und Übersetzung gemeinsam mit einem kritischen Apparat am Seitenende. Dabei wurden auch verschiedene Schreibvarianten (z. B. Pluralpunkte statt Pluralstriche) aufgezeigt. Einen Urtext rekonstruierte Zeidler im Rahmen seiner textkritischen Methode jedoch nicht.

Eine Gegenbewegung zur Lachmann-Maas-Methode stellt die New Philology dar, die aus der Mediävistik hervorgegangen ist. Maßgeblich war dafür Bernard Cerquiglinis 1989 publiziertes Werk „Éloge de la variante“. Die New Philology fordert, dass der materielle Kontext von Textträgern berücksichtigt werden muss. Das Konzept einer personalisierten Autorenschaft und die Idee eines festen Urtexts werden zugunsten eines „unsteten Texts“ aufgegeben. Das bedeutet, dass die unterschiedlichen Textzeugen als Teil einer variantenreichen Überlieferung akzeptiert werden.

Gundacker zeigte im Vortrag, welchen Mehrwert die New Philology in der Ägyptologie bieten kann. So wurde bei der in hieratischen Texten überlieferten Lehre des Ptahhotep lange davon ausgegangen, dass eine echte historische Person namens Ptahhotep diese Texte verfasst hat. Inzwischen wurde festgestellt, dass dies nicht möglich ist und es sich stattdessen um eine fiktive Lehrautorität handelt. Ein besonders interessantes Beispiel für einen unsteten Text sind die „Lehren des Ani“, die in verschiedenen Versionen überliefert sind. Diese Texte können nicht nach der Lachmann-Maas-Methode rekonstruiert werden, da sie keine einheitliche Ursprungsversion haben. Die Methode ist auch gar nicht darauf ausgelegt, auf jede Art von Textzeugen angewendet zu werden. Ob man der Schule nach Lachmann-Maas oder der New Philology folgen soll, hängt von den Quellen und dem Ziel der Textarbeit ab. Gundacker plädiert dafür, die beiden Zugänge als zwei Seiten der selben Medaille zu betrachten: Am besten werden die Ansätze kombiniert.

Wie Texte durch die Methoden der New Philology mit Gewinn erschlossen und interpretiert werden können, demonstrierte Gundacker am Beispiel der Scheintür des Schepsesptah. Der in acht Kolumnen geteilte Text schildert das Leben des Schepsesptah von seiner Kindheit und Jugend über die Erwachsenenzeit bis ins Alter. In jeder der acht Kolumnen wird ein Pharao erwähnt, unter dem Schepsesptah gelebt hat. Indem entsprechend der New Philology die Anordnung des Texts am Monument selbst berücksichtigt wird, ergeben sich beeindruckende Schlussfolgerungen. Die Scheintür erweist sich nämlich als bewusste Komposition: Die hieroglyphischen Namen der Pharaonen steigen in der Lesefolge mit dem Alter des Schepsesptah an und sinken im hohen Alter wieder ab. Dies zeigt, dass nicht nur der Inhalt, sondern auch die visuelle Gestaltung des Texts von Bedeutung ist.

Gundacker erklärte auch, wie die Methode nach Lachmann-Maas und die New Philology mit Erfolg kombiniert werden können. Ausgangspunkt war die in der Forschung lange umstrittene Frage, ob der Name eines Pharaos Niuserre oder Nirewoser lautete. Durch den Vergleich verschiedener Textzeugen und sprachwissenschaftliche Analyse wurde demonstriert, dass „Nirewoser“ die korrekte Lesung ist. Die Pyramidentexte bieten ein weiteres Beispiel für die praktische Anwendung von Textkritik: Spruch 473, der „Schilfbündelspruch“, weist in den erhaltenen Versionen erhebliche Abweichungen auf. Mit den Methoden der Konjektur und der Revokalisation (Wiedereinsetzung der nicht geschriebenen Vokale) werden die Übereinstimmungen des Texts zu Formeln aus Sargtexten klar. Die unklaren Stellen können damit aufgelöst werden.

Die im Vortrag vorgestellten Beispiele illustrieren die Umstände der ägyptologischen Forschung. Das Zeitalter der Texteditionen ist in der Ägyptologie noch lange nicht vorbei. Viele Texte müssen noch aufgearbeitet werden, ein Ende ist laut Gundacker derzeit nicht in Sicht. Ganze Disziplinen wie die Morphologie oder die historische Sprachwissenschaft stehen in der Ägyptologie erst am Beginn ihrer Entwicklung. Zudem ist das Fach von einer zunehmenden Auslagerung von Spezialgebieten (z. B. die Untersuchung der griechischen und koptischen Texte) geprägt. In der Diskussion wurden die Möglichkeiten und Grenzen der vorgestellten Methoden besprochen. Festgehalten wurde, dass der große Bedarf an noch zu erstellenden Texteditionen auch positiv gewertet werden kann. Wie ein Urtext bestmöglich ermittelt wird, ist Gegenstand anhaltender Debatten in der Ägyptologie. Am besten eignen sich dafür religiöse Texte, die sich wegen ihrer vergleichsweise sicheren Überlieferung auch für die Identifizierung lokaler Varianten eignen. Gundacker betonte jedoch, dass die Suche nach regionalen Dialekten in der Ägyptologie deutlich schwieriger sei als etwa bei griechischen Texten. An wen die in mehreren Metern Höhe angebrachten Texte auf Monumenten wie der Scheintür des Schepsesptah eigentlich gerichtet waren, steht weiter zur Debatte. (Bericht: Micha Teufel)

March 21, 2025 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Vortrag von Mark Faulkner (24.10.2024): Towards Medieval Big Data: Corpora, Metadata and Methodologies for Early English

Der am Trinity College Dublin lehrende Dr. Mark Faulkner stellte im Rahmen dieses Vortrags einige Methoden und Projekte vor, die für die Forschung an mittelalterlichen Handschriften in altenglischer Sprache von Relevanz sind.

Faulkner eröffnete seinen Vortrag mit der Erläuterung darüber, dass ein Großteil der Tradition der Philologie auf den Forschungsergebnissen des 19. Jahrhunderts basiert. Daran anschließend ging es im Zusammenhang mit der Feature Extraction um die Erfassung verschiedener Schreibweisen einzelner Buchstaben, ausgehend von einer Handschrift aus dem 12. Jahrhundert. Faulkner sah sich dabei auf Basis der Methoden von Forschern des 19. Jahrhunderts zunächst an, wie oft in dieser Handschrift der Buchstabe b anstelle des Buchstaben v geschrieben wurde, welche unterschiedlichen Schreibweisen des Buchstaben b ersichtlich waren und wie oft diese vorkamen. Daraus versuchte er den Schluss zu ziehen, ob die unterschiedlichen Schreibweisen im weiteren Verlauf dieses Textes vorhersehbar oder gar kalkulierbar waren. Anschließend erfolgte mithilfe der Datenbank MANCASS C11 Database, des York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE) sowie des Werkes A Linguistic Atlas of Early Middle English 1150-1325 (LAEME) eine Untersuchung von Lemmata, also von Stammformen bestimmter Wörter, samt Analyse der Häufigkeit des Vorkommens bestimmter Formen. In einem letzten Schritt erfolgte eine Quasi-Lemmatisierung bestimmter im Dictionary of Old English (DOE) vorfindlichen Wörter, die im Dictionary of Old English Corpus (DOEC) unter dem Gesichtspunkt der Homographie dieser Wörter abgeglichen wurden, was eine Vielzahl von unterschiedlichen Schreibweisen ergab.

Als nächstes wurden im Vortrag verschiedene Methoden im Bereich des Linguistic Profiling vorgestellt. Dabei wurden nicht nur individuelle Größen, sondern auch ganze semantische Felder im Hinblick auf die Häufigkeit verschiedener Schreibweisen von Wörtern untersucht. Diese unterschiedlichen Schreibweisen wurden dann mittels Cluster-Analyse untersucht.

Zum Thema Metadaten präsentierte Faulkner das Projekt Searobend. Linked Metadata For English-Language Texts, das vom COALESCE-Programm des Irish Research Council gefördert wird. Das Hauptziel dieses Projekts besteht in der digitalen Verknüpfung von fünfzehn Quellen, die für das Studium englischer Texte aus der Zeit zwischen 1000 und 1300 von Bedeutung sind. Dadurch sollen grundlegende Informationen zu jedem Werk zur Verfügung gestellt und eine Steigerung des Nutzens dieser Ressourcen für die Wissenschaft erzielt werden. Dies soll zu einer Erleichterung der intensiveren Nutzung dieser Handschriften führen. In diesem Zusammenhang erläuterte Faulkner drei wichtige Komponenten, die für dieses Projekt von Relevanz sind: den Knowledge Graph (KG), die Ontologie (Ontology) sowie das CIDOC-Conceptual Reference Model (CRM).

Unter einem Knowledge Graph versteht man eine strukturierte Darstellung von Informationen, die miteinander verbunden sind. Dadurch werden Entitäten sowie Beziehungen zwischen diesen Entitäten dargestellt. Durch KGs werden Daten so organisiert, dass es leichter ist, sie miteinander zu verbinden und abzurufen, was dabei hilft, aussagekräftige Erkenntnisse zu gewinnen und Verbindungen innerhalb eines bestimmten Bereichs oder über unterschiedliche Datensätze hinweg abzufragen.

Eng mit KGs verbunden sind die sogenannten Ontologien. Dabei handelt es sich um formale und explizite Darstellungen von Wissen in bestimmten Bereichen. Sie spielen eine entscheidende Rolle bei der Strukturierung von Informationen in einem KG, da sie eine standardisierte Methode zur Modellierung und Organisation von Daten bieten und das Verständnis und die Abfrage dieser Daten erleichtern. Ontologien werden oftmals auch als gemeinsames Vokabular zur Beschreibung von Daten bezeichnet.

Als Beispiel für eine solche Ontologie wird das CIDOC-Conceptual Reference Model erläutert. Dabei handelt es sich um eine erweiterbare Ontologie für Informationen im Bereich des kulturellen Erbes. Die Searobend-Ontologie erweitert diese CIDOC-CRM-Ontologie und bietet ein Vokabular, das für die Beschreibung von Metadaten mittelalterlicher Handschriften verwendet werden kann. Zusammengefasst soll Searobend gleichsam als Standarddatenbank für Metadaten fungieren, die für Forschungsprojekte zur altenglischen Sprache von Nutzen sein können.

Im letzten Teil seiner Präsentation ging Faulkner auf die Handwritten Text Recognition (HTR) ein und erläuterte ihre Methodik. Demnach soll der Computer in der Lage sein, handgeschriebene Texte von Quellen zu erfassen und zu interpretieren. Als erstes werden Trainingsdaten in das System eingespeist, sodass es „lernt“, wie eine Schrift zu lesen ist. Ein Teil dieser Daten wird allerdings zurückgehalten, um die Genauigkeit der maschinellen Leistung beurteilen zu können. Ziel ist eine Character Error Rate (CER) von ca. 2%, wonach der Computer bei etwa einem von fünfzig Wörtern falsch liegen würde. Ein Vorteil der HTR liegt einerseits in der Schnelligkeit im Gegensatz zur manuellen Eingabe, andererseits ist der Computer potentiell in der Lage, unterschiedliche Formen von Buchstaben eher zu „erkennen“ als ein Mensch.

In weiterer Folge stellte der Referent das Ansund-Projekt vor. Das Hauptziel dieses Projekts besteht darin, ein neues, umfassendes, frei zugängliches Corpus der altenglischen Sprache mittels HTR zu erstellen. Zudem sollen neue Transkriptionskonventionen entwickelt werden, die sinnvolle orthographische und graphematische Variationen erfassen. Das Projekt zielt außerdem darauf ab, Forschungsteams aufzubauen, die in der Lage sind, Trainingsdaten für das HTR-Modell zu transkribieren und die Ergebnisse für die Veröffentlichung und Wiederverwendung als weitere Trainingsdaten zu korrigieren. Es soll getestet werden, ob eine Korrektur gewisser HTR-Outputs erforderlich ist, um für altenglische Studien nutzbar zu sein. Letztlich sollen ähnliche Modelle für andere Sprachtraditionen (wie etwa Anglolatein) bereitgestellt werden.

Durch dieses Projekt soll ermöglicht werden, durch das eingeflossene Quellenmaterial die Entwicklung der Darstellung einzelner Buchstaben über Jahrhunderte zu verfolgen und nachzuvollziehen.

Die nächsten Schritte des Ansund-Projekts bestehen in einer ausführlichen Bewertung der Ergebnisse dieses Modells und in einem erneuten Trainieren des Modells mit 700 Seiten Trainingsdaten samt Veröffentlichung. Zudem gibt es noch einige offene Fragen, etwa im Hinblick auf die Worttrennung. Letztlich ist eine reflexive Bewertung des herangezogenen Zeichensatzes erforderlich. Dabei wird auf Fehler, die der Computer gemacht hat, bzw. Fälle, in denen er unsicher ist, aufmerksam gemacht.

Zuletzt stellte Faulkner das Projekt Wandering Books vor, das auf die Möglichkeit einer besseren Lokalisierung von Handschriften abzielt und ein HTR-Modell für lateinische Abkürzungen sein soll. Hierbei sollen einige HTR-Modelle anhand wichtiger frühmittelalterlicher englischer, irischer oder kontinentaler Handschriften trainiert werden, um ihre Daten für lateinische Abkürzungen um das 10- bis 15-fache zu erweitern. Mittels der gewonnenen Daten sollen „insulare“ und „irische“ Abkürzungen überprüft sowie regionale Unterschiede in der Abkürzungspraxis der Schreiber untersucht werden. Letzteres betrifft vor allem zweisprachige Handschriften, sodass englische und lateinische Schreibpraktiken einer gemeinsamen Betrachtung unterzogen werden können. In der anschließenden Diskussion wurde über die herangezogenen Quellen und die unterschiedlichen Schreibweisen einzelner Buchstaben und Wörter diskutiert. Weiters wurde dargelegt, dass die Projekte derzeit nur mit altenglischen Texten trainiert werden und daher nicht auf andere Sprachen anwendbar sind. Einigkeit bestand darüber, dass die vorgestellten Methoden und Projekte für die Forschung an mittelalterlichen Handschriften in altenglischer Sprache sowohl aus paläographischer als auch aus linguistischer Sicht bedeutsam sind. (Bericht: Pia Tüchler)

November 21, 2024 by wallnit4@univie.ac.at Uncategorized

Wrap-up zum Vortrag von Patrick Fiska (03.06.2024): Zur Omnipräsenz der Briefkorrespondenz – am Beispiel verschiedener Briefeditionsprojekte

Thema dieses Vortrags war die Briefedition sowie die Probleme, vor die dieselbe gestellt ist, und wie verschiedene praktische Aspekte davon erörtert werden können, um eine gemeinsame Diskussion der Quellengattung Brief zu ermöglichen. Denn trotz der im Titel erwähnten Omnipräsenz von Briefen und Briefkorrespondenzen als Quellen wurde in der älteren Quellenkunde nicht die quantitative Konsequenz daraus gezogen und Handbücher nehmen kaum Rücksicht darauf. Dabei begegnet man Korrespondenzen, die so viel mehr interessanten historischen Inhalt bieten als nur Kommunikation zweier Parteien, öfter als man meint, wie Patrick Patrick Fiska aus seiner eigenen Erfahrung mit Forschungsprojekten u.a. aus seiner Recherche-Agentur berichtete. Gunilla Budde postulierte einst zur Rolle der Briefe in der Kulturgeschichte, dass deren Rezeption und daraus resultierende Forschung schwankenden Konjunkturen unterliege – etwa gemäß dem Prinzip, dass, je eifriger eine Epoche selbst im Briefeschreiben tätig war, desto stärker war auch ihr Interesse an Briefen vor ihrer eigenen Zeit.

Die Praxis des Briefeschreibens bildet laut der Literatur eine anthropologische Konstante der Kommunikation und reicht bis in die Antike zurück. Erhaltene antike Brief-Sammlungen sind etwa die in England gefundenen Vindolanda-Tablets und Bloomberg-Wachstäfelchen, deren Zusammenhang durch die zufällig gemeinsame Überlieferung gebildet wird, und am anderen Ende des Spektrums an literarischer Finesse die Briefsammlungen des Redners Marcus Tullius Cicero. Die „Entdeckung“ der letzteren im spätmittelalterlichen Italien führte dort und letztlich darüber hinaus nicht nur zu einer intensiveren Beschäftigung mit Briefkorrespondenzen, sondern auch zur Anlage und Zirkulation von zeitgenössischen Briefsammlungen Gelehrter, wie etwa Francesco Petrarcas oder im österreichischen Raum Johannes Schlitpachers, die zuerst handschriftlich zusammengetragen und in der Frühen Neuzeit dann auch gedruckt wurden. Ab diesem Zeitpunkt nehmen Briefe und deren Sammlungen als Korrespondenzen stetig an Menge zu.

Die nach und nach aus Einzelbriefen entstehende Korrespondenz bildet wiederrum ein konstitutionelles Element bei der Entstehung von Briefen und legitimiert so die Edition, denn durch eine solche wird nicht nur der Einzelbrief in der „Gemeinschaft“ der anderen Briefe auf eine höhere Ebene gehoben, sondern auch eine Grundlage für kontextualisierende Bearbeitung dieser Quellen gegeben. Korrespondenzen oder Sammlungen können um eine gebildete Person kreisen oder aus personell wie geographisch weit hinausreichende Netzwerken hervorgehen oder eben, wie die erwähnten antiken Täfelchen, „zufällig“ zu einem Corpus werden. Briefsammlungen wurden, wie bereits gesagt, im Spätmittelalter zu einem größeren Thema und vor allem Gelehrtenbriefsammlungen stellten ab der Neuzeit ein wissenschaftliches Arbeitsinstrument dar, wie etwa die Bibliotheca Otto und Johann Burckhardt Menckes zeigt, die Korrespondenzen aus allen möglichen Zeitperioden miteinschließt. Ähnlich ist es bei Veröffentlichungen der Brüder Pez, die in ihrem Thesaurus Anecdotorum einen eigenen Band für Briefe und deren Sammlungen vorsahen.

Als Beispiel-Editionsprojekt für eine Gelehrtenbriefsammlung als Arbeitsmittel im 18. Jahrhunderts soll der Cluster rund um die Korrespondenz des Apostolo Zeno, eines italienischen Numismatikers, dienen. Dieser veräußerlichte seine Münzsammlung durch Vermittlung eines weiteren Numismatikers, des Jesuiten Erasmus Fröhlich, dem Stift St. Florian, die zur bedeutendsten Sammlung neben der kaiserlichen in den österreichischen Ländern wurde. Doch diese Sammlung musste weiter gehegt und gepflegt werden, weswegen das Stift weiterhin mit Fröhlich in brieflichem Kontakt stand und so seine Informationen bezog. Dieser Kontakt wurde an Fröhlichs Schüler, Josef Khell, „weitervererbt“, der ihn nicht nur aufrecht erhielt, sondern dieses numismatische Netzwerk auf weitere namhafte Numismatiker, auch aus dem Ausland, ausdehnte. Für Khells Schüler und „Erbe“ wiederrum, Joseph Hilarius Eckhel, bildete dieses ständig wissenschaftliche Informationen austauschende Netz eine unersetzliche Quelle, die gewiss zu seiner eigenen Karriere beitrug. Allerdings gibt es auch Probleme bei dieser Edition, wie Fiska darlegte. So überwarf sich Eckhel mit einigen seiner „ererbten“ Korrespondenzpartner, von denen nun verdächtigerweise Briefe scheinbar fehlen. Ein weiteres Problem sind die Beilagen der Briefe, die unter anderem etliche Münzzeichnungen enthalten, aber nicht gemeinsam mit den Briefen gebunden wurden. Sie sind nur zu Teilen mit den Brief-Codices als „Anhängsel“ überliefert, zu anderen Teilen aus ihrem Zusammenhang gelöst von seinerseits Eckhels Nachfolger, Franz Neumann, und somit verstreut.

Im breiten Feld des Briefs existieren zahllose Untergruppen, die je nach den involvierten Personen und Inhalt stark variieren können, sowie deren korrespondierende Definitionen, so zum Beispiel der bereits genannte Gelehrtenbrief, aber das Spektrum reicht hin bis zum (erlaubten) Liebesbrief. Generell sollten all diese Arten jedoch von amtlichem Behördenschriftgut, das zwar auch briefähnliche Form hat, jedoch in diesem Fall „Schreiben“ genannt wird, getrennt werden, obwohl es sein kann, dass sich Privates und Amtliches in einem Stück, beziehungsweise einer Korrespondenz, mischt.

Für den stets für Editionen nötige Schritt der Transkription sucht sich jedes Projekt eine eigene Vorgehensweise, doch mit der sich stetig verbessernden Bildwiedergabe der Quellen wendet sich die generelle Präferenz näher zur buchstabengetreuen Wiedergabe zu. Einige Editionsunternehmen nutzen die Seite Transkribus als Darstellungsmedium, mit einem unterschiedlichen Grad an digitaler Erfassung und Verschachtelung des Textes der Quellenabbildung mit dem Interface. Eine andere viel genützte Methode ist die Erfassung des Textes als XML-File mittels des Programms Oxygen, das den Vorteil hat, Grundlage für sowohl eine analoge als auch eine digitale Edition bilden zu können. Welche der zahlreichen technischen Möglichkeiten auch immer benutzt wird, es sollte stets darauf geachtet werden, praktischen gemeinsamen Standards und Plattformen entgegenzuarbeiten, damit die Arbeit eines Unternehmens ohne viel Aufwand auch von anderen für zukünftige Forschungen verwendet werden kann und somit nur einmal erledigt werden muss.

Was etwaige Regesten von Briefinhalten betrifft, gehen die Meinungen auseinander. Während die Germanistik etwa den Volltext vorziehe, sieht die Geschichtswissenschaft in den Regesten einen Service, der Benutzer*innen viel Zeit erspart, und somit gegeben sein sollte. Der Umfang eines Regests kann vom knappen Kopfregest bis zu detaillierten Inhaltsangaben reichen, die mitunter als Ersatz für das eigentliche Stück verwendet werden könnten. Wie ausführlich die Regesten einer Briefkorrespondenz-Edition sein sollten, hängt hingegen von den Spezifika des Corpus ab, so hätte es etwa wenig Sinn, ein ausführliches Regest einer Feldpostkarte zu erstellen.

Eine weitere Komponente von Briefeditionen, die je nach Sammlung und Editionsaufgabe sehr verschieden ausfällt, ist der Kommentar in Form von einem Text- und Sachapparat. Dieser kann sogar völlig fehlen, wenn Museen etwa nur ein Bild der Quelle hochstellen, wie das Deutsche Museum etwa für die Korrespondenz zwischen Josef Popper-Lynkeus und Ernst Mach. Das Technische Museum in Wien befindet sich am anderen Ende der Aufwands-Skala, wo nicht nur das Bild, sondern auch der Text gleich daneben dank der Arbeit der Firma Semantics so verknüpft sind, dass sich der Text vorlesen lässt, wie beim Negrelli-Nachlass zu sehen ist.

Damit sind auch schon einige Formen der Editions- und Publikationsformate im musealen Bereich angesprochen. Weiters gibt es über den musealen Kontext hinaus die rein digitale Edition, bei der nichts Physisches erscheint oder die Hybridedition, bei der eine digitale Anwendung mit einer analogen Buch-Erscheinung Hand in Hand gehen. Als vorbildliches Beispiel für ein digitales Editionsprojekt wurde die Seite Early Modern Letters Online, kurz EMLO, genannt, das dank der Größe des Projekts und der immer wieder dafür lukrierten Geldmittel mehrere technische Umbrüche meisterte und zusätzlich noch zahlreiche Briefeditionsunternehmen untereinander verbindet, aber auch nur einen fragmentarischen Überblick geben kann, da noch viel mehr Quellenmaterial existiert, als im Projekt bisher eingearbeitet werden konnte.

In der Diskussion wurde daran gemahnt, dass nicht zu vergessen sei, dass einerseits besonders im Mittelalter beträchtliche Lücken zwischen tatsächlich versandten Briefen und dem, was als Brief in einer Sammlung festgehalten wurde, klaffen, da die Inhalte teils eklatante Redaktionen, auch von den Urheber*innen selbst, erfuhren und dass andererseits der Brief auch als literarische Gattung aufgegriffen wurde und somit eher wertvoll ist als Quelle zu dem/der Verfassenden wie als Sachinformation. Patrick Fiska antwortete, dass die mittelalterliche Perspektive auf die Briefsammlungen zeigt, wie wichtig der Brief für die Menschen als Konzept war, etwaige Autographen, beziehungsweise „Originale“ jedoch tatsächlich nur schwer zu erahnen seien. Ebenso wies er darauf hin, dass in der Neuzeit streng unterschieden wurde zwischen der Gattung „Brief“ und tatsächlich versandten Schriftstücken.

Eine weitere Frage, die aufkam, war jene nach der Sinnhaftigkeit des Befolgens von Dogmen bei Editionen, denn ein solches Vorgehen könnte die Signifikanz einzelner Quellen größer darstellen als sie tatsächlich ist, als Beispiel wurde die Feldpostkarte genannt, deren karger Inhalt ein ausführliches Regest nicht rechtfertigen würde. Trotzdem wurde für wissenschaftliche Standards beim Edieren plädiert. Dr. Thomas Wallnig führte als Gegenbeispiel die Edition der Leibniz-Korrespondenz an, die neben der gesellschaftlichen Elite als Briefpartner von Leibniz auch Briefe an etwa seinen Friseur enthält – was und mit wie viel Aufwand ediert würde, hinge stark von der Zielgruppe ab. Es sei zu viel, starre Dogmen aufzustellen, doch zumindest ein Regelwerk wird benötigt.

Gefragt wurde auch nach dem Vorgehen zu der Edition der besprochenen Numismatiker-Briefe, worauf Fiska zur Antwort gab, dass noch keine endgültige Entscheidung hinsichtlich der Erscheinungsform getroffen wurde, wobei eigentlich eine hybride Edition angestrebt würde, was in der derzeit unsicheren und sich schnell verändernden Verlagslandschaft schwierig sei.

Zuletzt wurde noch die Frage nach den Vorteilen einer Hybridedition gegenüber einer rein digitalen gefragt, wo zusätzlich noch die Schwierigkeit erwähnt wurde, dass das Interesse an einer gedruckten Ausgabe, wenn es ohnehin schon eine digitale Version gebe, quasi gegen null gehe. Die Vorteile der hybriden Edition, so Patrick Fiska, liegen in der schnellen Vernetzung und anpassungsfähigen Dynamik der digitalen Komponente einerseits und der Referenzierbarkeit und langlebigeren Natur des analogen Drucks andererseits, da es bei digitalen Projekten durchaus vorkomme, dass sie mit der Zeit nicht mehr gewartet werden und somit nicht mehr funktionieren oder ganz verschwinden. Was das Problem des „unwirtschaftlichen“ Drucks betrifft, so müsse dieser von Anfang an mit budgetiert werden, um nicht am Ende ohne physisches Buch dazustehen. Kurz wurde noch in der Diskussion überlegt, ob man auf den Druck und sogar Verlage generell verzichten könne, doch daraus ergab sich keine konkrete Antwort. (Bericht: Rosa Magits)

June 11, 2024 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Vortrag von James Cowey (08.05.2024): Digital editions of texts written on papyrus and other materials

Die Arbeit von Papyrolog*innen hat sich lange Zeit kaum verändert. Doch mit dem Aufkommen digitaler Technologien hat sich die Landschaft grundlegend gewandelt. Plattformen wie Papyri.info bieten eine zentrale, zugängliche Datenbank, die den Arbeitsalltag von Wissenschaftler*innen erheblich erleichtert. Dr. James Cowey (Institut für Papyrologie/Universität Heidelberg) beleuchtete in seinem Vortrag, wie digitale Werkzeuge die klassische Editionsarbeit transformieren und welche neuen Möglichkeiten und Herausforderungen sie für die wissenschaftliche Gemeinschaft bereithalten.

Traditionell bestand die Arbeit von Papyrolog*innen darin, Papyri zu entziffern, Texte zu rekonstruieren, die Inhalte zu analysieren und zu kommentieren. Eine „klassische“ Edition umfasst jede Menge Details, wie zum Beispiel die Datierung, Maße und Inventarnummer des Papyrus sowie eine Darstellung des Inhalts, wobei sowohl der Text als auch die verwendete Sprache genauer beleuchtet werden. Im Apparatus werden Abweichungen zu den erwarteten Formen in der Koine des Altgriechischen und mögliche Sonderformen im Schriftbild angegeben. In der heutigen digitalen Welt hat sich diese Arbeit jedoch verändert. Dank Papyri.info, der zentralen Sammelstelle für Papyrolog*innen, gibt es eine leicht zugängliche Datenbank, die die Arbeit für Wissenschaftler*innen erheblich erleichtert. Der Erfolg der Datenbank liegt darin, dass zum Start der Plattform mehrere bereits existierende Datenbanken miteinander verbunden und über ein gemeinsames Interface zugreifbar gemacht wurden. Ziel war es nicht, eine neue Datenbank zu gründen, sondern auf vorhandene Datenbestände zuzugreifen und diese zu kombinieren. Während Daten zunächst in Datenbanken wie Filemaker-DB (z.B. in Heidelberg) oder SQL-Datenbanken gespeichert wurden, ist man mittlerweile auf XML-Datensätze umgestiegen, da diese die Meta-Daten und Texte strukturierter speichern und besser durchsuchbar machen.

Früher musste man mühsam Daten in Listen oder Zettelkatalogen sammeln oder sich in Bibliotheken durch Indizes von Büchern blättern. Heute kann die Online-Datenbank sehr einfach durchsucht werden, wobei sowohl der Text nach bestimmten Worten oder Wortteilen als auch die eingegebenen Meta-Daten durchsucht werden können.

Die Grundlage für Papyri.info wurde bereits in den späten 90ern mit Epidoc, ursprünglich speziell für den Bereich der Epigraphik gegründet, geschaffen. Mit Epidoc wollte man nicht nur die Texte, sondern auch die Meta-Daten durchsuchbar machen und setzte deswegen auf XML anstatt auf Datenbanken. Bei der Begründung von Papyri.info suchte man ein einfaches System für die Dateneingabe und Speicherung und stieß dabei auf Epidoc. Man entwickelte es für die eigenen Bedürfnisse weiter und erstellte mit Leiden+ eine eigene Markup-Syntax, die auf die Eigenheiten von Papyri angepasst wurde.

Trotz aller Vorteile, verschwieg Dr. Cowey nicht die Einschränkungen, die bei digitalen Editionen vorliegen. So können beispielsweise keine Klammern am Anfang oder Ende einer Zeile offenbleiben, wie man es in gedruckten Editionen gewohnt ist. Eine weitere Einschränkung ist die fehlende Möglichkeit, die grafische Darstellung von Papyri zu übernehmen, weshalb alle Texte auf Papyri.info linksbündig sind und somit hier Informationen verloren gehen, die man erst durch die Betrachtung von Fotos wieder erlangt.

Damit in der digitalen Version alles auffindbar ist, müssen die XML-Dateien jedoch möglichst genau bearbeitet werden. Dr. Cowey erklärte, dass Papyri.info nicht perfekt sei, und es Fehler und Ungenauigkeiten gäbe, da in der Vergangenheit nicht alles gleich konsequent markiert wurde oder man sich manches erst mit der Zeit bewusst wurde. Er betonte deswegen, dass es wichtig sei, dass die aktuellen Neueintragungen möglichst genau sind.

Insgesamt überwiegen die Vorteile digitaler Editionen. Die eingespielten Daten können nicht nur effizienter genutzt werden, sondern die strukturierten Daten der XML-Dateien lassen sich mit minimalen Anpassungen vielfältig verwenden. Dadurch ist es möglich, digitale Editionen sowohl auf Plattformen wie Papyri.info einzuspielen als auch für Artikel oder wissenschaftliche Journals zu nutzen.

Als Beispiel wurde im Vortrag von Dr. Cowey die Arbeit beim Journal „Pylon: Editions and Studies of Ancient Texts“ vorgestellt, welches an der Universität Heidelberg herausgegeben wird. Die Artikel werden wie in jedem Journal als Word- oder PDF-Dokument an das Editorial Board geschickt. Sobald der Artikel angenommen wird, werden die Autor*innen bei der Umwandlung der Texte in XML-Dateien eingebunden. Hierfür gibt es je nach Artikelart verschiedene Templates, und die Autor*innen müssen Details und Meta-Daten selbst markieren und die Editions-Texte in Leiden+ umschreiben. Das Team hinter dem Journal hilft jedoch auch Personen, die dies nicht selbst schaffen oder auf Probleme stoßen. Da die Texte für Pylon vollständig als XML vorliegen, ist es mit nur wenigen Handgriffen möglich, die Daten sowohl für das Journal als auch für Papyri.info zu nutzen. Durch diesen Arbeitsablauf will man doppelte Arbeitsschritte verhindern und sorgt dafür, dass die Texte schnell und einfach in Papyri.info übertragen werden können. Zudem werden die Artikel in Pylon durch die XML-Strukturierung interaktiver, und alle Daten sind miteinander verlinkt. Per einfachem Klick kann man beispielsweise direkt zur Fußnote springen und von dort zu externen Quellen weitergehen.

Digitale Editionen haben jedoch auch ihre Grenzen, da gewisse Zeichenbesonderheiten aktuell digital nicht auf Papyri.info aufgenommen und dargestellt werden können. Dr. Cowey stellte die Frage in den Raum, ob detailgetreue diplomatische Editionen digital überhaupt notwendig sind, da die Fotos der Papyri diese Besonderheiten ohnehin zeigen. Er betonte, dass diese Sonderschreibformen zwar interessant sein können, aber in einer Datenbank wie Papyri.info nur dann Sinn machen würden, wenn man sie auch maschinell durchsuchen könnte.

Dr. Cowey betonte, dass die Digitalisierung des Fachbereiches Papyrologie stetig fortschreitet und die Editionsarbeit sich verändert. Verschiedene Journals nähern sich trotz all ihrer Eigenheiten immer mehr aneinander an, was vorteilhaft ist. Zum Abschluss wurde dabei noch betont, wie wichtig faire Prinzipien sind und dass Daten für alle auffindbar, zugänglich, interoperabel und wiederverwendbar sein müssen. Gerade hierfür bietet sich das XML-Modell besonders gut an und was für Papyrolog*innen bereits funktioniert, kann auch für andere Wissenschaftsfelder wie die Epigraphik ebenso funktionieren. Welchen Vorteil diese Datenoffenheit hat, zeigte Cowey an den beiden Projekten Trismegistos und PapyGreek, die beide auf den Daten von Papyri.info basieren.

In der nachfolgenden Diskussion wurde vor allem das Thema Finanzierung und Ressourcen von Datenbanken aufgegriffen. Dr. Cowey betonte, dass er sich um Papyri.info keine großen Sorgen macht, da es genug Personen gibt, die sich mit der Plattform auskennen, und die Datenbank von der Universitätsbibliothek Heidelberg betrieben wird. Auch Pylon als Journal ist in der Universitätsbibliothek Heidelberg angesiedelt, und er ist zuversichtlich, dass jemand aus dem Editorial Board die Leitung übernehmen wird, wenn er in Pension geht. Da der heutige Wissenschaftsnachwuchs mit digitalen Medien aufwachse, mache er sich auch keine Sorgen, um andere Journals, da diese früher oder später von diesen Personen digitalisiert werden würden, wenn sie in die verantwortungsvollen Rollen kommen. Zum Abschluss betonte Dr. Cowey, dass Projekte wie Papyri.info als Chance gesehen werden sollten. In der heutigen Zeit ließen sich Projekte, wie das Sammelbuch leider nicht mehr so einfach finanzieren, und das eigentlich notwendige Personal ist nicht leistbar. Hier können Plattformen, wie insbesondere Papyri.info jedoch Lösungen bieten, da die Arbeitslast verteilt wird. James Cowey zog hier die Community der Papyrolog*innen in die Verantwortung. Es wäre am besten, wenn die Herausgeber*innen ihre Editionen selbst auf Papyri.info eintragen würden. Der Gastsprecher ermutigte alle Anwesenden, sich aktiv zu beteiligen und die Datenbank weiter zu füllen, da jeder Einzelne zum Erfolg von Papyri.info beitragen und die wertvollen Papyri-Quellen einem noch breiteren Publikum zugänglich machen kann (Bericht: Andreas Zommer).

May 23, 2024 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Vortrag von Chiara Cenati (29.11.2023): Vergangenheit, Gegenwart und Zukunft der Digitalen Epigraphik: von EpiDoc zu KI

Was ist Digitale Epigraphik und was können wir in Zukunft von ihr erhoffen? Welche besonderen Erfordernisse stellen Inschriften überhaupt an digitale Editionen? Und wird die Künstliche Intelligenz (KI) irgendwann in der Lage sein, epigraphische Fragmente verlässlich zu ergänzen? Inschriften variieren schließlich eklatant in Form und Inhalt – von der kurzen Weihinschrift zum langen carmen – und können auch nicht als reine Textquellen angesprochen werden. Chiara Cenati (Institut für Alte Geschichte und Altertumskunde, Papyrologie und Epigraphik) zeigte in ihrem Vortrag, wie neuere digital-epigraphische Projekte den gattungsspezifischen und materiellen Erscheinungsformen von Inschriften gerecht werden wollen.

Dies galt allerdings nicht von Anbeginn: In der Pionierzeit der Digitalen Epigraphik (1980er) lag der Fokus noch auf der Erstellung von Datenbanken, deren vornehmliches Ziel die Durchsuchbarmachung von Text(-Corpora) war. Einige der damals entwickelten Projekte werden heute noch fortgeführt, aktualisiert und bleiben in ihren Gebieten maßgeblich: Für die Lateinische Epigraphik existiert die nahezu vollständige Epigraphik-Datenbank Clauss/Slaby (EDCS), für die Griechische Epigraphik die (unvollständige) Datenbank Searchable Greek Inscriptions (PHI). Bereits in den 1990ern gab es zunehmend Bemühungen um eine stärkere Berücksichtigung materieller und historischer Aspekte, was sich etwa in der Epigraphischen Datenbank Heidelberg (EDH; für die römischen Provinzen) oder der Epigraphic Database Roma (EDR; für die Stadt Rom) niederschlug.

Ab den 2000ern wurden mit EpiDoc (TEI-XML) eine eigene Metasprache sowie Richtlinien entwickelt, die sich an den Bedürfnissen der Epigraphik ausrichteten und nach wie vor etwa halbjährlich ein Update erfahren. Für dieses Vorhaben musste das ursprünglich nur auf Texte und nicht auch auf Textträger ausgerichtete TEI-Format adaptiert werden. EpiDoc wurde vielfach aufgegriffen, von digitalen Ausgaben bestehender Editionen (etwa den Vindolanda Tablets Online, heute Teil der Roman Inscriptions of Britain), aber auch von gänzlich anderen Projekten, etwa papyri.info.

Obwohl dieses Tool weite Verbreitung finden konnte, bleibt festzuhalten, dass sich viele Projekte – mit ihren sehr diversen Bedürfnissen und Zielsetzungen – gegen EpiDoc entschieden. Einen ersten großen Schritt zu gemeinsamen Standards, insbesondere mit der Etablierung von weithin verwendeten Vokabularen, setzte das mittlerweile nicht mehr weiterfinanzierte Best Practice Network EAGLE. EAGLE sollte die existierenden Plattformen miteinander verbinden; unterschiedliche Aufbereitungen der Daten in den Einzelprojekten und unzureichende Koordination der Datenflüsse zwischen EAGLE und den Datenbanken führten allerdings zu unbefriedigenden Suchoptionen, was das Netzwerk für die breite Verwendung unattraktiv machte.

Mit epigraphy.info (seit 2018) wurde die Idee eines gemeinsamen Portals mit Zugriff auf alle Einzelprojekte wieder aufgegriffen; daneben zielt das auf den FAIR-Prinzipien basierende Vorhaben auf die Instandhaltung abgeschlossener Projekte und die Erarbeitung von Richtlinien. Wichtige Schwerpunkte der Unternehmung sind die Erstellung von Vokabularen (also von für alle antiken epigraphischen Kulturen nutzbaren Datensätzen), Ontologien (von z.T. auf CIDOC CRM aufbauenden Definitionen und formalen Strukturen von Daten durch Angabe der (hierarchischen) Beziehungen untereinander) sowie eines „Epifinders“: Dies ist ein Tool zur Suche, Analyse und Bearbeitung von Inschriften, das mit den einzelnen Projekten interoperabel ist. Die Gewährleistung des Datenflusses in beide Richtungen – bei EAGLE nicht möglich – ist ebenfalls ein wichtiges Anliegen.

Hierfür ist es aber notwendig, dass die Daten abgeglichen werden und im XML-Format vorliegen. Da eine Neukodierung aller Daten unmöglich ist, muss auf Converter und Editors zurückgegriffen werden. Zurzeit steht der im Rahmen des ERC-Projekts PATRIMONIVM entwickelte Converter Open Access zur Verfügung, der die Konvertierung von Eingaben im Leidener System ermöglicht. Der Editor des DFG-geförderten EDEp-Projekts (Editionstools für eine Digitale Epigraphik) befindet sich in der Testphase und wird nach Abschluss des Vorhabens (2024) freigegeben.

Chiara Cenati ist selbst Mitarbeiterin im ERC-Projekt MAPPOLA (Mapping Out the Poetic Landscapes of the Roman Empire; PI: Peter Kruschwitz). Im Zuge dessen werden in einer Datenbank (Open Access, momentan noch in der Testphase mit beschränktem Zugang) die etwa 4.000 Versinschriften des Römischen Reichs gesammelt und auch auf einer Karte dargestellt. MAPPOLA adaptiert das EAGLE-Vokabular durch die Einführung von neuen Ober- und Unterkategorien sowie von für Versinschriften wichtigen Vokabularen für das Inschriftenlayout. Ebenso wird eine Ontologie für die verschiedenen Textgattungen (Prosa- und Versinschriften, quantitative und akzentuierende Schemata und die verschiedenen Versmaße) entwickelt. Zwar wurde der PATRIMONIVM-Converter integriert, für die Inschriften stehen jedoch drei Formen der Visualisierung (diplomatisch/interpretativ/Visualisierung nach Versen) zur Verfügung, was im Moment ein Alleinstellungsmerkmal von MAPPOLA ist. Bislang wurde höchstens auf die Versform hingewiesen, ohne weitere Angaben zur Unterscheidung von Vers und Zeile – was in den Inschriften aber differieren kann.

Ein rezentes Arbeitsfeld der Digitalen Epigraphik ist Machine Learning (ML). Prominent ist etwa ITHACA: Das Ziel ist eine mit existierenden Datenbanken trainierte KI, die Lücken in griechischen Inschriften ergänzen kann; Probleme bei derartigen Projekten betreffen etwa die Tatsache, dass die verwendeten Datenbanken unvollständig und teilweise fehlerhaft sind (und somit viel Arbeit in die Datenbereinigung investiert werden muss), aber auch, dass insgesamt zu wenig Inschriften bekannt (und ediert) sind, um Daten für zuverlässige Ergebnisse bereitzustellen. Oftmals ist zudem nicht eindeutig, wie viele Buchstaben in einer fragmentierten Inschrift überhaupt fehlen. Nichtsdestotrotz ist ML zur Lückenergänzung ein wichtiges Forschungsvorhaben; neben ITHACA entstehen gerade weitere Initiativen.

In der akademischen Lehre fristet die Digitale Epigraphik immer noch ein Nischendasein; für Interessierte hat das Project ENCODE einen MOOC zur Digitalen Epigraphik und Papyrologie entwickelt, der demnächst online zugänglich sein wird.

In der Diskussion bestand Einigkeit, dass eine automatisierte Ergänzung (die in jedem Fall von Wissenschaftler*innen überprüft werden muss) epigraphische Arbeit lediglich unterstützen könne; auch die historische Interpretation der Inschriften obliege weiterhin den Expert*innen. Erneut wurde auch die nicht immer gewährleistete freie Zugänglichkeit und langfristige Finanzierung der Datenbanken betont. Möglichkeiten und Grenzen institutioneller Anbindungen der Digitalen Epigraphik – etwa im Zuge eigener Professuren – wurden diskutiert. (Bericht: Felix Michler)

Liste der Partner von epigraphy.info (inkl. Verlinkungen).

December 12, 2023 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Vortrag von Christopher Arnold, Michael Hackl und Emil Lusser (24. April 2023): Vom Manuskript zur Website. Chancen und Grenzen digitaler Editionsarbeit (Bericht von Kamil Bazelides)

In dem Vortrag im Rahmen des Forschungsschwerpunkts Text und Edition wurden gemeinsam zwei vom FWF finanzierte Projekte der Evangelisch-Theologischen Fakultät vorgestellt. Im Zentrum der beiden von Univ.-Prof. Dr. Christan Danz geleiteten Forschungsprojekte stehen auf der einen Seite die Werke von Friedrich Wilhelm Joseph Schelling im Projekt Hybridedition „Schellings Berliner Philosophie der Offenbarung“ (1841-45) (P 34383-G) und auf der anderen Seite die Korrespondenz von Paul Tillich im Projekt Edition of Paul Tillich’s Correspondence (1887-1933) (I 4857-G). Die ausgewählten Textkorpora von Briefen, Manuskripten, und Vorlesungsmitschriften werden als Hybrideditionen aufbereitet, wobei beide Projekte eine kombinierte digitale open-access und eine gedruckte Ausgabe planen. Als Hauptargumente galten die jeweiligen Vorteile von Print- und Digitaledition für die Nachhaltigkeit sowie die bestmögliche Benützbarkeit der edierten Texte. Weitere Gegenstände der Diskussion waren der gemeinsame Workflow beider Projekte, die gattungsspezifischen Nutzungsszenarien beider Editionen sowie die Themen undatierte Briefe, unbekannte Personen und Korrespondenznetzwerke.

Schellings Berliner Vorlesungen zu einer Philosophie der Offenbarung sind in verschiedenen Formen erhalten: in Manuskripten, Drucken, Nachschriften, Tagebüchern sowie Notizen. Das Ziel wäre ein Text aus letzter Hand, der philosophiegeschichtlich aufgearbeitet ist. Dies stellt aber wegen der variierenden Lesbarkeit der Texte, der Fülle und Heterogenität des Materials sowie des Fehlens einer editorischen Infrastruktur früh eine besondere Herausforderung dar. Weitere Schwierigkeiten traten bei der Transkription auf. Aufgrund von unterschiedlichen Überlieferungsträger – etwa Korrekturschriften oder Konzepte – ist die maschinelle Transkription mit Transkribus nur partiell anwendbar – lediglich bei sauber gestalteter Kurrentschrift. Weitere Hürden ergaben sich aus der problematischen Identifizierung von Händen (wegen gleicher Tinte, die verwendet wurde). Bei der Kodierung der digitalen Edition wurde nicht nur allgemein TEI XML verwendet, sondern konkreter das Basisformat des Deutschen Textarchivs. Das Ziel ist ein abschnittsweise gestalteter unmittelbarer Vergleich zwischen dem gedruckten Text der Vorlesungen und dem dazu verhältnismäßig längeren Manuskripten; eine zusätzliche Referenzierung von Textabschnitten durch Schlagworte / ein Sachregister wird erwogen. Die Web-Präsentation, die in Zusammenarbeit mit der Bayerischen Akademie der Wissenschaften erstellt wird, ist gegenwärtig noch in Arbeit.

Demgegenüber basiert die Edition von Tillichs Korrespondenz – hier der erste Teil (1220 Briefe) eines umfangreicheren Korpus (2800 Briefe) – auf einer Exist-DB und verfügt bereits über ein mit dem TEI-Publisher erzeugtes Graphic User Interface. Unter Verwendung der in der digitalen Edition gesammelten Daten wird für die zukünftige Präsentation auch eine visualisierte Chronologie in einer Timeline mit Filtern überlegt.

Für die Transkription wurde wiederum mit Transkribus gearbeitet, wobei ein eigenes Modell am Ende nur geringfügige Vorteile gegenüber einem bestehenden bot. (Diskutiert wurde der eigenständige Quellenwert gedruckter Schreibkalender und die diesbezüglich noch in Entwicklung befindliche Layouterkennung in Transkribus. Tabellen werden in der digitalen Edition nicht kodiert, sondern auf der Website mithilfe von CSS und HTML erstellt). Die TEI-Kodierung wird mit ODD umgesetzt, so gibt es Pop-Up-Fenster etwa zu erwähnten Personen. Erfasst wurden einzelne Elemente des Briefes, wie Datum, Grußformel, Unterschrift, aber auch <bibl>, oder <persName>; <placeName>.

In der anschließenden Diskussion herrschte u.a. dahingehend Konsens, dass digitale Editionen zwar zeitgemäßer, handlicher und übersichtlicher sind, Printeditionen aber als Lesetexte durchaus weiterhin ihre Berechtigung haben.

May 17, 2023 by wallnit4@univie.ac.at Uncategorized

Wrap-up zur ARCHITRAVE-Projektpräsentation

Am 19. Jänner 2023 veranstaltete das Österreichische Staatsarchiv in Kooperation u.a. mit dem Forschungsschwerpunkt “Text und Edition” eine Präsentationsveranstaltung rund um das deutsch-französische Kooperationsprojekt Architrave, in dem Ausschnitte aus sechs ausgewählten frühneuzeitlichen Reiseberichten aufbereitet und übersetzt wurden. Aus editorischer Perspektive sind die folgenden Punkte bemerkenswert: (a) Die Daten sind im Repositorium TextGrid abgelegt und damit auch im Rahmen der NFDI-Initiative nachhaltig gesichert (Ansprechpartner ist die UB Göttingen). (b) Die zentrale Editionsansicht erlaubt eine synoptische Ansicht mit Faksimile; die mit leaflet generierten Karten sind separat referenzierbar und abgelegt. (c) Die Struktur der (frei zugängilchen und CC-BY-NC lizensierten) TEI-Files kann auch bei der Kodierung anderer vergleichbarer Quellen (Selbstzeungnisse) eine hilfreiche Orientierung darstellen. Beispielsweise werden Orte, die auf der Reise tangiert werden, als solche gekennzeichnet (<placeName type=”city” subtype=”passingBy”>); Tagebucheinträge fungieren als strukturierende Einheiten (<div type=”diaryEntry” when=”1698-10-23″>), zugleich wird mit Seiten- und Zeilenwechseln auch das Layout abgebildet. (d) Die Dokumentation (Richtlinien, Verantwortliche, aber auch Datenschutz) ist recht ausführlich. Die projektspezifische Umsetzung der TEI-Richtlinien würde sich durchaus auch für pädagogische Zwecke eignen.

January 20, 2023 by wallnit4@univie.ac.at Uncategorized

Wrap-Up zum Vortrag von Edith Kapeller (10. Oktober 2022): Editorische use cases für mehrere Textversionen

Die Diskussion zum Projekt Der Österreichische Bibelübersetzer, konkret zu dessen Evangelienwerk, adressierte an erster Stelle die Frage, worin der Mehrwert der synoptischen Edition der Erst- bzw. Bearbeitungsfassung bestehen kann. Da sich der Gestaltungswille bei der Bearbeitung des Textes vor allem in der Umstellung der Kapitel zeigte, wird in der Edition eine Umordnung der synoptischen Sicht nach entsprechenden (aber anders nummerierten) Kapiteln ermöglicht. So erfordert zwar das gezielte Lesen der Bearbeitungsfassung ein bewusstes Durchklicken der dortigen Kapitelzählung. Das ist aber, so der Konsens, dadurch argumentierbar, dass (a) mit einer gedruckten Lesefassung ein lesbarer fortlaufender Text geboten wird; dass (b) in der Einleitung die Besonderheiten der Umarbeitung verdeutlicht und aufbereitet werden; und dass (c) für die künftige Oberflächenentwicklung auch ein interaktiver Einstieg in die Kapitelverschiebungen etwa über einen Konkordanzbalken denkbar wäre (vergleichbar dem Einstieg über Karten, Personennetzwerke oder eine Lagendarstellung: vgl. Edition Visualization Technology (unipi.it)). Betont wurde, auch mit Blick auf vergleichbare Problemlagen (Herberstein, Commenrarii: bibliotheca Augustana (fh-augsburg.de), Welscher Gast Digital: Welscher Gast digital (uni-heidelberg.de)) die Notwendigkeit, editorische Entscheidungen mit Blick auf das Benutzer*innen-Verhalten zu treffen, also synoptische “Überforderung” zu vermeiden und gleichzeitig den eigenen Blick auf die Besonderheiten des Textes als leitend für das Editionsdesign explizit zu machen.

Ebenfalls diskutiert wurde der Umgang des Projekts mit Sonderzeichen sowie der Umstand, dass Abbreviaturzeichen nicht mit eincodiert sind: Wiedergegeben wird der Buchstabenbestand sowie die Auflösung. (Unsichere Auflösungen können auch als solche getagt werden.) Lediglich ein knappes Dutzend (Unicode-)Sonderzeichen kommt zum Einsatz, bei den meisten Fällen unterschiedlicher Grapheme in der Quelle (beispielsweise “s” in verschiedenen Schreibeweisen) wird in der Edition dagegen normalisiert. Ein Grund für diese Vorgehensweise liegt im Fehlen eines verbindlichen Standards für die Verwendung komplexerer Zeichensätze. Diese editorische Entscheidung kann zwar für einen philologischen Zugang Informationsverlust bedeuten, erleichtert jedoch die Arbeit und bringt auch keine Einschränkung bei der Durchsuchbarkeit, zumal Varianten in der Suche mit berücksichtigt werden können. Im Hinblick auf den Workflow bestehen gute Erfahrungen (a) mit Transkribus, unter ausführlicher Verwendung der Tagging-Funktion; (b) mit einer Ediarum-Adaption (Mediaevum: ediarum: Module), die basierend auf ediarum.base im Kooperation mit TELOTA entwickelt wurde und auf Nachnutzung angelegt ist. Wo vorhanden, werden für die Personen GND-Verweise angebracht.

October 3, 2022 by wallnit4@univie.ac.at Uncategorized