Der am Trinity College Dublin lehrende Dr. Mark Faulkner stellte im Rahmen dieses Vortrags einige Methoden und Projekte vor, die für die Forschung an mittelalterlichen Handschriften in altenglischer Sprache von Relevanz sind.
Faulkner eröffnete seinen Vortrag mit der Erläuterung darüber, dass ein Großteil der Tradition der Philologie auf den Forschungsergebnissen des 19. Jahrhunderts basiert. Daran anschließend ging es im Zusammenhang mit der Feature Extraction um die Erfassung verschiedener Schreibweisen einzelner Buchstaben, ausgehend von einer Handschrift aus dem 12. Jahrhundert. Faulkner sah sich dabei auf Basis der Methoden von Forschern des 19. Jahrhunderts zunächst an, wie oft in dieser Handschrift der Buchstabe b anstelle des Buchstaben v geschrieben wurde, welche unterschiedlichen Schreibweisen des Buchstaben b ersichtlich waren und wie oft diese vorkamen. Daraus versuchte er den Schluss zu ziehen, ob die unterschiedlichen Schreibweisen im weiteren Verlauf dieses Textes vorhersehbar oder gar kalkulierbar waren. Anschließend erfolgte mithilfe der Datenbank MANCASS C11 Database, des York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE) sowie des Werkes A Linguistic Atlas of Early Middle English 1150-1325 (LAEME) eine Untersuchung von Lemmata, also von Stammformen bestimmter Wörter, samt Analyse der Häufigkeit des Vorkommens bestimmter Formen. In einem letzten Schritt erfolgte eine Quasi-Lemmatisierung bestimmter im Dictionary of Old English (DOE) vorfindlichen Wörter, die im Dictionary of Old English Corpus (DOEC) unter dem Gesichtspunkt der Homographie dieser Wörter abgeglichen wurden, was eine Vielzahl von unterschiedlichen Schreibweisen ergab.
Als nächstes wurden im Vortrag verschiedene Methoden im Bereich des Linguistic Profiling vorgestellt. Dabei wurden nicht nur individuelle Größen, sondern auch ganze semantische Felder im Hinblick auf die Häufigkeit verschiedener Schreibweisen von Wörtern untersucht. Diese unterschiedlichen Schreibweisen wurden dann mittels Cluster-Analyse untersucht.
Zum Thema Metadaten präsentierte Faulkner das Projekt Searobend. Linked Metadata For English-Language Texts, das vom COALESCE-Programm des Irish Research Council gefördert wird. Das Hauptziel dieses Projekts besteht in der digitalen Verknüpfung von fünfzehn Quellen, die für das Studium englischer Texte aus der Zeit zwischen 1000 und 1300 von Bedeutung sind. Dadurch sollen grundlegende Informationen zu jedem Werk zur Verfügung gestellt und eine Steigerung des Nutzens dieser Ressourcen für die Wissenschaft erzielt werden. Dies soll zu einer Erleichterung der intensiveren Nutzung dieser Handschriften führen. In diesem Zusammenhang erläuterte Faulkner drei wichtige Komponenten, die für dieses Projekt von Relevanz sind: den Knowledge Graph (KG), die Ontologie (Ontology) sowie das CIDOC-Conceptual Reference Model (CRM).
Unter einem Knowledge Graph versteht man eine strukturierte Darstellung von Informationen, die miteinander verbunden sind. Dadurch werden Entitäten sowie Beziehungen zwischen diesen Entitäten dargestellt. Durch KGs werden Daten so organisiert, dass es leichter ist, sie miteinander zu verbinden und abzurufen, was dabei hilft, aussagekräftige Erkenntnisse zu gewinnen und Verbindungen innerhalb eines bestimmten Bereichs oder über unterschiedliche Datensätze hinweg abzufragen.
Eng mit KGs verbunden sind die sogenannten Ontologien. Dabei handelt es sich um formale und explizite Darstellungen von Wissen in bestimmten Bereichen. Sie spielen eine entscheidende Rolle bei der Strukturierung von Informationen in einem KG, da sie eine standardisierte Methode zur Modellierung und Organisation von Daten bieten und das Verständnis und die Abfrage dieser Daten erleichtern. Ontologien werden oftmals auch als gemeinsames Vokabular zur Beschreibung von Daten bezeichnet.
Als Beispiel für eine solche Ontologie wird das CIDOC-Conceptual Reference Model erläutert. Dabei handelt es sich um eine erweiterbare Ontologie für Informationen im Bereich des kulturellen Erbes. Die Searobend-Ontologie erweitert diese CIDOC-CRM-Ontologie und bietet ein Vokabular, das für die Beschreibung von Metadaten mittelalterlicher Handschriften verwendet werden kann. Zusammengefasst soll Searobend gleichsam als Standarddatenbank für Metadaten fungieren, die für Forschungsprojekte zur altenglischen Sprache von Nutzen sein können.
Im letzten Teil seiner Präsentation ging Faulkner auf die Handwritten Text Recognition (HTR) ein und erläuterte ihre Methodik. Demnach soll der Computer in der Lage sein, handgeschriebene Texte von Quellen zu erfassen und zu interpretieren. Als erstes werden Trainingsdaten in das System eingespeist, sodass es „lernt“, wie eine Schrift zu lesen ist. Ein Teil dieser Daten wird allerdings zurückgehalten, um die Genauigkeit der maschinellen Leistung beurteilen zu können. Ziel ist eine Character Error Rate (CER) von ca. 2%, wonach der Computer bei etwa einem von fünfzig Wörtern falsch liegen würde. Ein Vorteil der HTR liegt einerseits in der Schnelligkeit im Gegensatz zur manuellen Eingabe, andererseits ist der Computer potentiell in der Lage, unterschiedliche Formen von Buchstaben eher zu „erkennen“ als ein Mensch.
In weiterer Folge stellte der Referent das Ansund-Projekt vor. Das Hauptziel dieses Projekts besteht darin, ein neues, umfassendes, frei zugängliches Corpus der altenglischen Sprache mittels HTR zu erstellen. Zudem sollen neue Transkriptionskonventionen entwickelt werden, die sinnvolle orthographische und graphematische Variationen erfassen. Das Projekt zielt außerdem darauf ab, Forschungsteams aufzubauen, die in der Lage sind, Trainingsdaten für das HTR-Modell zu transkribieren und die Ergebnisse für die Veröffentlichung und Wiederverwendung als weitere Trainingsdaten zu korrigieren. Es soll getestet werden, ob eine Korrektur gewisser HTR-Outputs erforderlich ist, um für altenglische Studien nutzbar zu sein. Letztlich sollen ähnliche Modelle für andere Sprachtraditionen (wie etwa Anglolatein) bereitgestellt werden.
Durch dieses Projekt soll ermöglicht werden, durch das eingeflossene Quellenmaterial die Entwicklung der Darstellung einzelner Buchstaben über Jahrhunderte zu verfolgen und nachzuvollziehen.
Die nächsten Schritte des Ansund-Projekts bestehen in einer ausführlichen Bewertung der Ergebnisse dieses Modells und in einem erneuten Trainieren des Modells mit 700 Seiten Trainingsdaten samt Veröffentlichung. Zudem gibt es noch einige offene Fragen, etwa im Hinblick auf die Worttrennung. Letztlich ist eine reflexive Bewertung des herangezogenen Zeichensatzes erforderlich. Dabei wird auf Fehler, die der Computer gemacht hat, bzw. Fälle, in denen er unsicher ist, aufmerksam gemacht.
Zuletzt stellte Faulkner das Projekt Wandering Books vor, das auf die Möglichkeit einer besseren Lokalisierung von Handschriften abzielt und ein HTR-Modell für lateinische Abkürzungen sein soll. Hierbei sollen einige HTR-Modelle anhand wichtiger frühmittelalterlicher englischer, irischer oder kontinentaler Handschriften trainiert werden, um ihre Daten für lateinische Abkürzungen um das 10- bis 15-fache zu erweitern. Mittels der gewonnenen Daten sollen „insulare“ und „irische“ Abkürzungen überprüft sowie regionale Unterschiede in der Abkürzungspraxis der Schreiber untersucht werden. Letzteres betrifft vor allem zweisprachige Handschriften, sodass englische und lateinische Schreibpraktiken einer gemeinsamen Betrachtung unterzogen werden können. In der anschließenden Diskussion wurde über die herangezogenen Quellen und die unterschiedlichen Schreibweisen einzelner Buchstaben und Wörter diskutiert. Weiters wurde dargelegt, dass die Projekte derzeit nur mit altenglischen Texten trainiert werden und daher nicht auf andere Sprachen anwendbar sind. Einigkeit bestand darüber, dass die vorgestellten Methoden und Projekte für die Forschung an mittelalterlichen Handschriften in altenglischer Sprache sowohl aus paläographischer als auch aus linguistischer Sicht bedeutsam sind. (Bericht: Pia Tüchler)