Handbuch Proto4DigEd: Prototypische Workflows für digitale wissenschaftliche Editionen (DSE)
1. Das Handbuch
Anwendungsbereiche
Das Handbuch unterstützt Forschende und Projekte aus den Geisteswissenschaften in der Erstellung von digitalen wissenschaftlichen Editionen (digital scholarly editions: DSE) in ihrer ganzen Dauer, d.h. von der Planungsphase bis zur Langzeitsicherung. Es versammelt Erkenntnisse zum digitalen Edieren, die in einer deutschsprachigen Forschungslandschaft gemacht wurden; obschon das Handbuch auf Englisch und Deutsch verfasst wurde, verweist es deshalb oftmals auf deutschsprachige externe Ressourcen. Wir freuen uns darüber, weitere Erkenntnisse und Ressourcen auch aus nicht-deutschsprachigen Kontexten einzubauen: Anregungen können direkt an die Autoren gerichtet werden (siehe Impressum).
Das Handbuch verdankt sein spezifisches Wissen über digitale Texteditionen unseren Erfahrungen im Projekt Proto4DigEd.
Entstehung der Showcase-Edition
Proto4DigEd ist ein Open Research Data Projekt, untersützt durch swissuniversities, 2023-2024, unter der Leitung von Prof. Dr. Ursula Bähler. Vertreter:innen der Literatur- und Geschichtschwissenschaften, der Digital Humanities sowie des Bibliothekswesens haben Edition-Workflows anhand eines Teilkorpus' der Korrespondenz des französischen Philologen Gaston Paris getestet und evaluiert. Für die Edition verwendet wurden die DSE-Standard-Tools Transkribus (zur Texterkennung und Transkription) und TEI-Publisher (zur Annotation, Kommentierung und Publikation).
Auf unser Vorgehen in der so entstandenen Showcase-Edition wird an relevanten Stellen des Handbuchs in Informationsboxen (wie der vorliegenden) verwiesen. In diesen finden sich einerseits konkrete Editionsrichtlinien wie beispielsweise die angewendeten Transkriptionsrichtlinien damit ein Einblicke, wie ein Projekt sein Vorgehen dokumentiert (was wir methodischer Ebene im Dokumentations-Kapitel reflektierten). Andererseits finden sich in Informationsboxen allgemeinere "Erfahrungen aus der Showcase-Edition", in denen wir auf Herausforderungen im Workflow hinweisen - etwa dass die Einrichtung des Annotations-Editors im TEI Publisher ein aufwändiger Teamprozess war. Editorische Entscheidungen und Präsentationsformen werden zudem durch Links in die Edition versinnbildlicht. Es ist jedoch wichtig, dass es sich dabei zwar um exemplarische, aber keinesfalls alleingültige Lösungen handelt.
Das Handbuch dokumentiert jedoch nicht nur in Proto4DigEd evaluierte Tools, seine grundsätzlichen editionswissenschaftlichen Überlegungen zur Planung von Workflows lassen sich mit gewissen Einschränkungen auch auf Editionen nicht-textueller oder multimedialer Medien übertragen. Um auch Forschenden zugänglich zu sein, die bisher an gedruckten Editionen gearbeitet haben, verwendet es bewährte editorische Begriffe (Textkonstitution, Transkription, diplomatische Umschrift etc.), reflektiert jedoch deren Übertragung ins Digitale, die zu Bedeutungsverschiebungen oder Erweiterungen führen kann.
Das Handbuch hat nicht den Anspruch, alle Facetten des digitalen Edierens abzudecken, es ergänzt bereits oder bald verfügbare Ressourcen, die einzelne Workflow-Schritte in den Blick nehmen, allen voran als Standard Nachschlagewerk das KONDE Weißbuch. Dieses gibt grundlegende Einblicke in verschiedene Themenfelder, bietet jedoch keine prozessoralen Überlegungen zur Planung von Workflows. Das vorliegende Handbuch verweist extensiv auf das KONDE Weißbuch um Doppelungen zu vermeiden; es verzichtet neben solchen Links auf externe Ressourcen auf eine Bibliographie, um nicht den Eindruck einer (angestrebten) Vollständigkeit zu erwecken. Spezifischere Handbücher sind etwa PATT zur automatischen Texterkennung für Historker:innen, DigEdTnT zur Transition zwischen Tools, oder das Handbuch zur Erstellung diskriminierungsfreier Metadaten für historische Quellen und Forschungsdaten.
Ziel: Kennen und Abwägen von Möglichkeiten
Die hier dokumentierten prototypischen, d.h. vorbild- und beispielhaften, Schritte in der Erstellung von DSE sollen als Wegweiser dienen. Sie geben eine Übersicht zu erprobten Workflows verfügbarer Tools (zu diesen Begriffen s.u.), die unterschiedliche Grade an Fähigkeiten und Ressourcen benötigen.
Das Handbuch reflektiert deshalb immer eine Mehrzahl der Möglichkeiten und hilft DSE-Projekten, diese abzuwägen. Ziel der Dokumentation ist es nicht, den perfekten Weg bzw. Workflow für jedes Projekt vorzuzeichnen. Sie gibt stattdessen Hinweise zur Planung und Umsetzung von DSE, die dem Projektrahmen angemessenen sind. Diese Faktoren haben grundsätzliche Auswirkungen auf die Planung. Wenn nötig, wird auch auf (bislang) nicht-machbare Wege hingewiesen. Das Teilen von Wissen zu Workflows unterstützt die Umsetzung der FAIR Data Prinzipien, d.h. es ermöglicht die Findbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendung von Daten - in diesem Fall Daten betreffend Methoden des digitalen Edierens, die sowohl durch externe wie selbsterstellte Ressourcen zugänglich gemacht werden.
2. Workflows
Unter einem Workflow verstehen wir die Folge aufeinander aufbauender Arbeitsschritte, deren Abschluss bzw. Vollständigkeit jeweils ein editorischer Entscheid zugrunde liegt. So ist der Abschluss der Textkonstitution eine - auf der Gesamtplanung beruhende - editorische Entscheidung, die es erlaubt, zur Transkription des Korpus voranzuschreiten. Für diese Arbeitsschritte besteht im Handbuch je ein eigener Eintrag, wobei die Unterkapitel zur "Editionsarbeit" am engsten als Workflow-Ablauf gestaltet sind.
Workflow-Schritte lassen sich per se auf verschiedene Mitarbeitende oder Teams aufteilen, im Gegensatz zu Unterschritten, die das oftmals verbieten (u.a. weil ihre Abschliessbarkeit weniger von editorischen als von technischen Erwägungen abhängt). Die Arbeitsteilung innerhalb des Workflows bedarf jedoch immer genauer Planung und Koordination; sie ist nicht in jedem Fall sinnvoll. Auf besonders enge Verzahnungen von Arbeitsschritten wird im Handbuch hingewiesen.
Komplexität
Workflows rückten in den letzten Jahren verstärkt in den Fokus der Digital Humanities und insbesondere der Auseinandersetzung mit DSE (vgl. z.B. DARIAH Annual Event 2024: "Workflows: Digital Methods for Reproducible Research Practices in the Arts and Humanities"). Der Hintergrund dieses Interesses ist einerseits ein Komplexitätszuwachs: Die Anzahl von immer leichter zugänglichen Tools und Plattformen für DSE steigt. Aus ihnen gilt es für spezifische Projektbedürfnisse auszuwählen, um sie in einen Workflow zu integrieren und aufeinander abzustimmen.
Standardisierung
Andererseits steht dem Komplexitätszuwachs an verfügbaren Tools und Plattformen eine Vereinheitlichung der (Meta-)Datenformate und -standards gegenüber, insbesondere der Verwendung von TEI/XML zur Strukturierung und Annotierung von maschinenlesbaren Editionstexten sowie die Verlinkung der Annotationen mit den Metadaten von Normdatenbanken. Diese Standardisierung der Daten und damit einhergehende Standardisierungen der Editionsrichtlinien und Funktionalitäten von DSE zieht eine steigende Nachfrage nach einer Standardisierung von Workflows nach sich. Wo ähnliche Daten/Publikationen erarbeitet werden sollen, können auch ähnliche Workflows verwendet werden. Auch dies ist ein Aspekt der FAIR-Prinzipien, deren Operationalisierung sich etwa eine Ausgabe der Fachzeitschrift RIDE widmet.
Uns interessiert dabei vor allem das Wie: Wie und wann ist es weiterhin sinnvoll unterschiedliche, oftmals selbsterstellte Workflows zu generieren? Inwiefern lassen sich Tools und Plattformen in best practices auf wie einheitliche Weise kombinieren? Und welche editorischen und technischen Einschränkungen gehen mit dieser Vereinheitlichung einher, d.h. welcher editorische Entscheidungsspielraum geht durch sie verloren? Das Handbuch versteht sich demnach weniger als eine Anleitung zu einer eigentlichen Standardisierung von Workflows, als vielmehr eine Hilfe, um den Standardisierungsgrad der Workflows zu ermitteln und eine projekteigene best practice zu erarbeiten. Deshalb sind die einzelnen Workflow-Kapitel, v.a. im Oberkapitel "Editionsarbeit", nach folgendem Muster aufgebaut:
-
Erklärung des Workflow-Schrittes
-
Beschreibung der vorhandenen Standards (und mögliche Alternativen)
-
Evaluation der Limitationen von Standard-Tools
- Wir verweisen zuweilen auf 'haute couture' Lösungen, d.h. 'maßgeschneiderte' Funktionalitäten, für die keine Standardisierungen vorliegen
Das letzte Kapitel des Handbuchs Themen versammelt verschiedene Begriffe aus allen Workflow-Schritten, die dort aus Platzgründen nicht genauer ausgeführt werden konnten. Es richtet sich primär an technisch geschulte Lesende und hält code-snippets und externe Ressourcen bereit, deren Anwendung ein vertieftes Vorwissen benötigen.
3. Tools und Plattformen
Unter einem Tool zur Erstellung einer DSE versteht das vorliegende Handbuch jegliche relevanten technische Werkzeuge und Hilfsmittel; dies können neben Desktop- oder webbasierten Programmen auch Add-Ons oder Code-Scripts sein, die in der Anwendung unterschiedliches technisches Vorwissen benötigen. Eine Übersicht und Reviews zu Tools für DSE bieten die Plattform i-d-e (Institut für Dokumentologie und Editorik) und die dazugehörige Zeitschrift RIDE hier.
Dieses Handbuch bietet Hinweise darauf, in welchen Fällen für Tools wie viel Vorwissen notwendig ist. In seinem Zentrum stehen die weitverbreiteten Tools Transkribus und TEI-Publisher.
Neben der Kategorie der Tools ist diejenige von (Publikations-) Plattformen zentral, da sie die Zugänglichkeit der DSE bzw. ihrer (Meta-)Daten gewährleisten. Zu ihnen zählen zentral verwaltete Datenbanken (wie das Swiss National Data and Service Center for the Humanities DaSCH), Metadatenbanken (wie Metagrid oder Correspsearch) sowie Repositorien für verschiedene Datentypen (nicht DSE-spezifisch: Zenodo, Swissubase, GitHub/GitLab; DSE-spezifisch: Repositorien für Tranksriptionsdaten wie transcriptiones oder htr-united). Wie verschiedene Tools benötigen auch Plattformen unterschiedliche Vorkenntnisse oder Einarbeitungszeiten, vor allem aber richteten sie sich an unterschiedliche Publika und erfüllen verschiedene Zwecke. Im Gegensatz zu Tools, deren Wahl oftmals im Workflow schwer umkehrbare Weichenstellungen mit sich bringt, ist die Verwendung mehrerer Plattformen zur Präsentation und Langzeitarchivierung der DSE und ihrer Daten ausdrücklich empfohlen.
Obsoleszenz und Innovation
Was das Handbuch in technischer Hinsicht nicht ist: Die dokumentierten Schritte stellen keine Anleitungen dar, wie bestimmte Tools oder Plattformen im Detail zu verwenden sind. Da die Entwicklung zurzeit schnell voranschreitet, würde ein hoher Detailgrad schnell zur Dokumentation von veralteten Features führen. Wie die Handbücher zur gedruckten Editorik heute noch in ihren editorischen Überlegungen gültig sind, ist auch mit diesem Handbuch die Hoffnung verbunden, nach zukünftigen technischen Innovationen weiterhin Hilfe zu bieten.
Eine grundsätzliche Herausforderung der digitalen Editionsarbeit ist damit bereits angesprochen: Sie ist einerseits von den Einschränkungen und Obsoleszenzen technischer Werkzeuge abhängig, andererseits erwachsen durch deren Weiterentwicklung innovative editorische Möglichkeiten. Die Balance zwischen wissenschaftlicher Notwendigkeit ("wissenschaftlich und editorisch geboten") und innovativem Surplus ("nice to have") ist darum in der Planung, insbesondere in der Abklärung der Projektziele immer im Auge zu behalten.