4.2 Datenarchivierung
Wozu dient die Archivierung von DSE-Datensätzen?
Die Datenarchivierung ist die Voraussetzung, um die reichhaltigen Informationen einer DSE längerfristig nutzen und zu können. Wie in der Einleitung zur Langzeitsicherung erwähnt, eröffnet sie zudem verschiedene Nachnutzungsmöglichkeiten z.B. für distant-reading Ansätze oder computerlinguistische Methoden. Die Daten lassen sich für verschiedene Zwecke neu visualisieren, wie es etwa das entstehende Visualisierungs- und Forschungstool ORD-Explore für eine Vielzahl von DSE durch den Upload ihrer TEI/XML-Daten ermöglichen soll.
Schließlich erlaubt eine vollständige Daten-Archivierung eine spätere Neuveröffentlichung mithilfe neuer Tools in einem neuen bzw. nachgebauten Frontend. Voraussetzung für eine solche 'Wiederbelebung' archivierter Daten ist jedoch eine lückenlose technische Dokumentation, die das korrekte Zusammenspiel der Datensätze erklärt.
Archivierung durch spezialisierte Institutionen
Auf geisteswissenschaftliche Daten spezialisierte Institutionen haben ein fachspezifisches Wissen für die Standarddatenformate und machen diese entsprechend präsentier- bzw. durchsuchbar. Zudem garantieren sie in der Regel eine Mindestsicherung von 10 Jahren. Es kann jedoch davon ausgegangen werden, dass die Daten über wesentlich längere Zeiträume verfügbar bleiben, so lange diese Institutionen existieren.
Die derzeit in der Schweiz praktizierte und durch den Schweizer Nationalfonds unterstützte Standardlösung ist eine Archivierung der kompletten Daten im Swiss National Data and Service Center for the Humanities DaSCH. Unterschiedliche Projekte sind in derselben Datenbank, der DaSCH Service Plattform (DSP), abgelegt, was mit zunehmender Datenmenge den Vorteil einer breiten übergreifenden Suche in DaSCH Ressourcen ermöglicht. Neben DSEs befinden sich dort auch andere geisteswissenschaftliche Datensätze wie Lexika, Fotografiesammlungen oder Bibliographien. DaSCH weist sowohl den Projektdaten als auch den eindeutigen Objekten innerhalb dieser Projekte (z. B. einer XML-Datei) eine ARK-Identifier (Archival Resource Key) zu. Diese dauerhafte Kennung stellt sicher, dass jede Ressource wissenschaftlich referenziert werden kann und die Zugänglichkeit auch dann erhalten bleibt, wenn sich Datensätze ändern. Die Archivierung im DaSCH kann auf zwei verschiedene Weisen geschehen:
-
Als einfaches Datenmodell: Dem DaSCH werden die TEI/XML Dateien plus elementare Metadaten geliefert. Diese Metadaten sind dann auf der DaSCH Service Plattform (DSP) durchsuchbar.
-
Als elaboriertes Datenmodell: In Zusammenarbeit mit dem DSE-Projekt modelliert das DaSCH einen Teil der Daten als RDF-Datenbank auf der DSP. Dadurch werden komplexere Suchen nach Relationen zwischen den Datensätzen möglich. Ein Beispiel hierfür ist die Briefedition Bernoulli-Euler Online. Sie erlaubt neben der Darstellung der Faksimiles (die auf dem DaSCH-eigenen IIIF-Server gespeichert oder von externen IIIF-Servern eingebunden werden können) auch eine generische Publikation der Transkription sowie eine Durchsuchbarkeit nach Register. Die Transkriptionen der Bernoulli-Euler-Briefedition sind zwar keine TEI/XML-Datensätze, solche werden jedoch im Rahmen anderer DSE zukünftig auf der DSP abgelegt werden. Die dabei entstehenden Limitationen bestehen darin, dass ihre Darstellung, nur statisch ist und dass von Anfang an im Projekt ein sparsames, mit dem DaSCH abgesprochenes Annotieren empfohlen ist. Das resultierende, strukturierte Frontend (die DSP-APP) geht über eine einfache Datenarchivierung heraus, bleibt im Vergleich zu den meisten DSE-Frontends jedoch einfach und generisch.
Beide Formen der Archivierung durch das DaSCH werden im selben Datenformat, RDF-Triples, ausgeführt und unterschieden sich primär hinsichtlich der Komplexität ihrer Strukturierung.
In Österreich ist eine Langzeitarchivierung der Daten im Geisteswissenschaftliches Asset Management System GAMS der Universität Graz möglich, jedoch ist diese Dienstleistung primär für Projekte und Kooperationen der Universität Graz vorgesehen. Ähnlich archiviert das Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) der österreichischen Akademie der Wissenschaften die Daten ihrer DSE in der Datenbank ARCHE.
In Deutschland ist insbesondere Textgrid als grosses kuratiertes Repositorium für XML-Daten zu erwähnen. Textgrid erlaubt die Suche nach Metadaten und das Herunterladen der Daten, jedoch nicht ihre Darstellung. In Deutschland bieten zudem verschiedene Universitäten und Akademien Text-Repositorien (nicht zwingend für DSE) an, einen Überblick bietet Text+, ein Konsortium der Nationalen Forschungsdateninfrastruktur (NFDI).
Archivierung als Datensicherung
Neben disziplinär spezifischen Datenbanken wie dem DaSCH oder GAMS ist es auch möglich, die Daten ohne oder mit minimaler fremder Kuratierung in einer wissenschaftlichen Datenbank abzulegen. Hierfür bietet sich etwa die von CERN und OpenAIRE gewartete Datenbank Zenodo an. Eine Strukturierung oder Kuratierung der Daten ist nur bedingt möglich und muss durch das Projekt selbst durchgeführt werden. Viele Projekte entscheiden sich darum, 'Datenbankdumps', also unkuratierte Abbilder der eigenen Datenbank, auf Zenodo abzulegen. Diese Kopien können versioniert werden und erhalten als ganzes eine DOI, d.h. ebenfalls einen persistenten, zentral registrierten Ansteuerungspunkt im Internet. Ein Beispiel ist etwa der Datenbankdump des etwas älteren Projektes Cædmon’s Hymn A multimedia study, edition and archive, das unter der DOI 10.5281/zenodo.1226549 auf Zenodo gesichert wurde. Für Projekte, die mit GitHub arbeiten (das kein FAIR repository ist, sich aber im Workflow für verschiedenen Formen der Sicherung anbietet), existiert für die Langzeitsicherung auch eine Schnittstelle mit Zenodo.
Auf ähnliche Weise wie Zenodo können auch andere Daten-Repositorien wie OLOS oder bald auch SWISSUbase genutzt werden. Ein bereits erwähntes Beispiel, in dem die Datenarchivierung und die statische Präsentation der Daten Hand in Hand geht, ist das GitHub-Repositorium der DSE Arthur Schnitzler Briefe und weiterer Projekte, die das tool DSE-Static-Cookiecutter verwenden. Die Quelldaten auf GitHub werden mit dessen Hilfe über eine weitere GitHub-Instanz zu einer statischen Website weiterverarbeitet. Wie im Zusammenhang mit statischen Präsentationen via GitHub vermerkt, können Datenschutz-Bedenken gegen die Verwendung von GitHub sprechen. Alternativen sind GitLab-Instanzen von öffentlichen Institutionen, die nach dem selben Prinzip wie GitHub funktionieren, jedoch auf eigenen institutionellen Servern liegen und dadurch die komplette Kontrolle über die Daten erlauben.
Der SNF gibt eine Übersicht über empfehlenswerte Repositorien, die ihre Anforderungen an open research data Standards erfüllen.
Archivieren/Teilen von Transkriptionsdaten
Für den spezifischen Nachnutzungszweck, ATR-Modelle zu trainieren, können im Repositorium htr-united PAGE- und Alto-XML-Daten abgelegt werden (auch txt-Daten sind dort willkommen, solche fallen aber in den hier beschriebenen Workflows nicht an).
Einen breiteren Nachnutzungszweck verfolgt transcriptiones, das es primär Historiker:innen erlaubt, anderswo nicht veröffentlichte Transkriptionen von Quellen einfach abzulegen und zugänglich zu machen. Eine Beschränkung von Datenformaten gibt es nicht, die rechtlichen und technischen Hürden zur Publikation werden absichtlich sehr niedrig gehalten (generische Darstellung, keine Faksimiles). Da DSE-Projekten in der Regel ihre Daten bereits anderswo präsentieren und archivieren, ist transcriptiones eher als zusätzliche Ablagemöglichkeit zu verstehen.
Archivierung/Teilen von Metadaten
Sogenannte Metadaten-Aggregatoren vernetzen Metadaten miteinander und Verweisen auf deren Ressourcen zurück. Besonders hervorzuheben ist der Aggregator correspSearch, der Korrespondenz-Metadaten (Personen, Orte, Sende- und Empfangsdaten etc.) von 490 DSE zusammenträgt (Stand 2024). Die Metadaten müssen vor Übergabe an correspSearch aus der TEI/XML-Codierung CorrespDesc in das Correspondence Metadata Interchange-Format (CMIF) übertragen werden. Wichtig für das Teilen der Metadaten mit correspSearch ist deshalb, von Anfang an Korrespondenzen nach den Codierungsrichtlinien des TEI/XML-Elements CorrespDesc auszuzeichnen.
Ein weiterer Metadaten-Aggregator ist die Schweizer Plattform Metagrid, die biographische Daten geisteswissenschaftlicher Online-Ressourcen vernetzt. Es ist besonders attraktiv für Schweizer DSE-Projekte, da bereits verschiedene Schweizer DSE, Datenbanken, Archive und Bibliotheken ihre Metadaten hier teilen.
Hilfreich für Ortsnamen kann der Metadaten-Aggregator GeoNames sein: Diese Datenbank verzeichnet aggregierte Geografika aus diversen Quellen und lässt auch Bearbeitung und Verbesserung der Einträge zu.
Bekannt- und Zugänglichmachen
Das Teilen der Metadaten dient nicht nur der Vernetzung von open linked data, es macht auch auf ein Projekt aufmerksam. Letztlich sollten zu diesem Zweck Projektinformationen möglichst breit gestreut werden. Dies kann dadurch geschehen, indem das Projekt bei Fertigstellung den großen Übersichten und Sammlungen von DSE, die in diesem Handbuch erwähnt wurden, gemeldet werden. Besonders wichtig erscheint uns dabei der Catalogue Digital Editions, da dieser die Editionsdaten mit dem German Library Network (DBIS) vernetzt; es ist zu hoffen, dass ähnliche Lösungen auch für nicht-deutsche Bibliotheksnetzwerke gefunden werden. Ansonsten ist es sinnvoll, DSE selbst den relevanten Bibliotheksnetzwerken als Online-Ressource zu melden, so dass sie über Bibliothekssuchen einfach auffindbar sind.