Die Blogreihe „Aus dem Maschinenraum“ widmet sich den technischen Aspekten und Herausforderungen der „Edition der fränkischen Herrschererlasse”. Anders als unsere bisherigen wissenschaftlichen Beiträge zu Funden und editorischen Erkenntnissen, fokussieren wir uns hier auf die infrastrukturellen, methodischen und technologischen Dimensionen eines digitalen Langzeitprojekts. Seit 2014 erarbeiten wir eine Neuedition der Kapitularien. Als Hybridedition konzipiert, stellt uns das Projekt vor besondere Herausforderungen: Wie gewährleisten wir die langfristige Verfügbarkeit unserer Forschungsdaten? Wie können wir nachträglich Maßnahmen zur Umsetzung der FAIR-Prinzipien in einen Arbeitsplan integrieren, der vor deren Etablierung konzipiert wurde? Wie vernetzen wir uns sinnvoll mit anderen Projekten und Infrastrukturen? Oder welche Rolle könnte KI im Projekt spielen? In kleineren Beiträgen beleuchten wir diese Fragen aus unterschiedlichen Perspektiven: vom Forschungsdatenmanagement über Vernetzungsstrategien bis hin zur technischen Infrastruktur und dem Einsatz neuer Technologien. Dabei teilen wir nicht nur Ideen und Lösungsansätze, sondern auch offene Fragen und Desiderata.
Einleitung
Der Beitrag wirft einen Blick auf die Problematik, die Umsetzung der FAIR-Prinzipien nachträglich in Langzeitprojekte zu integrieren, die vor 2016 begonnen wurden. Als die „Edition der fränkischen Herrschererlasse” 2014 startete, waren die FAIR Data Principles (Findable, Accessible, Interoperable, Reusable) noch nicht formuliert. Erst 2016 veröffentlichte die FORCE11-Community ihre wegweisenden Leitlinien für den Umgang mit Forschungsdaten (Wilkinson, M. D. et al. 2016), die sich mittlerweile auch in Förderprogrammen niedergeschlagen haben. Heute, fast ein Jahrzehnt später, stehen wir vor der Herausforderung, unser Projekt nachträglich an Standards anzupassen, die bei dessen ursprünglicher Konzeption in dieser Form noch nicht existierten.
Das Dilemma der Altprojekte
Während neu beantragte Projekte einen Datenmanagementplan (DMP) vorlegen müssen und damit die Ablage ihrer Forschungsdaten von Beginn an klären, fehlt Capitularia bislang diese Verankerung. Der ursprüngliche Arbeitsplan sah keine Ressourcen für ein FAIRes Forschungsdatenmanagement (FDM) vor – schlicht, weil diese Anforderungen bei Antragsstellung noch nicht zum Standard gehörten. Die nachträgliche Integration von FDM-Maßnahmen ist jedoch nicht nur eine konzeptionelle, sondern vor allem eine Ressourcenfrage: Wer übernimmt die Arbeit? Wo kommen die Mittel (und Zeit) her? Und wie priorisiert man diese Aufgaben gegenüber den Kernzielen des Projekts – der editorischen Arbeit selbst?
Besonders herausfordernd ist in diesem Kontext die Suche nach einem geeigneten Repositorium für die langfristige Bereitstellung unserer Forschungsdaten. Diese Entscheidung ist nicht trivial. Nur wenige (zertifizierte) Repositorien eignen sich für komplexe, TEI-XML-kodierte Editionsdaten und sind für diese einschlägig bzw. zuständig (oder auch zugänglich). Mit der Aufnahme in ein solches Repositorium sind Aufwände verbunden. Nicht nur müssen die Daten den Vorgaben des betreffenden Repositoriums entsprechend aufbereitet werden, auch stellt sich die Frage nach den langfristigen Kosten für die Datenhaltung bzw. deren dauerhafte Bereitstellung. Wer trägt solche Kosten nach dem Projektende? Welche Aufwände sind hier überhaupt zu veranschlagen? Sind diese absehbar? Und eigentlich geht es uns ja auch nicht nur um die Bereitstellung der Datenebene an sich, sondern im Idealfall sollte diese im Zusammenspiel mit einer Präsentationsschicht erhalten werden, da ohne deren Kontext die Daten für die breite Masse an Nutzenden weniger oder sogar gar nicht verständlich sind.
Für die letztgenannte Problematik gibt es – jenseits von Statifizierung und dem Abbau von Funktionalitäten – bisher keine wirklich zufriedenstellenden Antworten, für die anderen Ebenen (z.B. Bitlayer, Data Layer) aber zumindest technische Lösungen. Etablierte Repositorien wie das Heidelberger Open Research Data (heiData) u.a. für Heidelberger Digitale Editionen (heiEDITIONS) oder das Göttinger TextGrid Repository (TextGridRep) enthalten Editionsdaten und bieten im Vergleich zu fachspezifischen Lösungen unterschiedliche Vor- und Nachteile. Als Repositorium für den Bereich der historisch arbeitenden Geisteswissenschaften ist mit RADAR4Memory ein neues Angebot entstanden, das vom FIZ Karlsruhe als Partnerinstitution des NFDI-Konsortiums NFDI4Memory betrieben wird.
Sofern vorhanden und einschlägig können sich auch Repositorien anbieten, die von der eigenen Institution bereitgestellt werden. Die Universität zu Köln verfügt mit dem Data Center for the Humanities (DCH) zwar über ein solches, das auch eng mit dem CCeH als unserem technischen Partner zusammenarbeitet und als Datenzentrum der Koordinierungsstelle Digital Humanities (Nordrhein-Westfälische Akademie der Wissenschaften und der Künste) fungiert, doch liegen dessen Schwerpunkte inhaltlich eher im Bereich von AV-Daten, sodass man hier vermutlich nicht nach “unseren” Forschungsdaten suchen würde. Außerdem existierte das DCH auch in heutiger Form und mit dem gewachsenen breiten Angebotsportfolio noch nicht, als das Kapitularienprojekt begann, sodass vorab keine direkte Kollaboration geplant werden konnte. Würde man ein ähnlich gelagertes Projekt heute starten, stünde es außer Frage, das DCH und auch andere Service Provider von Beginn an mit ins Boot nehmen, Beratungen wahrzunehmen und auch eine mögliche Datenübernahme vorab zu klären.
Zenodo als pragmatische Zwischenlösung
Um die Situation zu entschärfen bzw. eine endgültige Entscheidung für ein Repositorium noch zurückzustellen, haben wir die Zenodo Community „Capitularia” eingerichtet. Dieser offene “Speicher” ist allgemein zugänglich und wird mitunter auch vom angesprochenen DCH als externer Service verwendet bzw. empfohlen. Die (zusätzliche) Ablage von Datensätzen aber auch von Publikationen auf Zenodo hat sich im Bereich der Digital Humanites und darüber hinaus als eine best practice herausgebildet. Wir legen hier projektbegleitend Transkriptionsdateien (zusätzlich zur Downloadmöglichkeit über unsere eigene Webseite), Präsentationen und wissenschaftliche Blogbeiträge ab, die dadurch DOIs erhalten und zitierbar werden. Diese Lösung bietet mehrere Vorteile, wenn auch die grundlegende Frage der langfristigen Datenhaltung weiterhin bestehen bleibt:
- Überschaubarer Aufwand und damit leichte Integration in bestehende Workflows
- Unabhängigkeit von anderen Services oder Personen
- Möglichkeit der Versionierung
- Kostenfreie, nachhaltige Ablage durch das CERN
- Automatische DOI-Vergabe für Zitierfähigkeit
- Sichtbarkeit durch Verknüpfung mit OpenAIRE (Open Access Infrastructure for Research in Europe)
Capitularia im Kontext
Durch das CCeH als technischem Partner sowie aktuell auch über eine in beiden Strukturen beschäftigte Person, ist Capitularia eng mit dem NFDI-Konsortium Text+ verbunden, welches sich auf den Bereich der Sprach- und Textdaten fokussiert und sich in der Datendomäne Editionen explizit auch den hier bereits angesprochenen Fragestellungen und Herausforderungen widmet. Text+ bietet ein umfangreiches Beratungsangebot auch zum Thema Forschungsdatenmanagement und Standards, erarbeitet Guidelines zu best practices in diesen Bereichen und veranstaltet Workshops und Schulungen. Die Text+ Registry ermöglicht zudem die strukturierte Nachweisbarkeit des Projekts und die Vernetzung mit anderen Projekten auf Meta- bzw. Normdatenebene. An Text+ partizipieren auch Anbieter von Repositorien, sodass die Ansprechpartner zumindest bekannt sind. Ebenfalls sind einige Akademien involviert, sodass auch hier die Hoffnung besteht, dass durch diese Anbindung die genannten Probleme auch gemeinsam mit anderen Akademieprojekten angegangen werden können, um so Synergien zu schaffen.
Erste Erkenntnisse und offene Fragen
Die bisher gemachten Versuche und Erfahrungen deuten darauf hin, dass eine nachträgliche oder im laufenden Betrieb stattfindende FAIRifizierung zwar bedingt möglich ist, aber auch pragmatische Lösungen erfordert. Inkrementelle oder partielle Verbesserungen scheinen realistischer in der Umsetzung, als die vollständige adhoc-Umstellung auf ein vermeintlich perfektes FDM nach allen Regeln der Kunst, welches “nebenbei” vermutlich nicht durchzuhalten wäre und an mangelnden Ressourcen scheitern könnte. Dokumentation und Transparenz der Entscheidungen sind hier essenziell.
Bereits die Formulierung der vorliegenden Schwierigkeiten und unserer Positionierung z.B. im Rahmen dieses Beitrags oder auch in der Diskussion auf Konferenzen oder mit anderen Projekten erscheint uns hilfreich, um unsere Überlegungen und Ansätze zu reflektieren und einzelne, machbare Arbeitspakete zu formulieren. Generell bleiben jedoch offene Fragen bestehen: Wenn bestimmte Aspekte oder Parameter bei der Projektplanung eben nicht von Anfang an mitgedacht und damit eingepreist werden konnten, stellt sich die strukturelle Frage, wie diese (Langzeit)Projekte unterstützt werden können, um nachträglich Maßnahmen zu integrieren und umzusetzen und somit aktuellen Standards zu entsprechen. Welche nachhaltigen Finanzierungsmodelle gibt es für die Datenhaltung und -bereitstellung nach Projektende bzw. welche Angebote müsste es (für “Altprojekte”) dahingehend geben? Die Diskussion um FAIRes Forschungsdatenmanagement in digitalen Editionen steht noch recht am Anfang – mit Beiträgen wie diesem möchten wir einen kleinen Teil zur Auseinandersetzung mit diesem Themenkomplex beisteuern.
Daniela Schulz
Referenzen und Links:
- HeiData: https://heidata.uni-heidelberg.de/dataverse/root
- HeiEDITIONS: https://www.ub.uni-heidelberg.de/publikationsdienste/digitale_editionen.html
- HeiEDITIONS Dokumentation: https://heieditions.github.io/guidelines/toc.html
- Sandra König et al. (2024): FAIRes FDM für digitale Editionen: Konzept für einen Workshop im World Café-Format. Zenodo. https://doi.org/10.5281/zenodo.11618480
- Karoline Lemke et al.: Empfehlung zur Erstellung, Bearbeitung und Publikation FAIRer Forschungsdaten in der Datendomäne Editionen. https://textplus.pages.gwdg.de/textplus-editions/guidelines_sde/
- RADAR4Memory: https://radar.products.fiz-karlsruhe.de/de/radarabout/radar4memory
- Melanie Seltmann / Sandra König (2024): Text+ @ FORGE – FAIRes FDM für digitale Editionen. In: Text+ Blog. https://doi.org/10.58079/vfb4
- TextGrid Repository: https://textgridrep.org/
- Text+: Forschungsdatenmanagement. https://text-plus.org/themen-dokumentation/forschungsdatenmanagement/
- Wilkinson, M. D. et al. (2016): The FAIR Guiding Principles for scientific data management and stewardship. In: Scientific Data 3, 160018. https://doi.org/10.1038/sdata.2016.18
- Zenodo Community Capitularia: https://zenodo.org/communities/capitularia
Empfohlene Zitierweise
