Zur Dokumentation von Forschungsdaten gehören eine konsistente Benennung der Dateien sowie das Hinzufügen zusätzlicher Informationen, die das Forschungsvorhaben und den Erhebungsprozess beschreiben – sogenannte Metadaten. Auch Begleitmaterialien zum Forschungsprozess sind essenzieller Bestandteil der Dokumentation. Im Wesentlichen dient die Dokumentation als Beschreibung der Daten und fungiert ähnlich einer Bedienungsanleitung.
Warum?
Folgende Ziele sollen mit einer Datendokumentation erreicht werden [1]:
- Erhalt der Interpretierbarkeit und Nachvollziehbarkeit der Daten
- Sichtbarkeit und Wiederauffindbarkeit der Daten (z.B. in Datenbestandskatalogen)
Durch die Dokumentation können Dritte die Nachnutzbarkeit der Forschungsdaten einschätzen. Sie stellt die Nachvollziehbarkeit und Rekonstruierbarkeit von Entscheidungen sicher. Aus diesem Grund ist die Dokumentation auch für Projektmitarbeitende unverzichtbar, besonders in Projekten mit mehreren Teammitgliedern und im Falle des Ausscheidens von Mitgliedern aus dem Projekt. Dennoch können Nachfragen entstehen, deshalb ist eine dauerhafte Kontaktmöglichkeit zu den Datenverantwortlichen anzugeben.
Die Verwendung einer umfassenden Datenbeschreibung ermöglicht eine effektivere Arbeitsweise und erhöht die Auffindbarkeit der Forschungsdaten. Sie schafft Klarheit und Verbindlichkeit. Durch die Nutzung von Metadatenstandards und einem einheitlichen Vokabular (z.B. durch die Nutzung eines Thesaurus) sowie der Implementierung einer Datenmanagementsoftware, wie einem elektronischen Laborbuch, werden u.a. folgende Vorteile erzielt:
- erhebliche Zeitersparnis beim Archivierungs- und Publikationsprozess
- Minimierung von Verwechslungen der Dateien
- Sicherstellung einer angemessenen und sorgfältigen Dokumentation, die den Prinzipien guter wissenschaftlicher Praxis entspricht
Wie?
Die Datendokumentation umfasst die detaillierte Darlegung, wie Daten erhoben, aufbereitet, analysiert und archiviert werden. Diese Beschreibung enthält auch Informationen über die Nutzung von Metadatenstandards und das verwendete Vokabular. Darüber hinaus wird eine Erklärung zur Codierung der Daten gegeben. Diese Beschreibungen richten sich an den Anforderungen und Standards der jeweiligen Fachdisziplin aus.
Diese Gesichtspunkte sollten bei der Dokumentation berücksichtigt werden
Forschungsvorhaben (Projekttitel, beteiligte Personen)
- Kontext der Erhebung (Projektziele, Hypothesen)
- Erhebungsmethode (Sampling, Instrumente, Hard- und Software, sekundäre Datenquellen, Ort und Zeitraum der Erhebung)
- Struktur der Daten und deren Beziehungen (Datenaufbau und -inhalt, Zusammenhänge zwischen Datensätzen, Datenformate)
- Qualitätsmaßnahmen (Bereinigung, Gewichtung, Datenprüfung)
- Erklärungen für Codes und Labels (Codebook)
- Datenversionen und Änderungen
- Informationen zum Zugang, Nutzungsbedingungen und Vertraulichkeit [2]
Eine Datendokumentation lässt sich auf verschiedenen Wegen erreichen. Hierzu gehören bspw. eine begleitende ReadMe-Datei, eine Metadatenbank, ein projektinternes Wiki, ein (elektronisches) Laborbuch, ein Datenmanagementplan (DMP), eine entsprechende Dateibenennung innerhalb der Ordnerstruktur oder eine entsprechende Dokumentation innerhalb der Forschungsdaten-Datei selbst bzw. in den Metainformationen der Datei.
FAIRes Forschungsdatenmanagement
Für die Organisation der Daten liefern die FAIR-Prinzipien einen Leitfaden. FAIR steht für Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel) und Reusable (Wiederverwendbar). Die FAIR-Prinzipien beziehen sich auf die Datenhaltung und auf Infrastrukturen sowie Services. Der erste Schritt zur (Wieder-)Verwendung von Daten und dem Einhalten der FAIR-Prinzipen ist die Ermöglichung des Auffindens dieser Daten.
Die Auffindbarkeit der Dateien wird durch ein systematisches Ablagesystem gewährleistet, sodass sie in verschiedenen Systemen leicht wiedergefunden werden können. Die Zugänglichkeit wird geregelt, indem klare Zugriffsregeln definiert werden, sodass nur autorisierte Personen auf die Dateien zugreifen können. Die Interoperabilität wird sichergestellt, indem Dateien und ihre Inhalte ohne Beeinträchtigungen in verschiedenen Systemen genutzt werden können. Schließlich wird die Nachnutzbarkeit erhöht, indem die Dateien so aufbereitet werden, dass sie auch von anderen Nutzenden problemlos weiterverwendet werden können.
Alle relevanten Dokumente und Dateien müssen daher sorgfältig strukturiert werden. Es geht nicht nur um FAIRe Daten, sondern genauso um FAIRe Dateien. Besonders wichtig sind daher:
- eine übersichtliche Ordnerstruktur
- klare Namenskonventionen
- eine konsistente Versionierung
Ordner- und Dateimanagement
Das Ordner- und Dateimanagement ist ein wichtiger Schritt für ein gelingendes Forschungsdatenmanagement. Folgende Leitfragen zur Aufstellung eines Ordner- und Dateibenennungssytems sollten innerhalb eines Forschungsprojektes beantwortet werden:
- Was ist zu beachten bzw. hilfreich bei der Festlegung einer Ordnerstruktur?
- Welche Datentypen sollen abgelegt werden?
- Gibt es Teilprojekte, die eigene Ordner benötigen?
Ein Ordner- und Dateibenennungssytem wird zu Beginn des Projekts (vom Team gemeinsam) geplant, sollte aussagekräftig und so einfach wie möglich sein. Nachfolgend einige allgemeine Hinweise zur Etablierung einer Ordnerstruktur:
- Balance zwischen einer möglichst flachen aber ausreichend tiefen Ordnerstruktur. Eine tiefe Ordnerstruktur erfordert viele Klicks, um die benötigte Datei zu erreichen, während eine zu flache Struktur zu einer Überfüllung der Ordner führen kann.
- Sich überschneidende Kategorien sind zu vermeiden und es sollte eine verständliche Ordnerbenennung verwendet werden.
Anregungen zur konkreten Umsetzung einer Ordnerstruktur
- Verzeichnisse und (leere) Ordner zu Beginn anlegen
- so viele wie nötig und so wenige wie möglich
- aussagekräftige und kurze Namen (+ Nummerierung)
- möglicherweise die Etablierung eines 3 Ebenen 7-Ordner–Systems
ReadMe-Datei
Sinnvoll für die Datendokumentation kann auch eine ReadMe-Datei sein. Sie hilft u.a. dabei, dass Daten korrekt interpretiert werden können und wesentliche Bearbeitungsschritte der Daten festgehalten sind. Weiterhin sind in einer ReadMe-Datei Informationen enthalten über die Datendateien im jeweiligen Ordner und wie diese strukturiert sowie benannt werden sollen. Eine Readme-Datei sollte als Textdokument (z.B. Markdown-Format .md oder als einfacher Text .txt) vorliegen.
[1] https://www.forschungsdaten-bildung.de/daten-dokumentieren
[2] https://forschungsdaten.info/themen/beschreiben-und-dokumentieren/datendokumentation