Interoperabilitätsanalyse des GHGA-Metadatenmodells
- 19 Feb. 2026
- Karoline Mauer, Nina Gasparoni
Interoperabilität zwischen Metadatenmodellen wird immer wichtiger, da Genomdateninfrastrukturen wachsen und zunehmend föderiert arbeiten. In unserer aktuellen Veröffentlichung in Scientific Data analysieren wir, wie das GHGA-Metadatenmodell im Vergleich zu vier etablierten Modellen im Bereich der Genomik aufgestellt ist.
Das GHGA-Metadatennmodell ermöglicht es Nutzenden, ihre Metadaten entlang eines bottom-up organisierten experimentellen Workflows zu strukturieren und zu standardisieren. Gleichzeitig wird sichergestellt, dass alle eingereichten Daten anonym bleiben. In seiner Grundstruktur ist es mit dem European Genome-phenome Archive (EGA) vergleichbar, geht jedoch darüber hinaus: Es enthält zusätzliche Informationen zur Beschreibung der untersuchten Person, Attribute zur Beschreibung des Experiments sowie eine eindeutige Verknüpfung zwischen Probe, Rohdaten und prozessierter Datei.
Um zu untersuchen, wie gut das GHGA-Metadatenmodell mit bestehenden Standards übereinstimmt, haben wir sogenannte Crosswalk-Analysen durchgeführt, also systematische Vergleiche inhaltlich entsprechender Metadatenfelder zwischen verschiedenen Modellen. Dabei lag der Fokus nicht auf der strukturellen Ausgestaltung, sondern auf der Bedeutung und dem Informationsgehalt einzelner Felder. Durch den Abgleich der zugeordneten Eigenschaften konnten wir einen gemeinsamen Kern an Omics-Metadaten identifizieren, der auch mit MINSEQE (Minimum Information About a High-Throughput Sequencing Experiment) übereinstimmt, einem international anerkannten Berichtsstandard.
Anschließend haben wir die Analyse umgekehrt und Eigenschaften aus den anderen Modellen auf das GHGA-Metadatenmodell abgebildet, um mögliche Lücken zu identifizieren. Das Ergebnis zeigt, dass das GHGA-Modell alle erforderlichen Attribute der verglichenen Modelle abdeckt. Einzelne Angaben, etwa zu Sequenzierungs- oder Probenahmedaten, sind nicht als standardisierte Felder definiert, können jedoch über die flexiblen Komponenten des Modells erfasst werden.
Unsere Studie unterstreicht damit die Robustheit, Interoperabilität und Erweiterbarkeit des GHGA-Metadatenmodells und zeigt, dass es gut in die bestehende Landschaft etablierter Standards für den Austausch genomischer Daten eingebettet ist.