Das GHGA-Metadatenmodell

Mit diesem Modell soll die Community dabei unterstützt werden, die von ihr eingereichten genomischen Daten umfassend zu beschreiben. Gleichzeitig soll es Forschenden helfen, für sie interessante Daten abzurufen. Um dies zu erreichen, konzentrieren wir uns darauf, das Metadatenmodell auffindbar, zugänglich, interoperabel und wiederverwendbar (FAIR) zu machen, indem wir etablierte und weit verbreitete ontologische Konzepte und Terminologien verwenden. Alle Ontologien und Terminologien werden auf der Grundlage ihrer Instandhaltung  und ihres Inhalts mit maximaler Auflösung mit Hilfe von https://fairsharing.org bewertet. 

Die Implementierung unseres Metadatenkatalogs erfolgt mit der Linked Data Modelling Language (LinkML) und ist auf dem GHGA GitHub Repository für jeden offen zugänglich. Hier können Sie jede neue Version des Schemas verfolgen und auf verschiedene Artefakte, wie z. B. ein JSON-Schema, für die programmatische Umsetzung bei Ihnen vor Ort zugreifen.

Das Core-Spreadsheet erfasst drei Kategorien von Daten: 

  • Datensatz
  • Probe
  • Technische Metadaten

Datensatz kann als der gemeinsame Nenner für alle Kategorien gesehen werden. Es verweist auf die mit dem Datensatz verbundenen Metadaten, wie z. B. den Datenzugang, aber auch auf die entsprechenden technischen Daten und die Probendaten. 

Technische Metadaten enthalten experimentelle Informationen (Vorbereitung der Sequenzierbibliothek und Sequenzierungsprotokoll), Analysedaten und Dateidaten. Sie erfassen Informationen, die sich auf die technischen Aspekte eines Datensatzes beziehen. 

Die Daten zur Probe enthalten Informationen über die Herkunft der Probe. Die Probentabelle unterteilt sich in Person aka Probenspender:in, Bioprobe und die Probe selbst.

Die Daten können unter Verwendung des GHGA Submission Spreadsheet eingereicht werden. Dieses spiegelt den Metadatenkatalog wider und ermöglicht es dem GHGA-Datenportal, wertvolle Informationen über einen eingereichten Datensatz durch die Verknüpfung aller Kategorien anzuzeigen. Reichhaltig beschriebene Metadaten werden dazu beitragen, die Datensätze der Einreicher zu verbreiten und die Gemeinschaft zur Wiederverwendung der Daten zu ermutigen.

Darüber hinaus erstellt die GHGA eine Dokumentation zum Verständnis des GHGA-Metadatenmodells mit einer Beschreibung des Modells selbst, aber auch der zugrunde liegenden Konzepte und Standards.