GHGA Arbeitsgruppen

Die Entwicklung von Software ist zu gleichen Teilen Wissenschaft und Kunst. GHGA ist da keine Ausnahme, auch wir müssen ein kreatives Gleichgewicht zwischen vielen Aspekten und Anforderungen finden:

Einerseits möchten wir die best mögliche Version unseres Genomarchivs entwickeln. Andererseits ist GHGA ein langfristiges Projekt, so dass die Möglichkeit zur Wartung und Erweiterung ein wichtiger Aspekt ist. Unsere Softwarelösungen sollten einfach umzusetzen sein, um die Anbindung neuer Datenknoten an unser Netz zu ermöglichen. Gleichzeitig müssen wir die nötige Flexibilität bieten, um uns an die lokal verfügbaren Ressourcen und Infrastrukturen anzupassen. Außerdem sollen die von uns entwickelten Produkte nicht nur von uns selbst genutzt werden, sondern wir möchten auch der breiteren nationalen und internationalen Forschungs- und Gesundheitsgemeinschaft dienen.

Alles beginnt mit der richtigen Kultur in der Softwareentwicklung. Die kontinuierliche Optimierung unserer agilen Entwicklungsprozesse geht dabei Hand in Hand mit DevOps (Entwicklung und Betriebs)-Praktiken. Aus diesem Grund stimmen wir unsere Aktivitäten eng mit der Arbeitsgruppe 'Betrieb der Datenknoten' ab. Ein weiterer wichtiger Aspekt bei der Bewältigung der oben genannten Herausforderungen ist die Wahl fortschrittlicher und dennoch robuster Architekturmuster. Aus diesem Grund implementieren wir, vom ersten Tag an, eine Domänen-gesteuerte Microservice-Architektur. Diese ist nicht nur einfach zu pflegen, sondern erleichtert auch Umstrukturierungen, die im Laufe des Projektes notwendig werden können. Um unabhängig von einem bestimmten Cloud-Anbieter zu sein und einen reibungslosen kontinuierlichen Einsatz zu ermöglichen, setzen wir außerdem auf das Container Verwaltungssystem Kubernetes und sein Ökosystem. Schließlich bemühen wir uns sehr um die Anlehnung an nationale und internationale Software-Standards und wollen deren Entwicklung aktiv vorantreiben, indem wir uns an den Bemühungen der NFDI, ELIXIR Europe, und der GA4GH beteiligen.

Produkte und Erfolge

  • Open Source Microservices: Wir sind dabei, eine Reihe von Diensten für den sicheren Austausch von Genomikdaten aufzubauen. Diese Dienste werden für die Gemeinschaft entwickelt und sind frei zugänglich (Open Source). Sie finden sie hier: https://github.com/ghga-de
  • DataMeta: Die gemeinsame Nutzung von Daten ist ein Kernziel von GHGA. Es ist auch ein entscheidender Bestandteil im Kampf gegen die SARS-CoV-2-Pandemie. Zu diesem Zweck haben wir das COGDat-Portal entwickelt: eine Forschungsinitiative zur Sammlung, Speicherung und Auswertung aller in Deutschland produzierten SARS-CoV-2 Virus Sequenzdaten. Weitere Informationen finden Sie unter: https://cogdat.de/

Der föderale Charakter von GHGA erfordert Fachwissen vor Ort, wenn es um die Vorgänge auf Produktionsebene geht. Diese Tätigkeiten sind in zwei Hauptbereiche unterteilt: (1) Data Stewardship (Datenverwaltung) und (2) DevOps-Vorgänge (Entwicklung und Betrieb). Die GHGA-Produktionsarbeit erfordert eine enge Zusammenarbeit dieser beiden Gruppen für die Durchführung der täglichen GHGA-Aktivitäten.

Data Stewardship (Datenverwaltung). Einer der Schwerpunkte an dem die Arbeitsgruppe arbeitet sind die Details der Helpdesk-Struktur und -Arbeitsweise. Die Data Stewards an den einzelnen Datenzentren bilden das GHGA-Helpdesk-Team und unterstützen die Nutzer bei der Datenübermittlung und bei Anfragen zum Datenzugriff. Die enge Zusammenarbeit mit den Sequenzierzentren gewährleistet eine direkte Verbindung zu den wichtigsten Datenlieferanten von GHGA. 

DevOps (Entwicklung und Betrieb). In der ersten Phase von GHGA werden die DevOps-Vorgänge zusammen mit der Software & Infrastruktur Arbeitsgruppe (siehe unten) durchgeführt. Auf diese Weise wird die Bereitstellungs- und Betriebsstrategie eng mit der Softwareentwicklung abgestimmt. 

Alle Prozesse innerhalb des Datenknoten-Betriebsteams werden anhand von Standardarbeitsanweisungen (SOPs) organisiert, die ein wesentliches Instrument sind, um sicherzustellen, dass die Datenknoten einzeln und gemeinsam auf reproduzierbare und sichere Weise arbeiten.

Das ELSI (Ethische, Legale und Soziale Aspekte)-Team besteht aus Rechtswissenschaftlern und Ethikforschern. In enger Zusammenarbeit entstehen so die Grundlagen für den ethischen und rechtlichen Kontext von GHGA. Gemeinsam stellen wir die notwendigen ethischen und rechtlichen Dokumente für GHGA bereit (z. B. Einverständniserklärungen, Strategiepapiere und Richtliniendokumente). Damit wollen wir die rechtliche Umsetzung und Interoperabilität von GHGA sicherstellen. Des Weiteren erkundet die Arbeitsgruppe Strategien zur Einbeziehung von Patienten und Betroffenen in die Konzeption und Steuerung von GHGA, um eine breite und dauerhafte gesellschaftliche Unterstützung für das Projekt zu erreichen. 

Das Ethik-Team arbeitet an Materialien für Einwilligungserklärungen, die es Datenproduzenten ermöglichen sollen, ihre Daten künftig über GHGA zu teilen. Zusätzlich wird ein Leitfaden erstellt, mit dem bereits vorhandene Einwilligungsformulare mittels neuer Module für die Zwecke von GHGA erweitert werden können. In Zusammenarbeit mit Patientenvertretern werden Informationsressourcen für Patienten entwickelt und Beiträge zu ethischen und rechtlichen Fragen gesammelt. Das Ergebnis wird ein Richtlinienvorschlag (white paper) sein, in dem beschrieben wird, wie Patienten in die GHGA-Projektführung einbezogen werden können, um so das Vertrauen der Beteiligten aufzubauen und zu erhalten. 

Das Rechts-Team konzentriert sich auf die Rechtsgrundlagen für die Datenverarbeitung und die bereits erteilten Einwilligungen. Wir arbeiten auch an Risikobewertungen, De-Identifizierungs- und Anonymisierungsmethoden und einem möglichen Verhaltenskodex, um den Projektführungsrahmen für GHGA umzusetzen und die rechtliche Interoperabilität für die Datenverarbeitung innerhalb der EU und in internationalen Datenräumen zu verbessern.

 Produkte and Erfolge:

GHGA ist in ein Netzwerk nationaler und internationaler Initiativen wie GDI, fEGA und genomDE eingebettet. Wir sind daher bestrebt, Lösungen für den sicheren Austausch von humanen Omics-Daten im Einklang mit diesen Initiativen zu entwickeln.

Unsere GDI-Arbeitsgruppe widmet sich der Anpassung an die Europäische Genomdateninfrastruktur (GDI) - ein Schlüsselprojekt im Rahmen von GHGAs Bemühungen zur Interoperabilität. Die GDI-Initiative zielt darauf ab, ein grenzüberschreitendes, miteinander verbundenes Netzwerk nationaler Genom-Sammlungen zu schaffen. Damit soll das Ziel der 1+ Million Genome (1+MG) Initiative erreicht werden. Als deutscher Knotenpunkt innerhalb von GDI stellt unsere GDI-Arbeitsgruppe sicher, dass die von GHGA entwickelte Infrastruktur mit den GDI-Knotenpunkten in ganz Europa kompatibel ist.

Im Rahmen der GDI-Arbeitsgruppe konzentrieren wir uns auf die Angleichung von technischen und Metadaten-Aspekten. Auf der technischen Seite integrieren wir das Starter Kit von GDI mit unseren bestehenden GHGA-Diensten. Das Starter Kit bietet wichtige Dienste wie Datenfindung, Zugriffsmanagement, sichere Speicherung und Verarbeitung. Dazu verknüpfen wir unser Datenzugriffsmanagement und die sichere Speicherung mit den Datenfindungs- und -verarbeitungsdiensten von GDI. Derzeit prüfen wir die Verwendung von Beacon v2 für die Datensuche in GHGA. Im Bereich der Metadaten gewährleisten wir den Anschluss an das zentralisierte Benutzerportal von GDI, das Metadaten aus den verschiedenen Knotenpunkten für die Datensatzsuche zusammenfasst. 

Produkte und Erfolge

  • Proof-of-Concept- Implementierung des GDI Starter Kits 
  • Zusammenarbeit an Säule III des GDI-Anwendungsfalls „föderiertes Lernen"

Die Metadaten-Arbeitsgruppe liefert das Modell für die in GHGA gespeicherten Daten und ist eine gemeinsame Anstrengung der konzeptionellen und technischen Abteilungen von GHGA. Das Team bringt Expert:innen mit umfangreichen Kenntnissen aus verschiedenen Bereichen zusammen, die in die Definition des GHGA-Metadatenschemas einfließen, das als Rahmen für das GHGA Metadatenmodell dient. 

Ausgangspunkt der Arbeitsgruppe war die Evaluierung bereits bestehender und gut etablierter Metadatenmodelle, wobei der Schwerpunkt auf dem European Genome-phenome Archive (EGA) sowie den Bereichen Krebs und Seltene Erkrankungen lag. Mit dem Vorwissen aus verschiedenen Portalen wurde ein Prototyp erstellt und in mehreren Feedback- und Testrunden verfeinert. Das GHGA-Metadatenschema ist auf GitHub offen zugänglich. 

Unser Ziel ist, die GHGA-Metadaten FAIR zu machen, indem wir etablierte und weit verbreitete Ontologien und Vokabulare verwenden, die unseren unterschiedlichen Fachgemeinschaften bei der Beschreibung ihrer Daten sowie bei der Suche nach Daten helfen. Alle Ontologien und Vokabulare werden auf der Grundlage ihrer Wartung und ihres Inhaltsreichtums mit Hilfe von https://fairsharing.org bewertet. Die ermittelten Metadaten, Ontologien und Vokabulare wurden in unserem Metadatenschema strukturiert, das technisch mit Hilfe der Linked Data Modelling Language umgesetzt wurde. LinkML hilft uns dabei, das Metadatenschema an einer Stelle zu erstellen und auch zu aktualisieren, und stellt dem technischen Bereich von GHGA Definitionen des Schemas in verschiedenen Modellierungssprachen, wie JSON und RDF, zur Verfügung.

Erfolge & Produkte

 

Datenwissenschaftler, Forschende der Biomedizin und Ärzt:innen aus über 20 Institutionen arbeiten bei GHGA zusammen, um dieses ambitionierte Projekt in die Praxis umzusetzen. Sie bilden ein interdisziplinäres Team aus über 80 Mitgliedern, die sich in sehr unterschiedlichen Arbeitsbereichen von GHGA engagieren.

Um einen zielgerichteten Arbeitsablauf zu gewährleisten, unterstützt das Projektmanagement Team die Mitarbeitenden aller anderen Arbeitsgruppen, wo immer es möglich ist. Das beinhaltet gruppenübergreifende administrative Aufgaben, wie z.B. Finanzangelegenheiten und Personaleinstellung. Zusätzlich unterstützt das Projektmanagement die Arbeitsbereiche bei organisatorischen Angelegenheiten (z.B bei der Berichterstattung), bei der Entwicklung von gesetzlichen Rahmenbedingungen, wie auch bei der Organisation von internen und externen Meetings. Des Weiteren ist das Projektmanagement Team in die Projektsteuerung eingebunden und organisiert regelmäßige Treffen mit dem Direktorium und der Wissenschaftlichen Steuerungsgruppe.

An der Schnittstelle zwischen dem GHGA Konsortium und der NFDI, bringt sich das Projektmanagement Team auch auf unterschiedlichen Ebenen in die Arbeit diverser NFDI Gremien ein

Erfolge & Produkte

  • 3 Jahrestagungen (2021, 2022, 2023)
  • 3 Runden Interne Berichterstattung
  • 3 Runden Flex Funds Aufrufe
  • DFG Zwischenbericht 2023

GHGA nutzt eine Vielzahl von Kommunikationskanälen. So erreichen wir unterschiedliche Zielgruppen mit der gleichen Botschaft: Wenn wir die richtigen Sicherheitsmaßnahmen treffen (worauf wir bei GHGA großen Wert legen), ist das Teilen von Daten sicher und entscheidend für den Fortschritt in der Wissenschaft.

Die Entwicklung der GHGA Infrastruktur ist sowohl auf die Bedürfnisse der Forschungsgemeinschaft abgestimmt, als auch auf die der Ärzt*innen und Forschenden an Kliniken. GHGA steht dafür in engem Kontakt mit den Nutzer*innen und Herstellern von Omics-Daten, die oftmals an Kliniken generiert werden. Nur wenn wir wissen, was Forschende unterschiedlicher Disziplinen brauchen, können wir eine Plattform bereitstellen, die allen Anforderungen genügt.

Mit Vorträgen auf Konferenzen und Workshops wollen wir nicht nur für GHGA werben, sondern auch die Grundsätze des FAIRen Datenaustauschs fördern. Die FAIRe Datennutzung bedarf Kollaboration. Kollaboration zwischen Wissenschaftler*innen und Kliniker*innen. Aber auch zwischen verschiedenen Initiativen, um sicherzustellen, dass nationale und internationale Bemühungen aufeinander abgestimmt sind und idealerweise ähnlichen Standards folgen. Ziel unserer Kommunikationsstrategie ist es, die Genomforschung in deutschen Einrichtungen zu vernetzen.

GHGA liegt der Austausch mit der Öffentlichkeit am Herzen. Wir wollen das Verständnis für und Vertrauen in die Forschung erhöhen und damit letztlich fundierte Entscheidungen über die gemeinsame Nutzung von Daten ermöglichen. Genomforschung kann lebensrettend sein, ist interessant und betrifft uns alle. Daher suchen wir den Dialog mit der Öffentlichkeit, unter anderem durch lokale Veranstaltungen oder unseren Podcast „Der Code des Lebens“!

Erfolge & Produkte

Dem Training-Team liegt es am Herzen, unsere Nutzer:innen und alle Interessierten bei allen Themen zu unterstützen, die für die gemeinsame Nutzung von Daten im Bereich der biomedizinischen Forschung und der Gesundheitsfürsorge sowie der damit verbundenen bioinformatischen Methoden relevant sind. Daher haben wir es uns zur Aufgabe gemacht, Schulungs- und Lernmöglichkeiten in diesen Bereichen anzubieten. 

Unser Material reicht von ELSI-Themen wie Einwilligungen und Tools für Einwilligungserklärungen über technische Themen rund um Metadaten, bioinformatische Analyse von DNA und RNA bis hin zu guter Praxis bei Studiendesign und statistischer Analyse. Gemeinsam mit dem GHGA-Outreach-Team wollen wir unsere Nutzer:innen - und ein interessiertes Publikum - auch über Themen informieren, die uns am Herzen liegen, z.B. FAIR Data Sharing und allgemeines Forschungsdatenmanagement, indem wir Kurse und zusätzliches Material zu diesen interessanten Themen anbieten.

Ein wichtiger Teil der Aufgabe von GHGA ist die Erleichterung der gemeinsamen Nutzung von Genomdaten (und anderen Omics-Daten) von verschiedenen Datenerzeuger:innen. Um dies zu ermöglichen, müssen die Daten in das GHGA-Datenportal hochgeladen werden. Sobald die Daten dort sicher gespeichert sind, können sie durchsucht, heruntergeladen (nach erfolgreicher Beantragung einer Genehmigung) und mit zunehmender Funktionalität der GHGA-Dienste sogar mit Hilfe spezieller bioinformatischer Workflows, die von GHGA und der Gemeinschaft entwickelt wurden, analysiert werden.

Der Prozess des Hochladens von Daten in einen Portal kann entmutigend sein, da er die Vorbereitung der Daten vor der Einreichung, das Hochladen der begleitenden Metadaten und das Wissen, wie die Daten technisch hochgeladen werden, umfasst. Auch das Durchsuchen der hochgeladenen Daten, das Auffinden der richtigen Datensätze für die eigene Analyse und die anschließende Beantragung der Genehmigung zum Herunterladen können durch die Anleitung der Macher:innen der Plattform erleichtert werden.

Dieses Nutzererlebnis so reibungslos wie möglich zu gestalten, ist eines der Hauptziele des GHGA Training-Teams. Daher werden wir Schulungsmaterial zur Verfügung stellen, das die Navigation durch alle Aspekte des Datenportals erläutert. In späteren Entwicklungsstadien - wenn Workflows für die Datenanalyse und andere Ressourcen hinzugefügt wurden - werden wir auch hierfür Schulungs- und Unterstützungsmaterial bereitstellen. Die Schulungen werden in verschiedenen Varianten angeboten: Sie können zwischen Live-Webinaren, Video-Tutorials auf Abruf oder textbasierten Materialien wählen - je nachdem, was Ihnen am besten gefällt.

Achievements & Products

Course FAIR in (biological) practice: https://www.youtube.com/playlist?list=PLXMwmQxyLByV8wQ4i9NwG_cDaJGc5Nrhj 

Webinare:

Standardisierte NGS-Workflows bei der GHGA

Bei der GHGA widmet sich der Workflow-Workstream der Standardisierung und Harmonisierung von Next Generation Sequencing (NGS)-Analyse-Workflows, um einen qualitativ hochwertigen, FAIR-konformen Datenaustausch in der deutschen Life-Science-Forschungsgemeinschaft zu unterstützen. Anstatt neue Workflows von Grund auf zu entwickeln, verbessern und erweitern wir bestehende, von der Community entwickelte Lösungen und orientieren uns dabei eng an etablierten Standards wie GA4GH, nf-core und Snakemake.

Unser Ziel ist es, die einheitliche Verarbeitung von Sequenzier-Rohdaten zu gebrauchsfertigen Forschungsergebnissen zu ermöglichen und die Konsistenz und Vergleichbarkeit aller eingereichten Datensätze zu gewährleisten.

Zuverlässige studienübergreifende Analysen ermöglichen

Standardisierte Arbeitsabläufe sind der Schlüssel zur Ermöglichung zuverlässiger studienübergreifender Analysen. Um dies zu unterstützen, durchlaufen alle an das GHGA-Archiv übermittelten Daten automatisierte Qualitätskontroll-Pipelines, die Datenqualitätsberichte erstellen, die über das GHGA-Datenportal zugänglich sind. Diese Berichte ermöglichen es den Nutzern, Datensätze anhand von Qualitätskriterien, die für ihre spezifischen Forschungsfragen relevant sind, zu filtern und abzufragen.

Sicherstellung von Qualität und Reproduzierbarkeit

Datenqualität und Reproduzierbarkeit stehen im Mittelpunkt unserer Workflow-Strategie. Jede Pipeline wird strengen Tests zur kontinuierlichen Integration und Bereitstellung (CI/CD) unterzogen, um die technische Stabilität zu gewährleisten. Darüber hinaus testen wir die biologische Leistung anhand von synthetischen und experimentellen Datensätzen, wie z. B. synthetischen Seracare-Proben, CHM-Zelllinien und Genome in a Bottle (GiaB)-Referenzen.

Bei der Entwicklung einsatzfähiger und skalierbarer Pipelines optimieren wir die Parameter für die Ressourcennutzung auf der Grundlage von Provenance- und Trace-Daten, um den Rechenaufwand zu minimieren, insbesondere bei der Verarbeitung großer Datenmengen.

Unterstützung eines FAIR Data Ecosystems

Unsere Bemühungen gehen über die Entwicklung von Pipelines hinaus. Wir leisten einen aktiven Beitrag zu einem robusteren FAIR-Daten-Ökosystem, indem wir:

  • Entwicklung einer FAIR-Bewertungsmetrik zur Förderung umfangreicher, qualitativ hochwertiger Metadateneinreichungen
  • Implementierung automatisierter Tools zur Validierung von Metadaten
  • Bereitstellung von Schulungsmaterial, Webinaren und anderen Ressourcen, um den Nutzern bei der Anwendung von Best Practices zu helfen

 

Alle GHGA-Arbeitsabläufe sind open-source und auf Gemeinschaftsplattformen registriert, was sie auffindbar, zugänglich, interoperabel und wiederverwendbar macht - Schlüsselprinzipien, die die Umwandlung von GHGA von einem sicheren Datenarchiv in einen vollständig integrierten, nationalen Datendienstleister leiten.

Hier finden sie weitere Informationen über unsere von der Gemeinschaft betriebenen Projekte und Analysepipelines.