GHGA Arbeitsgruppen

Die Entwicklung von Software ist zu gleichen Teilen Wissenschaft und Kunst. GHGA ist da keine Ausnahme, auch wir müssen ein kreatives Gleichgewicht zwischen vielen Aspekten und Anforderungen finden:

Einerseits möchten wir sehr bald eine erste Version unseres Genomarchivs einsatzbereit haben. Andererseits ist GHGA ein langfristiges Projekt, so dass die Möglichkeit zur Wartung und Erweiterung ein wichtiger Aspekt ist. Unsere Softwarelösungen sollten einfach umzusetzen sein, um die Anbindung neuer Rechenzentren an unser Netz zu ermöglichen. Gleichzeitig müssen wir die nötige Flexibilität bieten, um uns an die lokal verfügbaren Ressourcen und Infrastrukturen anzupassen. Außerdem sollen die von uns entwickelten Produkte nicht nur von uns selbst genutzt werden, sondern wir möchten auch der breiteren nationalen und internationalen Forschungs- und Gesundheitsgemeinschaft dienen.

Alles beginnt mit der richtigen Kultur in der Softwareentwicklung. Die kontinuierliche Optimierung unserer agilen Entwicklungsprozesse geht dabei Hand in Hand mit DevOps (Entwicklung und Betriebs)-Praktiken. Aus diesem Grund stimmen wir unsere Aktivitäten eng mit der Arbeitsgruppe 'Betrieb der Datenzentren' ab. Ein weiterer wichtiger Aspekt bei der Bewältigung der oben genannten Herausforderungen ist die Wahl fortschrittlicher und dennoch robuster Architekturmuster. Aus diesem Grund implementieren wir, vom ersten Tag an, eine Domänen-gesteuerte Microservice-Architektur. Diese ist nicht nur einfach zu pflegen, sondern erleichtert auch Umstrukturierungen, die im Laufe des Projektes notwendig werden können. Um unabhängig von einem bestimmten Cloud-Anbieter zu sein und einen reibungslosen kontinuierlichen Einsatz zu ermöglichen, setzen wir außerdem auf das Container Verwaltungssystem Kubernetes und sein Ökosystem. Schließlich bemühen wir uns sehr um die Anlehnung an nationale und internationale Software-Standards und wollen deren Entwicklung aktiv vorantreiben, indem wir uns an den Bemühungen der NFDI, ELIXIR Europe, und der GA4GH beteiligen.

Produkte und Erfolge

  • Open Source Microservices: Wir sind dabei, eine Reihe von Diensten für den sicheren Austausch von Genomikdaten aufzubauen. Diese Dienste werden für die Gemeinschaft entwickelt und sind frei zugänglich (Open Source). Sie finden sie hier: https://github.com/ghga-de
  • DataMeta: Die gemeinsame Nutzung von Daten ist ein Kernziel von GHGA. Es ist auch ein entscheidender Bestandteil im Kampf gegen die SARS-CoV-2-Pandemie. Zu diesem Zweck haben wir das COGDat-Portal entwickelt: eine Forschungsinitiative zur Sammlung, Speicherung und Auswertung aller in Deutschland produzierten SARS-CoV-2 Virus Sequenzdaten. Weitere Informationen finden Sie unter: https://cogdat.de/

Der föderale Charakter von GHGA erfordert Fachwissen vor Ort, wenn es um die Vorgänge auf Produktionsebene geht. Diese Tätigkeiten sind in zwei Hauptbereiche unterteilt: (1) Data Stewardship (Datenverwaltung) und (2) DevOps-Vorgänge (Entwicklung und Betrieb). Die GHGA-Produktionsarbeit erfordert eine enge Zusammenarbeit dieser beiden Gruppen für die Durchführung der täglichen GHGA-Aktivitäten.

Data Stewardship (Datenverwaltung). Einer der Schwerpunkte an dem die Arbeitsgruppe arbeitet sind die Details der Helpdesk-Struktur und -Arbeitsweise. Die Data Stewards an den einzelnen Datenzentren bilden das GHGA-Helpdesk-Team und unterstützen die Nutzer bei der Datenübermittlung und bei Anfragen zum Datenzugriff. Die enge Zusammenarbeit mit den Sequenzierzentren gewährleistet eine direkte Verbindung zu den wichtigsten Datenlieferanten von GHGA. 

DevOps (Entwicklung und Betrieb). In der ersten Phase von GHGA werden die DevOps-Vorgänge zusammen mit der Software & Infrastruktur Arbeitsgruppe (siehe unten) durchgeführt. Auf diese Weise wird die Bereitstellungs- und Betriebsstrategie eng mit der Softwareentwicklung abgestimmt. 

Alle Prozesse innerhalb des Datenknotenpunkt-Betriebsteams werden anhand von Standardarbeitsanweisungen (SOPs) organisiert, die ein wesentliches Instrument sind, um sicherzustellen, dass die Datenknotenpunkte einzeln und gemeinsam auf reproduzierbare und sichere Weise arbeiten.

Das ELSI (Ethische, Legale und Soziale Aspekte)-Team besteht aus Rechtswissenschaftlern und Ethikforschern. In enger Zusammenarbeit entstehen so die Grundlagen für den ethischen und rechtlichen Kontext von GHGA. Gemeinsam stellen wir die notwendigen ethischen und rechtlichen Dokumente für GHGA bereit (z. B. Einverständniserklärungen, Strategiepapiere und Richtliniendokumente). Damit wollen wir die rechtliche Umsetzung und Interoperabilität von GHGA sicherstellen. Des Weiteren erkundet die Arbeitsgruppe Strategien zur Einbeziehung von Patienten und Betroffenen in die Konzeption und Steuerung von GHGA, um eine breite und dauerhafte gesellschaftliche Unterstützung für das Projekt zu erreichen. 

Das Ethik-Team arbeitet an Materialien für Einwilligungserklärungen, die es Datenproduzenten ermöglichen sollen, ihre Daten künftig über GHGA zu teilen. Zusätzlich wird ein Leitfaden erstellt, mit dem bereits vorhandene Einwilligungsformulare mittels neuer Module für die Zwecke von GHGA erweitert werden können. In Zusammenarbeit mit Patientenvertretern werden Informationsressourcen für Patienten entwickelt und Beiträge zu ethischen und rechtlichen Fragen gesammelt. Das Ergebnis wird ein Richtlinienvorschlag (white paper) sein, in dem beschrieben wird, wie Patienten in die GHGA-Projektführung einbezogen werden können, um so das Vertrauen der Beteiligten aufzubauen und zu erhalten. 

Das Rechts-Team konzentriert sich auf die Rechtsgrundlagen für die Datenverarbeitung und die bereits erteilten Einwilligungen. Wir arbeiten auch an Risikobewertungen, De-Identifizierungs- und Anonymisierungsmethoden und einem möglichen Verhaltenskodex, um den Projektführungsrahmen für GHGA umzusetzen und die rechtliche Interoperabilität für die Datenverarbeitung innerhalb der EU und in internationalen Datenräumen zu verbessern.

 Produkte and Erfolge:

Die Metadaten-Arbeitsgruppe liefert das Modell für die in GHGA gespeicherten Daten und ist eine gemeinsame Anstrengung der konzeptionellen und technischen Abteilungen von GHGA. Das Team setzt sich aus Experten mit umfangreichen Kenntnissen aus verschiedenen Bereichen zusammen, die in die Definition des GHGA-Metadatenkonzepts einfließen. 

Ausgangspunkt der Arbeitsgruppe war die Evaluierung bereits bestehender und gut etablierter Metadatenmodelle, wobei der Schwerpunkt auf den Bereichen Krebs und Seltene Erkrankungen lag. Mit dem Wissen aus verschiedenen Portalen wurde ein Prototyp erstellt und als GHGA-Metadatenschema V.0.0.1 veröffentlicht. Auf den Prototyp folgte eine Umfrage innerhalb des GHGA-Konsortien, um Rückmeldungen darüber zu erhalten, ob alle erforderlichen Metadaten erfasst sind. 

Unser Ziel ist die GHGA-Metadaten FAIR zu machen indem wir etablierte und weit verbreitete Ontologien und Vokabulare verwenden, die unseren unterschiedlichen Fachgemeinschaften bei der Beschreibung ihrer Daten sowie bei der Suche nach Daten helfen. Alle Ontologien und Vokabulare werden auf der Grundlage ihrer Wartung und ihres Inhaltsreichtums mit Hilfe von https://fairsharing.org bewertet. Die ermittelten Metadaten, Ontologien und Vokabulare wurden in unserem Metadatenschema strukturiert, das technisch mit Hilfe der Linked Data Modelling Language umgesetzt wurde. LinkML hilft uns dabei das Metadatenschema an einer Stelle zu erstellen und auch zu aktualisieren, und stellt dem technischen Bereich von GHGA Definitionen des Schemas in verschiedenen Modellierungssprachen, wie JSON und RDF, zur Verfügung. Das GHGA-Metadatenschema ist in einem öffentlichen GitHub-Repository gespeichert und öffentlich zugänglich.

Produkte und Erfolge

 

Datenwissenschaftler, Forscher der Biomedizin und Ärzte aus über 20 Institutionen arbeiten bei GHGA zusammen, um dieses ambitionierte Projekt zum Leben zu erwecken. Daraus ergibt sich eine sehr interdisziplinäre Belegschaft aus über 80 Mitgliedern, die in sehr unterschiedlichen Arbeitsbereichen von GHGA arbeiten. Um einen glatten Arbeitsablauf zu gewährleisten bemüht sich das Projektmanagement Team die Mitarbeiter und die einzelnen Arbeitsgruppen zu unterstützen wo es nur geht. Das beinhaltet administrative Tätigkeiten im Hintergrund wie z.B. Finanzangelegenheiten und Personaleinstellung. Zusätzlich unterstützen wir auch aktiv die Arbeitsbereiche bei organisatorischen Angelegenheiten (das enthält auch z.B die Berichterstattung), die Entwicklung der gesetzlichen Rahmenbedingungen, und die Organisation von internen und externen Meetings. Des Weiteren sind wir in die Projektsteuerung eingebunden, und organisieren regelmäßige Treffen mit dem Direktorengremium und der Wissenschaftlichen Steuerungsgruppe. Da wir an der Schnittstelle zwischen unserem Konsortium und der NFDI stehen, beteiligen wir uns auch auf unterschiedlichen Ebenen an diversen NFDI Gremien.

Produkte und Erfolge

  • Jahrestagung 2021

GHGA nutzt eine Vielzahl von Kommunikationskanälen. Jeder spezifisch darauf ausgelegt eine bestimmte Zielgruppe zu erreichen. Aber eins haben sie gemeinsam, sie übermitteln dieselbe Botschaft: Die gemeinsame Nutzung von Daten in der Genomforschung ist sicher, wenn alle notwendigen Sicherheitsvorkehrungen getroffen werden (worauf wir bei GHGA großen Wert legen!), und sie ist auch äußerst wichtig, um wissenschaftliche Entdeckungen voranzutreiben.

Die Entwicklung der GHGA Infrastruktur ist sowohl auf die Bedürfnisse der Forschungsgemeinschaft abgestimmt, als auch auf die der Ärzte und Forscher an Kliniken. GHGA steht dafür in engem Kontakt mit den Nutzern und Herstellern von Omics-Daten, die oftmals an Kliniken generiert werden. Mit Vorträgen auf Konferenzen und Workshops wollen wir nicht nur für GHGA werben, sondern auch die Grundsätze des FAIRen Datenaustauschs fördern. Die FAIRe Datennutzung bedarf Kollaboration. Kollaboration zwischen Wissenschaftlern und Klinikern. Aber auch zwischen verschiedenen Initiativen, um sicherzustellen, dass nationale und internationale Bemühungen aufeinander abgestimmt sind und idealerweise ähnlichen Standards folgen. Ziel unserer Kommunikationsstrategie ist es, die Genomforschung in deutschen Einrichtungen zu vernetzen.

GHGA wird auch Trainingsmöglichkeiten zu unseren Themen in Form von Kursen, Vorträgen und Webinaren anbieten. Sobald die Infrastruktur funktionsfähig ist, werden wir auch Kurse zum Daten Upload ins GHGA Portal und zur Analyse der Daten veranstalten.

GHGA will einen sicheren ethisch-rechtlichen Rahmen für den Datenaustausch in Deutschland schaffen, Hilfestellungen zur Patienteneinwilligung bereitstellen und Patienten sowie die Öffentlichkeit über die Bedeutung des Datenaustauschs aufklären. 

Und nicht zuletzt: Genomforschung ist interessant. Genomforschung macht Spaß. Genomforschung ist vielseitig. Wir beiGHGA wollen dies für alle sichtbar machen. Und dafür probieren wir verschiedene Ansätze aus, z.B. die Teilnahme an lokalen Veranstaltungen wie Science Slams und Science Pop Up Stores in den GHGA-Hubs - oder auch die Aufnahme einer Podcastserie "Der Code des Lebens", die im Frühjahr 2022 an den Start gehen wird!

Produkte and Erfolge

Dem Training-Team liegt es am Herzen, unsere Nutzer:innen und alle Interessierten bei allen Themen zu unterstützen, die für die gemeinsame Nutzung von Daten im Bereich der biomedizinischen Forschung und der Gesundheitsfürsorge sowie der damit verbundenen bioinformatischen Methoden relevant sind. Daher haben wir es uns zur Aufgabe gemacht, Schulungs- und Lernmöglichkeiten in diesen Bereichen anzubieten. 

Unser Material reicht von ELSI-Themen wie Einwilligungen und Tools für Einwilligungserklärungen über technische Themen rund um Metadaten, bioinformatische Analyse von DNA und RNA bis hin zu guter Praxis bei Studiendesign und statistischer Analyse. Gemeinsam mit dem GHGA-Outreach-Team wollen wir unsere Nutzer:innen - und ein interessiertes Publikum - auch über Themen informieren, die uns am Herzen liegen, z.B. FAIR Data Sharing und allgemeines Forschungsdatenmanagement, indem wir Kurse und zusätzliches Material zu diesen interessanten Themen anbieten.

Ein wichtiger Teil der Aufgabe von GHGA ist die Erleichterung der gemeinsamen Nutzung von Genomdaten (und anderen Omics-Daten) von verschiedenen Datenerzeuger:innen. Um dies zu ermöglichen, müssen die Daten in das GHGA-Datenportal hochgeladen werden. Sobald die Daten dort sicher gespeichert sind, können sie durchsucht, heruntergeladen (nach erfolgreicher Beantragung einer Genehmigung) und mit zunehmender Funktionalität der GHGA-Dienste sogar mit Hilfe spezieller bioinformatischer Workflows, die von GHGA und der Gemeinschaft entwickelt wurden, analysiert werden.

Der Prozess des Hochladens von Daten in einen Portal kann entmutigend sein, da er die Vorbereitung der Daten vor der Einreichung, das Hochladen der begleitenden Metadaten und das Wissen, wie die Daten technisch hochgeladen werden, umfasst. Auch das Durchsuchen der hochgeladenen Daten, das Auffinden der richtigen Datensätze für die eigene Analyse und die anschließende Beantragung der Genehmigung zum Herunterladen können durch die Anleitung der Macher:innen der Plattform erleichtert werden.

Dieses Nutzererlebnis so reibungslos wie möglich zu gestalten, ist eines der Hauptziele des GHGA Training-Teams. Daher werden wir Schulungsmaterial zur Verfügung stellen, das die Navigation durch alle Aspekte des Datenportals erläutert. In späteren Entwicklungsstadien - wenn Workflows für die Datenanalyse und andere Ressourcen hinzugefügt wurden - werden wir auch hierfür Schulungs- und Unterstützungsmaterial bereitstellen. Die Schulungen werden in verschiedenen Varianten angeboten: Sie können zwischen Live-Webinaren, Video-Tutorials auf Abruf oder textbasierten Materialien wählen - je nachdem, was Ihnen am besten gefällt.

Achievements & Products

Course FAIR in (biological) practice: https://www.youtube.com/playlist?list=PLXMwmQxyLByV8wQ4i9NwG_cDaJGc5Nrhj 

Webinare:

Innerhalb des GHGA-Konsortiums arbeitet die Workflow-Arbeitsgruppe an der Standardisierung und Harmonisierung von Next Generation Sequencing (NGS)-Analyse-Workflows für die deutsche Forschungsgemeinschaft. Ziel ist es, Arbeitsabläufe (Workflows) zu erstellen, die eine einheitliche Verarbeitung von NGS-Rohdaten zu gebrauchsfertigen Forschungsdaten ermöglichen (z.B.: FASTQ zu annotierten VCF). Wir setzen dabei auf die Nutzung und Verbesserung bestehender Workflows und die Angleichung an Standards wie GA4GH, nf-core, und BioWDL

Mit den resultierenden Workflows für DNA- und RNA-Sequenzierungsdaten werden die bei GHGA eingereichten Daten einheitlich verarbeitet und vergleichbar gemacht. Dies ermöglicht studienübergreifende Vergleiche und die gemeinsame Analyse mehrerer Kohorten. 

Um die höchste Qualität der entwickelten Arbeitsabläufe sowohl auf der technischen als auch auf der biologischen Seite zu gewährleisten, nutzt GHGA die Prinzipien der kontinuierlichen Integration und des kontinuierlichen Einsatzes (CI/CD), um Workflows mit synthetischen und experimentellen Datensätzen wie CHM-Zelllinien und Genome in a Bottle (GiaB) zu testen und zu vergleichen. 

Im Einklang mit dem Ziel von GHGA, den FAIR-Datenaustausch zu fördern, halten wir uns selbst an die FAIR-Prinzipien. Wir folgen den Standards der Fachgemeinschaften, wie sie von GA4GH festgelegt wurden. Alle GHGA-Workflows sind Open-Source und bei Plattformen wie Dockstore oder WorkflowHub  registriert, um sie auffindbar und zugänglich zu machen und durch Interoperabilität einfach wiederverwendet werden zu können.

Eine vollständige Liste von Workflows, die von GHGA (mit) entwickelt wurden finden Sie hier.