Wie wir arbeiten

Als Datenarchiv wird GHGA Daten von den großen Sequenzierzentren (NGS-Zentren) und anderen Institutionen in Deutschland empfangen und (Meta-)Daten mit nationalen und internationalen Initiativen wie genomDE und EGA austauschen. 

Um die Qualität und Vergleichbarkeit der Daten für groß angelegte Analysen sicherzustellen, wird GHGA für die technische Harmonisierung der Daten sorgen. Der sichere Datenzugang dazu wird über Data Access Committees (DACOs) geregelt. Diese Komitees evaluieren eingehende Datananfragen auf ihre Validität. GHGA schafft hierfür einen soliden ethisch-rechtlichen Rahmen, der einen sicheren Raum für die Datenspeicherung und den Datenzugang bietet. 

Bei der Umsetzung wird GHGA auf bestehenden Infrastrukturen für Hochleistungs- und Cloud-Computing, wie de.NBI, aufbauen, um langfristig eine cloudbasierte Analyseplattform zu schaffen. 

Mit Blick auf die verschiedenen wissenschaftlichen Fachgemeinschaften werden spezielle Portale für die einzelnen Forschungsgebiete geschaffen, um nicht nur einen sicheren und einfachen Zugang zu den Datensätzen zu gewährleisten, sondern auch passende Analyseabläufe bereitzustellen.

Arbeitsgruppen

Der föderale Charakter von GHGA erfordert Fachwissen vor Ort, wenn es um die Vorgänge auf Produktionsebene geht. Diese Tätigkeiten sind in zwei Hauptbereiche unterteilt: (1) Data Stewardship (Datenverwaltung) und (2) DevOps-Vorgänge (Entwicklung und Betrieb). Die GHGA-Produktionsarbeit erfordert eine enge Zusammenarbeit dieser beiden Gruppen für die Durchführung der täglichen GHGA-Aktivitäten.

Data Stewardship (Datenverwaltung). Einer der Schwerpunkte an dem die Arbeitsgruppe arbeitet sind die Details der Helpdesk-Struktur und -Arbeitsweise. Die Data Stewards an den einzelnen Datenzentren bilden das GHGA-Helpdesk-Team und unterstützen die Nutzer bei der Datenübermittlung und bei Anfragen zum Datenzugriff. Die enge Zusammenarbeit mit den Sequenzierzentren gewährleistet eine direkte Verbindung zu den wichtigsten Datenlieferanten von GHGA. 

DevOps (Entwicklung und Betrieb). In der ersten Phase von GHGA werden die DevOps-Vorgänge zusammen mit der Software & Infrastruktur Arbeitsgruppe (siehe unten) durchgeführt. Auf diese Weise wird die Bereitstellungs- und Betriebsstrategie eng mit der Softwareentwicklung abgestimmt. 

Alle Prozesse innerhalb des Datenknotenpunkt-Betriebsteams werden anhand von Standardarbeitsanweisungen (SOPs) organisiert, die ein wesentliches Instrument sind, um sicherzustellen, dass die Datenknotenpunkte einzeln und gemeinsam auf reproduzierbare und sichere Weise arbeiten.

Das ELSI (Ethische, Legale und Soziale Aspekte)-Team besteht aus Rechtswissenschaftlern und Ethikforschern. In enger Zusammenarbeit entstehen so die Grundlagen für den ethischen und rechtlichen Kontext von GHGA. Gemeinsam stellen wir die notwendigen ethischen und rechtlichen Dokumente für GHGA bereit (z. B. Einverständniserklärungen, Strategiepapiere und Richtliniendokumente). Damit wollen wir die rechtliche Umsetzung und Interoperabilität von GHGA sicherstellen. Des Weiteren erkundet die Arbeitsgruppe Strategien zur Einbeziehung von Patienten und Betroffenen in die Konzeption und Steuerung von GHGA, um eine breite und dauerhafte gesellschaftliche Unterstützung für das Projekt zu erreichen. 

Das Ethik-Team arbeitet an Materialien für Einwilligungserklärungen, die es Datenproduzenten ermöglichen sollen, ihre Daten künftig über GHGA zu teilen. Zusätzlich wird ein Leitfaden erstellt, mit dem bereits vorhandene Einwilligungsformulare mittels neuer Module für die Zwecke von GHGA erweitert werden können. In Zusammenarbeit mit Patientenvertretern werden Informationsressourcen für Patienten entwickelt und Beiträge zu ethischen und rechtlichen Fragen gesammelt. Das Ergebnis wird ein Richtlinienvorschlag (white paper) sein, in dem beschrieben wird, wie Patienten in die GHGA-Projektführung einbezogen werden können, um so das Vertrauen der Beteiligten aufzubauen und zu erhalten. 

Das Rechts-Team konzentriert sich auf die Rechtsgrundlagen für die Datenverarbeitung und die bereits erteilten Einwilligungen. Wir arbeiten auch an Risikobewertungen, De-Identifizierungs- und Anonymisierungsmethoden und einem möglichen Verhaltenskodex, um den Projektführungsrahmen für GHGA umzusetzen und die rechtliche Interoperabilität für die Datenverarbeitung innerhalb der EU und in internationalen Datenräumen zu verbessern.

 Produkte and Erfolge:

Die Metadaten-Arbeitsgruppe liefert das Modell für die in GHGA gespeicherten Daten und ist eine gemeinsame Anstrengung der konzeptionellen und technischen Abteilungen von GHGA. Das Team setzt sich aus Experten mit umfangreichen Kenntnissen aus verschiedenen Bereichen zusammen, die in die Definition des GHGA-Metadatenkonzepts einfließen. 

Ausgangspunkt der Arbeitsgruppe war die Evaluierung bereits bestehender und gut etablierter Metadatenmodelle, wobei der Schwerpunkt auf den Bereichen Krebs und Seltene Erkrankungen lag. Mit dem Wissen aus verschiedenen Portalen wurde ein Prototyp erstellt und als GHGA-Metadatenschema V.0.0.1 veröffentlicht. Auf den Prototyp folgte eine Umfrage innerhalb des GHGA-Konsortien, um Rückmeldungen darüber zu erhalten, ob alle erforderlichen Metadaten erfasst sind. 

Unser Ziel ist die GHGA-Metadaten FAIR zu machen indem wir etablierte und weit verbreitete Ontologien und Vokabulare verwenden, die unseren unterschiedlichen Fachgemeinschaften bei der Beschreibung ihrer Daten sowie bei der Suche nach Daten helfen. Alle Ontologien und Vokabulare werden auf der Grundlage ihrer Wartung und ihres Inhaltsreichtums mit Hilfe von https://fairsharing.org bewertet. Die ermittelten Metadaten, Ontologien und Vokabulare wurden in unserem Metadatenschema strukturiert, das technisch mit Hilfe der Linked Data Modelling Language umgesetzt wurde. LinkML hilft uns dabei das Metadatenschema an einer Stelle zu erstellen und auch zu aktualisieren, und stellt dem technischen Bereich von GHGA Definitionen des Schemas in verschiedenen Modellierungssprachen, wie JSON und RDF, zur Verfügung. Das GHGA-Metadatenschema ist in einem öffentlichen GitHub-Repository gespeichert und öffentlich zugänglich.

Produkte und Erfolge

 

Datenwissenschaftler, Forscher der Biomedizin und Ärzte aus über 20 Institutionen arbeiten bei GHGA zusammen, um dieses ambitionierte Projekt zum Leben zu erwecken. Daraus ergibt sich eine sehr interdisziplinäre Belegschaft aus über 80 Mitgliedern, die in sehr unterschiedlichen Arbeitsbereichen von GHGA arbeiten. Um einen glatten Arbeitsablauf zu gewährleisten bemüht sich das Projektmanagement Team die Mitarbeiter und die einzelnen Arbeitsgruppen zu unterstützen wo es nur geht. Das beinhaltet administrative Tätigkeiten im Hintergrund wie z.B. Finanzangelegenheiten und Personaleinstellung. Zusätzlich unterstützen wir auch aktiv die Arbeitsbereiche bei organisatorischen Angelegenheiten (das enthält auch z.B die Berichterstattung), die Entwicklung der gesetzlichen Rahmenbedingungen, und die Organisation von internen und externen Meetings. Des Weiteren sind wir in die Projektsteuerung eingebunden, und organisieren regelmäßige Treffen mit dem Direktorengremium und der Wissenschaftlichen Steuerungsgruppe. Da wir an der Schnittstelle zwischen unserem Konsortium und der NFDI stehen, beteiligen wir uns auch auf unterschiedlichen Ebenen an diversen NFDI Gremien.

Produkte und Erfolge

  • Jahrestagung 2021

GHGA nutzt eine Vielzahl von Kommunikationskanälen. Jeder spezifisch darauf ausgelegt eine bestimmte Zielgruppe zu erreichen. Aber eins haben sie gemeinsam, sie übermitteln dieselbe Botschaft: Die gemeinsame Nutzung von Daten in der Genomforschung ist sicher, wenn alle notwendigen Sicherheitsvorkehrungen getroffen werden (worauf wir bei GHGA großen Wert legen!), und sie ist auch äußerst wichtig, um wissenschaftliche Entdeckungen voranzutreiben.

Die Entwicklung der GHGA Infrastruktur ist sowohl auf die Bedürfnisse der Forschungsgemeinschaft abgestimmt, als auch auf die der Ärzte und Forscher an Kliniken. GHGA steht dafür in engem Kontakt mit den Nutzern und Herstellern von Omics-Daten, die oftmals an Kliniken generiert werden. Mit Vorträgen auf Konferenzen und Workshops wollen wir nicht nur für GHGA werben, sondern auch die Grundsätze des FAIRen Datenaustauschs fördern. Die FAIRe Datennutzung bedarf Kollaboration. Kollaboration zwischen Wissenschaftlern und Klinikern. Aber auch zwischen verschiedenen Initiativen, um sicherzustellen, dass nationale und internationale Bemühungen aufeinander abgestimmt sind und idealerweise ähnlichen Standards folgen. Ziel unserer Kommunikationsstrategie ist es, die Genomforschung in deutschen Einrichtungen zu vernetzen.

GHGA wird auch Trainingsmöglichkeiten zu unseren Themen in Form von Kursen, Vorträgen und Webinaren anbieten. Sobald die Infrastruktur funktionsfähig ist, werden wir auch Kurse zum Daten Upload ins GHGA Portal und zur Analyse der Daten veranstalten.

GHGA will einen sicheren ethisch-rechtlichen Rahmen für den Datenaustausch in Deutschland schaffen, Hilfestellungen zur Patienteneinwilligung bereitstellen und Patienten sowie die Öffentlichkeit über die Bedeutung des Datenaustauschs aufklären. 

Und nicht zuletzt: Genomforschung ist interessant. Genomforschung macht Spaß. Genomforschung ist vielseitig. Wir beiGHGA wollen dies für alle sichtbar machen. Und dafür probieren wir verschiedene Ansätze aus, z.B. die Teilnahme an lokalen Veranstaltungen wie Science Slams und Science Pop Up Stores in den GHGA-Hubs - oder auch die Aufnahme einer Podcastserie "Der Code des Lebens", die im Frühjahr 2022 an den Start gehen wird!

Produkte and Erfolge

  • (Virtuelle) Präsentationen auf Konferenzen in 2021 (9 Vorträge and 6 Poster)
  • Erster Workshop für eine Forschungsgemeinschaft (SingleCell), (GHGA internal in 2021, external Spring 2022)
  • Science slam Teilnahme (Nov 2021)
  • Podcast “Der Code des Lebens” (Launch 2022)
  • GHGA Lecture Series "Advances in Data-Driven Biomedicine"
  • Mini-Symposium "Unlocking the Power of Genomic Medicine via FAIR Data Sharing" 2021

Die Entwicklung von Software ist zu gleichen Teilen Wissenschaft und Kunst. GHGA ist da keine Ausnahme, auch wir müssen ein kreatives Gleichgewicht zwischen vielen Aspekten und Anforderungen finden:

Einerseits möchten wir sehr bald eine erste Version unseres Genomarchivs einsatzbereit haben. Andererseits ist GHGA ein langfristiges Projekt, so dass die Möglichkeit zur Wartung und Erweiterung ein wichtiger Aspekt ist. Unsere Softwarelösungen sollten einfach umzusetzen sein, um die Anbindung neuer Rechenzentren an unser Netz zu ermöglichen. Gleichzeitig müssen wir die nötige Flexibilität bieten, um uns an die lokal verfügbaren Ressourcen und Infrastrukturen anzupassen. Außerdem sollen die von uns entwickelten Produkte nicht nur von uns selbst genutzt werden, sondern wir möchten auch der breiteren nationalen und internationalen Forschungs- und Gesundheitsgemeinschaft dienen.

Alles beginnt mit der richtigen Kultur in der Softwareentwicklung. Die kontinuierliche Optimierung unserer agilen Entwicklungsprozesse geht dabei Hand in Hand mit DevOps (Entwicklung und Betriebs)-Praktiken. Aus diesem Grund stimmen wir unsere Aktivitäten eng mit der Arbeitsgruppe 'Betrieb der Datenzentren' ab. Ein weiterer wichtiger Aspekt bei der Bewältigung der oben genannten Herausforderungen ist die Wahl fortschrittlicher und dennoch robuster Architekturmuster. Aus diesem Grund implementieren wir, vom ersten Tag an, eine Domänen-gesteuerte Microservice-Architektur. Diese ist nicht nur einfach zu pflegen, sondern erleichtert auch Umstrukturierungen, die im Laufe des Projektes notwendig werden können. Um unabhängig von einem bestimmten Cloud-Anbieter zu sein und einen reibungslosen kontinuierlichen Einsatz zu ermöglichen, setzen wir außerdem auf das Container Verwaltungssystem Kubernetes und sein Ökosystem. Schließlich bemühen wir uns sehr um die Anlehnung an nationale und internationale Software-Standards und wollen deren Entwicklung aktiv vorantreiben, indem wir uns an den Bemühungen der NFDI, ELIXIR Europe, und der GA4GH beteiligen.

Produkte und Erfolge

  • Open Source Microservices: Wir sind dabei, eine Reihe von Diensten für den sicheren Austausch von Genomikdaten aufzubauen. Diese Dienste werden für die Gemeinschaft entwickelt und sind frei zugänglich (Open Source). Sie finden sie hier: https://github.com/ghga-de
  • DataMeta: Die gemeinsame Nutzung von Daten ist ein Kernziel von GHGA. Es ist auch ein entscheidender Bestandteil im Kampf gegen die SARS-CoV-2-Pandemie. Zu diesem Zweck haben wir das COGDat-Portal entwickelt: eine Forschungsinitiative zur Sammlung, Speicherung und Auswertung aller in Deutschland produzierten SARS-CoV-2 Virus Sequenzdaten. Weitere Informationen finden Sie unter: https://cogdat.de/

Innerhalb des GHGA-Konsortiums arbeitet die Workflow-Arbeitsgruppe an der Standardisierung und Harmonisierung von Next Generation Sequencing (NGS)-Analyse-Workflows für die deutsche Forschungsgemeinschaft. Ziel ist es, Arbeitsabläufe (Workflows) zu erstellen, die eine einheitliche Verarbeitung von NGS-Rohdaten zu gebrauchsfertigen Forschungsdaten ermöglichen (z.B.: FASTQ zu annotierten VCF). Wir setzen dabei auf die Nutzung und Verbesserung bestehender Workflows und die Angleichung an Standards wie GA4GH, nf-core, und BioWDL

Mit den resultierenden Workflows für DNA- und RNA-Sequenzierungsdaten werden die bei GHGA eingereichten Daten einheitlich verarbeitet und vergleichbar gemacht. Dies ermöglicht studienübergreifende Vergleiche und die gemeinsame Analyse mehrerer Kohorten. 

Um die höchste Qualität der entwickelten Arbeitsabläufe sowohl auf der technischen als auch auf der biologischen Seite zu gewährleisten, nutzt GHGA die Prinzipien der kontinuierlichen Integration und des kontinuierlichen Einsatzes (CI/CD), um Workflows mit synthetischen und experimentellen Datensätzen wie CHM-Zelllinien und Genome in a Bottle (GiaB) zu testen und zu vergleichen. 

Im Einklang mit dem Ziel von GHGA, den FAIR-Datenaustausch zu fördern, halten wir uns selbst an die FAIR-Prinzipien. Wir folgen den Standards der Fachgemeinschaften, wie sie von GA4GH festgelegt wurden. Alle GHGA-Workflows sind Open-Source und bei Plattformen wie Dockstore oder WorkflowHub  registriert, um sie auffindbar und zugänglich zu machen und durch Interoperabilität einfach wiederverwendet werden zu können.

 

Assoziierte Projekte

Hier finden Sie eine Auswahl an Projekten, die aus GHGA hervorgehen.

CoGDat ist eine Initiative von Forschern, die Teil des Netzwerks Universitätsmedizin (NUM), der NUM-Initiative B-FAST und der Deutschen COVID-19 OMICS-Initiative (DeCOI) sind.

Ziel der Initiative ist es, die Sequenzdaten, die im Rahmen der Sequenzierung des SARS-CoV-2-Virusgenoms in Deutschland entstehen, zu erforschen, aber auch anderen Wissenschaftlern zur Verfügung zu stellen.

Ein besonderer Schwerpunkt liegt dabei auf Sequenzier-Rohdaten, die zusätzlich zu den vom Robert-Koch-Institut (RKI) gesammelten und zur Verfügung gestellten Virusgenom-Konsensussequenzen (Assemblies) gewonnen werden.

Die Rohdaten ermöglichen es, die von den einzelnen Laboren durchgeführten Konsensussequenz-berechnungen nachzuvollziehen, einen Maßstab und eine Bewertung für vergleichbare Konsensussequenz-berechnungen zu erstellen sowie die Identifizierung mehrerer Varianten in derselben Probe. So kann z.B. virale Evolution innerhalb des Wirtes nachvollzogen werden.

Um diese Ziele zu erreichen, sind die wichtigsten Meilensteine von CoGDat:

  • Entwicklung eines rechtlichen Rahmens, vor allem in Bezug auf den Datenschutz. Dies soll den Transfer von Rohdaten aus der Sequenzierung des SARS-CoV-2-Virusgenoms von öffentlichen und privaten Laboren an die Universität Tübingen, die CoGDat betreiben wird, ermöglichen.
  • Entwicklung eines technischen Rahmens für die Schnittstelle (Portal) zu den datenliefernden Laboren. Das Portal soll es Laboren ermöglichen, die Datenübermittlung zu automatisieren.
  • Anonymisierung der bereitgestellten Daten und anschließende gemeinsame Nutzung der anonymisierten Daten durch das European Nucleotide Archive (ENA).

 

GHGA hat DataMeta entwickelt, ein generisches Eingabeportal für Daten mit zugehörigen Metadaten, um die technischen Anforderungen von CoGDat im Bereich der Datensammlung und -verwaltung zu erfüllen. Darüber hinaus hat das CoGDat-Projekt ein Datenschutz- und Rechtskonzept sowie ein Datenanonymisierungskonzept erstellt und steht im Austausch mit den zuständigen Behörden, um die Wahrung der Patienteninteressen sicherzustellen.

Seit zwei Jahren dominieren SARS-CoV-2 und COVID-19 die Forschung in den Gebieten Gesundheit und Medizin. Dies gilt besonders für die Genomforschung. In der Pandemie zielt die funktionelle Genomik - die sich auf das Zusammenspiel von Genen, Signalwegen und Genprodukten konzentriert- darauf ab, Fragen zur Immunantwort nach einer Infektion mit SARS-CoV-2 zu beantworten und so unterschiedlich schwere Krankheitsverläufe zu erklären. Im Laufe der Pandemie haben alleine deutsche Wissenschaftler fast 25 000 Forschungsartikel zum Thema COVID-19 veröffentlicht. Sie haben damit sehr aktiv zur Forschung in verschiedensten Themenfeldern mit Bezug zur COVID-19-Pandemie beigetragen.

Trotzdem sind bisher weder Forschungsdaten noch -ergebnisse gebündelt oder zentral gespeichert. Eine Kultur rund um offenen Datenaustausch ist immer noch in der Entwicklung. Aus diesen Gründen entwickeln wir CoFGen, ein Datenportal für die Erforschung der funktionellen Genomik in COVID-19. CoFGen wird es Forschern ermöglichen, Fragen zu veränderten biologischen Prozessen und Mechanismen, wie beispielsweise Signalwegregulierungen, nach einer Infektion mit SARS-CoV-2 zu beantworten, und darüber hinaus Daten- und Analyseworkflowspeicherung zu zentralisieren und demokratisieren.

Unser Ziel ist es Einzelzell- und gebündelte Massen-RNA-Sequenzierungsdatensätze und die damit verbundenen Analyseabläufe von deutschen Forschungsgruppen zu sammeln und eine einfache Metadatenanalyse vorzunehmen. Ausserdem soll damit ein vereinfachter Zugang zu diesen Daten für Wissenschaftler ermöglicht werden, die sich auf unterschiedliche Teile der Immunantwort auf COVID-19 konzentrieren, und der Datenaustausch unterstützt werden. Um dies zu erreichen, arbeiten wir eng mit DeCOI und dem Lung Biological Network des Human Cell Atlas zusammen, die unsere ersten Datenlieferanten sind. Das Speichern von Datensätzen, entsprechenden Analyseabläufen, sowie der Zugriff auf Daten, wird von FASTGenomics verwaltet, einem gemeinschaftlichen Forschungsbestreben der Comma Soft AG Bonn und dem LIMES Institut der Universität Bonn.

Ziele

  • Sammlung von Informationen über Rohdaten von deutschen Forschungsgruppen, die an der funktionellen Genomik bei SARS-CoV-2-Infektionen arbeiten.
  • Sammelung von verarbeitete Daten und sowie Arbeitsabläufe und die Bereitstellung dieser Daten für andere Forscher 
  • Analyse von Metadaten über alle gesammelten und einbezogenen Studien und Generierung von neuem Wissen über COVID-19 aus CoFGen-Datensätzen