GHGA-Vortragsreihe: Gunnar Rätsch und André Kahles (virtuell)

21 Jan. 2026

Gunnar Rätsch und André Kahles von der ETH Zürich werden am 21. Januar 2026 im Rahmen der GHGA-Vortragsreihe „Efficient and accurate search in petabase-scale sequence repositories” sprechen.

Dieser Vortrag Hieranschauen.

Abstrakt:

Öffentlich zugängliche Sequenzierungsdaten – die DNA, RNA und Proteine aus allen Bereichen des Lebens umfassen – haben mittlerweile eine Größe im Petabyte-Bereich erreicht, doch ein Großteil ihres wissenschaftlichen Werts bleibt hinter der reinen Metadatensuche verborgen. In diesem Vortrag stellen wir MetaGraph vor, unser Framework für die Volltextsuche in praktisch allen öffentlichen Sequenzarchiven. Wir werden erläutern, wie MetaGraph annotierte de Bruijn-Graphen und fortschrittliche Komprimierung nutzt, um 18,8 Millionen Sequenzierungsdatensätze und über 200 Milliarden Aminosäurereste zu indizieren und dabei ~67 Petabasen an Rohsequenzen auf eine Größe zu reduzieren, die auf eine Handvoll handelsüblicher Laufwerke passt. Wir werden darüber sprechen, wie dieser globale Index effiziente und sensible Sequenzabfragen unterstützt – von der exakten k-mer-Suche bis zum Sequenz-zu-Graph-Abgleich – und wie er die praktische Abfrage von Transkriptexpressionen, genetischen Variationen, Signaturen für Antibiotikaresistenzen oder zirkulären RNA-Verbindungen zu extrem niedrigen Kosten ermöglicht. Wichtig ist auch, dass wir diskutieren werden, wie menschliche Genomsequenzierungsdaten und damit verbundene phänotypische Charakterisierungen in diesem Rahmen dargestellt werden können und wie solche einheitlichen Darstellungen skalierbare Abfragen über populationsweite menschliche Datensätze ermöglichen, während Struktur und Kontext erhalten bleiben. Indem wir die groß angelegte Sequenzsuche schnell, erschwinglich und umfassend machen, werden wir zeigen, wie MetaGraph neue Möglichkeiten für Entdeckungen in den Bereichen Genomik, Metagenomik, Transkriptomik und Humangenetik eröffnet.

Biografie:

Der Datenwissenschaftler Gunnar Rätsch entwickelt und wendet fortschrittliche Datenanalyse- und Modellierungstechniken auf Daten aus tiefgehenden molekularen Profilen, medizinischen und Gesundheitsakten sowie Bildern an.

Er promovierte am Deutschen Nationalen Labor für Informationstechnologie unter der Betreuung von Klaus-Robert Müller und war Postdoktorand bei Bob Williamson und Bernhard Schölkopf. Er erhielt den Max-Planck-Preis für junge und unabhängige Forscher und leitete die Gruppe für maschinelles Lernen in der Genombiologie am Friedrich-Miescher-Labor in Tübingen (2005–2011). Im Jahr 2012 kam er als Associate Faculty zum Memorial Sloan Kettering Cancer Center. Im Mai 2016 zog er mit seinem Labor nach Zürich, um sich der Informatikabteilung der ETH Zürich anzuschließen.

Der Datenwissenschaftler André Kahles ist seit 2016 Mitglied der Gruppe für Biomedizinische Informatik an der ETH, wo sein Forschungsschwerpunkt auf der grafischen Darstellung großer Sequenzsätze und der Analyse komplexer Sequenzierungsdaten liegt.

Er absolvierte sein Grundstudium an der Friedrich-Schiller-Universität in Jena und schloss seine Diplomarbeit in Zusammenarbeit mit dem Stockholm Bioinformatics Centre in Schweden ab. Im Jahr 2009 trat er dem Friedrich-Miescher-Labor der Max-Planck-Gesellschaft in Tübingen bei. Während seines Doktoratsstudiums am Memorial Sloan Kettering Cancer Center in New York City, USA, wandte er sich der Analyse menschlicher Transkriptome zu, als er sich mit groß angelegten Krebssequenzierungsprojekten befasste. Nach seinem Abschluss im Jahr 2014 blieb er noch zwei weitere Jahre in New York und arbeitete im Rahmen eines Stipendiums des Lucille Castori Center for Microbes, Inflammation and Cancer an effizienten Datenstrukturen für die Darstellung großer Sammlungen gemischter Sequenzen, wie z. B. ganzer Metagenom-Sequenzierungsproben.