Das Fortschrittstempo an der Schnittstelle von Biologie und Künstlicher Intelligenz (KI) ist enorm. KI hilft zu verstehen, warum Krankheiten ausbrechen und an welchen Punkten Medikamente ansetzen können. Bei Pfizer arbeiten daher der Zellbiologe Dr. David von Schack eng mit dem KI-Experten Dr. Daniel Ziemek zusammen. Ein Gespräch mit den beiden über eines der dynamischsten Forschungsfelder unserer Zeit.
Dr. von Schack: Wir verzeichnen in der Biologie eine nahezu explosionsartige Zunahme an Daten. Wir können heute mit der Einzelzellen-Analyse bis tief in einzelne Zellen schauen. Wir sehen die mRNA, die Proteine, die Stoffwechselprodukte ...
Dieser Blick auf die molekularen Mechanismen unserer Zellen verspricht einen enormen Erkenntnisschub zur Biologie des Menschen: Warum und wie altern wir? Warum werden wir krank? Wie regenerieren unsere Zellen?
Dr. Ziemek: Wo wir noch vor zehn Jahren aus einem Tropfen Blut etwa 20.000 Datenpunkte erhalten haben, bekommen wir jetzt 20.000 Datenpunkte für jede einzelne der Tausenden von Zellen in diesem einen Blutstropfen. Eine solche Menge an Daten kann der Mensch nicht mehr bearbeiten. Wir benutzen schon lange immer bessere statistische Verfahren, um die Daten auszuwerten, aber in dieser Größenordnung kommt Künstliche Intelligenz ins Spiel.
Wie genau man heute die einzelnen Vorgänge von Zellen betrachtet, drückt sich in den so genannten „Omics-Fächern“ aus: Jedes beschreibt einen Teilvorgang unserer biologischen Zellfunktionen: Zur Genomik (Erforschung des Genoms) kommt die Transkriptomik (wie wird die Gen-Information in der Zelle durch mRNA übersetzt?), Proteomik (welche Proteine werden gebaut?) oder die Metabolomik (welche Stoffwechselprodukte entstehen?), darin das Teilgebiet der Lipidomik (welche Lipide entstehen?), um nur einige davon zu nennen.
Ziemek: Stellen Sie sich vor, Sie möchten wissen, warum eine Person Diabetes hat und eine andere nicht. Sie wollen sozusagen molekular genau verstehen, was „kaputt“ ist. Nehmen wir an, die Daten aus der Blutprobe stehen in einer Excel-Tabelle: für jede Zelle eine Spalte mit 20.000 Zahlen. Pro Patienten oder Patientin haben Sie Zehntausende solcher Spalten – für jede Zelle eine.
Das vergleichen Sie mit dem Excel-Blatt eines gesunden Menschen, also wieder Zehntausende Spalten à 20.000 Datenpunkte. Und Sie vergleichen freilich nicht nur zwei Menschen, sondern Gruppen – und diese Gruppen sollten möglichst groß sein. Und Sie nehmen auch nicht nur die Blutprobe von einem einzigen Tag, sondern longitudinale Daten über Wochen. Vielleicht nehmen sie auch noch Kontextdaten dazu, die familiäre Vorgeschichte etc.
Sie haben nun also Hundertausende, Millionen und mehr Daten, in denen sie die relevanten Aspekte suchen, die aus gesund krank machen. Solch eine Suche ist die Stärke von Künstlicher Intelligenz. Natürlich kann die beste Methode nicht einfach aus einem Haufen Daten lernen. Es ist wichtig, dass man genug Trainingsdaten hat. In diesem Beispiel also viele Menschen, von denen man weiß, ob sie Diabetiker sind oder eben nicht.
von Schack: Letztlich geht es darum, die unglaublich komplexe Biologie hinter einer Erkrankung zu verstehen – und zwar in all der Vielfalt menschlicher Konditionen.
von Schack: Das Schwierige ist, all diese einzelnen Datenpunkte zu einem Gesamtbild des biologischen Geschehens zusammenzufügen. Die oben beschriebene Komplexität der Daten muss in einen kohärenten Zusammenhang gebracht werden.
Dazu fassen die Computer die vielen Datenpunkte zu Gruppen zusammen, z.B. biologischen Signalkaskaden, und das hilft dem Biologen, die Daten einzuschätzen und Schlüsse zu ziehen. Zu diesem Zweck arbeiten wir mit dem israelischen Biotech-Startup CytoReason zusammen und versuchen, das Immunsystem zu charakterisieren und irgendwann auch zu simulieren.
Wir bringen Datensätze von publizierten Studien zu Autoimmunerkrankungen mit Pfizer-eigenen Daten unserer klinischen Studien zusammen, um dadurch möglicherweise neue Erkenntnisse zu Patientensubtypen oder neue Ansätze für innovative Medikamente zu gewinnen. Und wir wollen daran erproben, welche Behandlung zu welchem Patienten oder welcher Patientin passt.
Ziemek: Wie schon kurz erwähnt sind es zum Teil anonymisierte Daten von Studienteilnehmer:innen aus Pfizer-Studien, die dem zugestimmt haben. Darüber hinaus arbeiten wir mit verschiedenen akademischen Konsortien, die solche Daten erheben, analysieren und bereitstellen wie zum Beispiel dem Accelerating Medicines Partnership (AMP) in den USA oder mehreren Konsortien, die unter der Federführung der EU in der Innovative Health Initative zusammengefasst sind.
von Schack: Sowohl in den Kollaborationen als auch für die Pfizer-eigenen Studien muss man sich genau überlegen, welche Datentypen und damit welche Laboranalysemethode mit den zur Verfügung stehenden Proben generiert werden sollen.
Letztendlich muss die Methodik im Labor an die Fragestellung angepasst werden und folglich muss dann auch die computergestützte Analyse der Daten entsprechend der zu Verfügung stehenden Daten angepasst werden. Man programmiert nie sämtliche Single-Cell-Daten und Forschungsergebnisse ein, sondern immer nur die Daten bezogen auf eine bestimmte Fragestellung.
Diese Fragestellung entwickle ich im Labor mithilfe von Experimenten. Wenn ich herausgefunden habe, mit welcher Fragestellung wir Daten generieren können, überträgt Daniel das dann in ein Computermodell.
Ziemek: Wir stehen noch am Anfang, aber das Fortschritts-Tempo ist enorm. Künstliche Intelligenz wirft wie ein Scheinwerfer Licht auf die feinen Prozesse des Lebens. Was uns als Fachwelt derzeit elektrisiert, ist spatial transcriptomics: Man gibt der KI nicht nur die molekular-biologischen Daten von Gewebeproben, also die große Excel-Tabelle, von der wir geredet haben, sondern zusätzlich noch Mikroskop-Bilder dieser Proben.
Das ist dann noch viel näher an der Biologie dran, deren Prozesse in vielen Fällen von der Feinstruktur und Interaktion der verschiedenen Zelltypen abhängig ist. Und da die Bildanalyse eine der Hauptstärken aktueller KI-Methoden ist, liegt hierin viel Potenzial, bessere Ansatzpunkte zur Heilung von Krankheiten zu erkennen. Bisher gibt es allerdings nur wenige solcher Daten, aber wir und viele Forscher auf der Welt arbeiten daran, das schnell zu ändern.
von Schack: Wir schauen immer tiefer in Natur. Als Biologe kann ich mich mit den Technologien von heute regelrecht in einer Zelle umsehen. Das wird nicht nur dazu führen, dass wir Medikamente noch besser zielgerichtet auf einzelne Patient:innengruppen ausrichten können. Wir werden sie auch viel schneller entwickeln können.