KI lernt Evolution und erschafft leuchtende Proteine: Warum das ein wichtiger Schritt ist

Proteindesign am Computer.
Ob Glühwürmchen, Quallen oder Korallen: Fluoreszierende Proteine sind Meisterwerke der Natur – komplexe Moleküle aus Ketten und Spiralen. Entwickelt haben sie sich in Milliarden Jahren Evolution. Das Unternehmen EvolutionaryScale, gegründet von ehemaligen Meta-Mitarbeitenden, will für diesen Prozess nun einen Turbo entwickelt haben: ein besonders leistungsfähiges Sprachmodell mit Namen EMS3. Der Mitgründer Lux Capital nennt es gegenüber der Nachrichtenagentur Reuters den „ChatGPT-Moment für die Biologie“.
Mit gezielten Prompts erzeugte das Modell ein grün leuchtendes Protein, das ähnlich kräftig leuchtete wie die natürlichen Verwandten und dennoch mit dem nächstähnlichen, bekannten Protein nur zu 58 Prozent übereinstimmte. Der Unterschied entspreche in der Evolution einem zeitlichen Abstand von mehr als 500 Millionen Jahren, berichtet das Startup. Das Unternehmen, das von ehemaligen Meta-Forschenden gegründet wurde, will sein Sprachmodell unter anderem für die Entwicklung von Medikamenten und für Nachhaltigkeitsthemen nutzen. Dafür steht laut Reuters eine Summe von 142 Millionen US-Dollar zur Verfügung.
„Wir wollen Werkzeuge entwickeln, um die Biologie programmierbar zu machen“, sagt Alex Rives, der leitende Wissenschaftler, im Fachblatt Nature. Zwar gebe es bereits Methoden, mithilfe von KI und sogenannten Diffusionsmodellen neuartige Proteinstrukturen zu entwerfen. Doch diese seien deutlich näher am natürlichen Vorbild und sie lieferten deutlich weniger vielversprechende neue Baupläne.
Sprache der Proteine
Proteine sind – zum Teil räumlich hochkomplexe – Aneinanderreihungen von Aminosäuren. „Es ist heutzutage Konsens, dass diesen Aminosäureseqeunzen eine fundamentale Sprache der Proteinbiologie zugrunde liegt“, schreiben die Entwicklerinnen und Entwickler in einem Paper auf dem Preprint-Server biorxiv. Und diese ließen sich mithilfe von Sprachmodellen verstehen. Auch wie sich die Sequenzen, Strukturen und Funktionen im Laufe der Evolution weiterentwickelt haben, sollten die Modelle lernen können.
Im Paper beschreiben die Forschenden, wie sie vorgegangen sind. Sie haben das Modell auf mehr als 2,7 Milliarden Proteine trainiert. Die Aminosäuresequenzen, die räumlichen Strukturen und die Funktionen zerlegten sie in kleinere Einheiten – wie einen Satz in Worte, was Fachleute Tokenisierung nennen. Für jeden der drei Aspekte wurden zudem immer wieder neue „Lückentexte“ erstellt, in denen per Zufallsprinzip verschiedene Einheiten maskiert wurden. Das Modell sollte dann diese Lücken füllen, also die fehlenden Elemente finden, und dadurch die gewünschten Zusammenhänge lernen.
Prompten mit Fachwissen
Allerdings: Einfach mal ein paar Wunscheigenschaften prompten, und das Sprachmodell spuckt das gewünschte, sagen wir, leuchtende Protein aus? So simpel funktioniert ESM3 dann doch nicht. Für das fluoreszierende Molekül mussten die Forschenden fundierte biochemische Kenntnisse haben und mehrere aufeinander aufbauende Prompts formulieren. Dann stellten sie nach den aussichtsreichsten Bauplänen im Labor fast 90 Proteine her und testeten deren Leuchtfähigkeiten. Die Variante, die am besten abschnitt, leuchtete allerdings deutlich schwächer als natürliche Pendants und nur für kurze Zeit. Die Forschenden optimierten ihren ersten Testsieger daher mit weiteren Prompts, synthetisierten und prüften nochmals etliche Kandidaten – und erhielten schließlich das Zielmolekül.
Die Konstruktion neuer fluoreszierender Proteine ist schon seit Jahrzehnten ein Forschungsthema. Aus guten Gründen: Biomoleküle können damit markiert werden. Sie werden dann in Spezialmikroskopen gut sichtbar und ihre Wege in einer Zelle oder einem anderen biologischen System lassen sich leicht nachverfolgen.
Protein-Manufaktur „open source“
Das neue Sprachmodell könnte aber auch als Protein-Manufaktur für andere Zwecke dienen. Schließlich dirigieren Eiweiße Stoffwechselvorgänge und sie sind wichtige Akteure unseres Immunsystems. Auch technologisch ließen sich die neuen Designmöglichkeiten nutzen, etwa um Proteine herzustellen, die Kunststoffe abbauen. „Wir haben uns zunächst für die Eigenschaft Fluoreszenz entschieden, weil sie schwer zu erreichen und leicht zu messen ist. Und sie zählt zu den wundervollsten Mechanismen der Natur“, heißt es im biorxiv-Paper.
Trotz Kritik, Modelle dieser Art könnten für die Entwicklung von Biowaffen missbraucht werden, will EvolutionaryScale sein Projekt weiter vorantreiben. Laut Reuters planen die Geldgeber Amazon Web Service und Nvidia zudem eine kommerzielle Nutzung der umfassendsten ESM2-Variante. Und das Startup stellt eine abgespeckte Version von ESM3 „open source“ der akademischen Forschung zur Verfügung. Ob das Sprachmodell dort als Turbo wirkt, bleibt abzuwarten.
KI lernt Evolution und erschafft leuchtende Proteine: Warum das ein wichtiger Schritt ist
Es ist traurig, dass die Wissenschaft keine Fortschritte in Erforschung der tatsächlichen Vorgänge und er Simulation (chemisch Elemente kombinieren = perfekte Simulation (Temp., Druck,…) macht.
Regeln und Berechnungen sind etwas ganz Anderes im Vergleich zu derzeitigen KI-Funktionalität, bei der kommt etwas mit „Glück“ (Milliarden von virtuellen Versuchen ohne klare Regeln) heraus.
Man ist weit weg vom Programmieren, denn für das Programmieren muss man die Algorithmen der Natur verstehen, DAS IST ECHTES WISSEN!