
KI-Software für Struktur-Prognosen vor neue Aufgabe gestellt
Seit dem Durchbruch der Software ist die Zahl der dokumentierten 3D-Strukturen von Proteinen drastisch gestiegen, sie sind in einer Datenbank frei zugänglich. Die wird sich in in den kommenden Jahren noch deutlich erweitern. Chemie-Professor Marc Zimmer vom Connecticut College schätzt, dass es allein 2022 rund 100 Millionen neue Einträge geben wird, bis Ende des Jahres „wird voraussichtlich die Struktur der Hälfte aller bekannten Proteine dokumentiert sein“.
Worauf Alphafold allerdings nicht ausgelegt ist, beschreibt Zimmer jetzt in einem Artikel für The Conversation: „Alphafold erklärt nicht, wie sich die Proteine so schnell und genau falten“ und „wurde nicht entwickelt, um vorherzusagen, wie Proteine miteinander interagieren“. Eben diese Interaktion zwischen Proteinen hat der Chemiker sich mit einem Team genauer angeschaut – und die KI-Software vor eine neue Aufgabe gestellt.
„Wir hatten eine schwierige Frage für Alphafold: Hatte es durch seine strukturellen Trainingsdaten etwas Chemie gelernt? Konnte es erkennen, ob Aminosäuren miteinander reagieren würden – ein seltenes, aber wichtiges Ereignis?“
Deep-Learning-KI Alphafold: Erkennt sie fluoreszierende Proteine?
Zimmer interessiert sich besonders für Proteine, die unter anderem in vielen Meeresorganismen vorkommen und fluoreszieren, also von selbst leuchten, wenn sie zuvor bestrahlt werden. Dieses Leuchten könne beispielsweise für die Erforschung von Krankheiten relevant sein, so der Chemiker in seinem Text.
Zum Zeitpunkt der Untersuchung waren in der Deepmind-Datenbank insgesamt 578 Proteine gespeichert, die theoretisch fluoreszieren. Zehn davon sind aufgrund einer Reaktion mit sich selbst allerdings „kaputt“ und fluoreszieren nicht.
„Nur ein Chemiker mit umfangreichem Wissen über fluoreszierende Proteine wäre in der Lage, anhand der Aminosäuresequenz die fluoreszierenden Proteine zu finden.“ Also legten Zimmer und sein Team Alphafold 2 die Aminosäuresequenzen von insgesamt 44 fluoreszierenden Proteinen vor, die bislang nicht Teil der Strukturdatenbank waren, für die KI also unbekannt. Würde die Software einen Unterschied zwischen „kaputten“ und intakten fluoreszierenden Proteinen machen?
Alphafold lernt dazu: Chemieverständnis durch Sequenzabgleiche und Trainingsdatenbank
Tatsächlich stellte Alphafold 2 die leuchtenden und kaputten fluoreszierenden Proteine unterschiedlich dar. „Es hatte herausgefunden, welche Aminosäuren in fluoreszierenden Proteinen für die Chemie verantwortlich sind, die sie zum Leuchten bringt“, so Zimmer.
Er vermutet, dass die zahlreichen Sequenzabgleiche und die Trainingsdatenbank „Alphafold 2 in die Lage versetzen, wie ein Chemiker zu ‚denken‘ und nach den Aminosäuren zu suchen, die miteinander reagieren müssen, um das Protein fluoreszieren zu lassen.“ Aus dem Experiment lässt sich aber auch ein breiterer Schluss ziehen: Die Arbeit mit Alphafold 2 zeigt, dass ein Deep-Learning-Algorithmus wohl auch Fragestellungen beantworten kann, auf die sein ursprüngliches Training nicht abgezielt hat.