Deep-Learning-KI Alphafold hat wohl mehr gelernt als beabsichtigt

Seit dem Durchbruch der Software ist die Zahl der dokumentierten 3D-Strukturen von Proteinen drastisch gestiegen, sie sind in einer Datenbank frei zugänglich. Die wird sich in in den kommenden Jahren noch deutlich erweitern. Chemie-Professor Marc Zimmer vom Connecticut College schätzt, dass es allein 2022 rund 100 Millionen neue Einträge geben wird, bis Ende des Jahres „wird voraussichtlich die Struktur der Hälfte aller bekannten Proteine dokumentiert sein“.
Worauf Alphafold allerdings nicht ausgelegt ist, beschreibt Zimmer jetzt in einem Artikel für The Conversation: „Alphafold erklärt nicht, wie sich die Proteine so schnell und genau falten“ und „wurde nicht entwickelt, um vorherzusagen, wie Proteine miteinander interagieren“. Eben diese Interaktion zwischen Proteinen hat der Chemiker sich mit einem Team genauer angeschaut – und die KI-Software vor eine neue Aufgabe gestellt.
„Wir hatten eine schwierige Frage für Alphafold: Hatte es durch seine strukturellen Trainingsdaten etwas Chemie gelernt? Konnte es erkennen, ob Aminosäuren miteinander reagieren würden – ein seltenes, aber wichtiges Ereignis?“
Zimmer interessiert sich besonders für Proteine, die unter anderem in vielen Meeresorganismen vorkommen und fluoreszieren, also von selbst leuchten, wenn sie zuvor bestrahlt werden. Dieses Leuchten könne beispielsweise für die Erforschung von Krankheiten relevant sein, so der Chemiker in seinem Text.
Zum Zeitpunkt der Untersuchung waren in der Deepmind-Datenbank insgesamt 578 Proteine gespeichert, die theoretisch fluoreszieren. Zehn davon sind aufgrund einer Reaktion mit sich selbst allerdings „kaputt“ und fluoreszieren nicht.
„Nur ein Chemiker mit umfangreichem Wissen über fluoreszierende Proteine wäre in der Lage, anhand der Aminosäuresequenz die fluoreszierenden Proteine zu finden.“ Also legten Zimmer und sein Team Alphafold 2 die Aminosäuresequenzen von insgesamt 44 fluoreszierenden Proteinen vor, die bislang nicht Teil der Strukturdatenbank waren, für die KI also unbekannt. Würde die Software einen Unterschied zwischen „kaputten“ und intakten fluoreszierenden Proteinen machen?
Tatsächlich stellte Alphafold 2 die leuchtenden und kaputten fluoreszierenden Proteine unterschiedlich dar. „Es hatte herausgefunden, welche Aminosäuren in fluoreszierenden Proteinen für die Chemie verantwortlich sind, die sie zum Leuchten bringt“, so Zimmer.
Er vermutet, dass die zahlreichen Sequenzabgleiche und die Trainingsdatenbank „Alphafold 2 in die Lage versetzen, wie ein Chemiker zu ‚denken‘ und nach den Aminosäuren zu suchen, die miteinander reagieren müssen, um das Protein fluoreszieren zu lassen.“ Aus dem Experiment lässt sich aber auch ein breiterer Schluss ziehen: Die Arbeit mit Alphafold 2 zeigt, dass ein Deep-Learning-Algorithmus wohl auch Fragestellungen beantworten kann, auf die sein ursprüngliches Training nicht abgezielt hat.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team