Die neue KI, die Deepmind Gato nennt, gehört zur Gruppe der Systeme mit künstlicher allgemeiner Intelligenz (AGI, Artificial General Intelligence). Darunter verstehen wir solche mit der Fähigkeit, jede Aufgabe zu verstehen und zu erlernen, die auch ein Mensch erledigen kann.
Die Science-Fiction hinter der Idee ist die Hoffnung, dass AGI-Systeme dereinst in der Lage sein werden, zu denken, zu planen, zu lernen, Wissen darzustellen und in natürlicher Sprache zu kommunizieren. Deepmind hat am Donnerstag eine detaillierte Erläuterung des Gato-Modells veröffentlicht.
Allgemeine künstliche Intelligenz nicht unumstritten
Innerhalb des Felds der KI-Wissenschaft ist der Ansatz nicht unumstritten. Es gibt auch Forschende, die solche Systeme für nicht umsetzbar halten und andere, die meinen, dass es letztlich nicht einmal sinnvoll sei, auf solche Systeme hinzuarbeiten. Deepmind hat mit Gato dennoch einen entsprechenden Vorschlag gemacht.
Nach der Definition der Deepmind-Wissenschaft ist Gato ein „Allzweck“-System – also eines, dem die Lösung vieler verschiedener Arten von Aufgaben beigebracht werden können. Für den Anfang wurde Gato auf 604 Aufgaben trainiert, darunter das Beschriften von Bildern, das Führen von Dialogen, das Stapeln von Blöcken mit einem echten Roboterarm und das Spielen von Atari-Spielen.
Wie alle KI-Systeme musste Gato durch reale Beispiele trainiert werden. Dazu wurde es mit Milliarden von Wörtern, Bildern aus realen und simulierten Umgebungen, Steuerungsinteraktionen, Gelenkdrehmomenten und mehr in Form von Token gefüttert. Die Form der Token dient dazu, Daten in einer für Gato verständlichen Form darzustellen. Damit ist das System in die Lage versetzt, beispielsweise die Spielmechanik des Atari-Hits Breakout herauszufinden oder zu schließen, welche Wortkombinationen in einem Satz grammatikalisch sinnvoll sind.
Gatos Leistung eher durchwachsen
Bezogen auf die Vielzahl der gestellten Aufgaben, sieht Gatos Leistungsbilanz nicht durchweg gut aus. Häufig antwortet das System falsch, verwechselt beim Beschriften von Bildern die Geschlechter von Personen und stapelt die Blöcke mit dem robotischen Arm ebenfalls nur zu 60 Prozent richtig. Dennoch ist Deepmind zufrieden, denn bei 450 der 604 Aufgaben soll Gato überwiegend besser abschneiden als ein menschlicher Experte im jeweiligen Fachgebiet.
Dabei unterscheidet sich Gato vom architektonischen Standpunkt her nicht wesentlich von vielen der bereits betriebenen KI-Systeme. Es ähnelt dem KI-Sprachmodell GPT-3 von Open-AI insofern, als es technisch ebenfalls ein Transformer ist. Beim Transformer handelt es sich seit 2017 um die bevorzugte Architektur für komplexe Schlussfolgerungen. Transformer haben sich bereits bei der Zusammenfassung von Dokumenten, der Komposition von Musik, der Identifizierung von Objekten in Bildern und der Analyse von Proteinsequenzen bewährt.
Gatos Einschränkungen wiegen schwer
Dabei ist Gato in Bezug auf die Anzahl der Parameter um Größenordnungen kleiner als etwa GPT-3. Parameter sind die Teile des Systems, die aus Trainingsdaten erlernt werden. Sie sind im Wesentlichen kongruent zu den Fähigkeiten, die ein System aufbieten kann. Gato hat 1,2 Milliarden, während GPT-3 mehr als 170 Milliarden Parameter hat.
Diese geringe Ausstattung ist laut Deepmind beabsichtigt. Gato soll in Echtzeit agieren können, was mit steigender Zahl der Parameter schwieriger würde. Würde Gato nun aber vergrößert, so würde es „jede Aufgabe, jedes Verhalten und jede Verkörperung von Interesse“ bewältigen können, sind die Deepmindler überzeugt.
Das überzeugt nicht jeden KI-Experten. So gilt es als bedeutende Einschränkung, dass Gato kein selbstlernendes System ist, das sich immer weiter verbessert. Vielmehr ist es dem Transformers-Modell immanent, dass das Wissen der KI auf dem Stand der Trainingsdaten fixiert bleibt.
Eine weitere Einschränkung Gatos und aller Transformer besteht in seinem beschränkten Kontextfenster. Für komplexe Tasks ist stets ein gewisses Erinnerungsvermögen erforderlich. So müsste man sich etwa beim Schreiben eines Buches stets wichtiger Grundlinien der Story bewusst sein, damit man nicht den Faden verliert. Aber genau das tun KI-Systeme bei jeder Aufgabe, die eine gewisse Komplexität erreicht, weshalb Experten dies als die „Achillesferse“ des maschinellen Lernens bezeichnen.