Um zu verstehen, was Flan-T5 kann, schauen wir zuerst auf das zugrundeliegende Palm, das Google im April 2022 vorgestellt hatte. Dieses riesige KI-Sprachmodell, das seinerzeit größte der Welt, verfügt über 540 Milliarden Parameter und ist so in der Lage, bei vielen Aufgaben mit der menschlichen Intelligenz mitzuhalten.
Palm: KI mit Multitasking-Features
Das Besondere an Palm ist – neben der schieren Größe – eine integrierte Form von Multitasking, die Google Pathways nennt. Durch diesen Performance-Zusatz konnte sich schon Palm in 28 von 29 Tests zur Beurteilung der Leistungsfähigkeit eines Sprachmodells gegen die Konkurrenz durchsetzen.
Dabei kamen vorwiegend einsprachige Tests wie einfache Frage-Antwort-Tests, Lückentexte, Satzvervollständigungen, Aufgaben zum Leseverstehen und zum logischen Denken sowie Tests, bei denen es darauf ankommt, aus natürlich-sprachlichen Aussagen die richtigen Schlüsse zu ziehen, zum Einsatz. In diesen Tests zeigte Palm teils Fähigkeiten, die auf dem Niveau des Sprachverständnisses von 9- bis 12-Jährigen lagen, so Google.
Eine „starke Leistung“ konnte dem System zudem bei Übersetzungsaufgaben bescheinigt werden. Gleiches konnte für das besonders anspruchsvolle Lernen mit vergleichsweise wenig Information, das sogenannte Few-Shot-Learning, festgestellt werden. Auch hier habe Palm mit dem Durchschnitt menschlicher Ergebnisse für diese Tests mithalten können, freuten sich die Forschenden.
Feintuning von Palm führt zu Flan-T5
Bei Flan-T5 handelt es sich nun um eine im Detail verbesserte Version des Palm-Modells, das Google in fünf verschiedenen Größen anbietet. Flan-T5 setzt dabei nicht nur auf dem Palm-Modell auf, sondern kombiniert dieses mit dem Text-To-Text Transfer Transformer (T5), den Google bereits bei seinen Text-zu-Medien-KIs Imagen und Imagen Video einsetzt.
Entsprechend soll Flan-T5 alles beherrschen, was Palm und T5 alleine bereits können. In der Kombination soll sich die Gesamtleistung zusätzlich verbessert haben. So will Google insbesondere beim Ziehen logischer Schlüsse (Reasoning) in mehreren Schritten Fortschritte erzielt haben.
Statt Einsprachigkeit soll das neue Modell rund 60 Sprachen beherrschen – darunter neben Englisch, Französisch, Spanisch, Russisch, Japanisch, Chinesisch und Deutsch auch skandinavische, einige afrikanische und indische sowie asiatische Sprachen. Wie gut der komplette Funktionssatz in allen Sprachen funktioniert, ist noch unklar.
Forschungsergebnisse und KI-Modell frei als Open Source
Ein Paper, das das Team um Hyung Won Chung und 30 weitere Google-Brain-Forschende jüngst auf dem Arxiv-Server veröffentlicht hat, beschreibt die Forschung an Sprachmodellen als Haupteinsatzbereich des neuen Flan-T5.
Aus Gründen der Fairness und unter Aspekten der Sicherheitsforschung habe man sich entschieden, das Modell als Open Source frei zugänglich zu machen. Ebenso solle Flan-T5 beim Ausloten der Grenzen großer Sprachmodelle helfen. Entsprechend stehen alle Modelle im Google-Research-Repository bei Github bereit.