Die ehemalige Google-Ethik-Forscherin Timnit Gebru und ihr Team hatten in der Arbeit, die zu ihrer Entlassung aus dem Unternehmen führte, betont, dass die schiere Größe von KI-Modellen zu steigender Intransparenz führe. Moderne KI-Modelle würden dadurch noch undurchschaubarer als ein durchschnittliches neuronales Netzwerk – und das sei bereits als „Blackbox“ bekannt. Deshalb sei damit zu rechnen, dass Verzerrungen in aktuellen Modellen immer schwerer zu erkennen und zu mildern seien – ein schwerwiegendes ethisches Problem.
OpenAI zeigt: Leistung direkt proportional zur Größe
Diese Einschätzung kommt in einer Zeit, in der Forschende feststellen, dass die Mächtigkeit eines KI-Sprachmodells direkt proportional zu seiner Größe steigt. Das verdanken wir vornehmlich der Arbeit des einst von Elon Musk mitgegründeten Unternehmens OpenAI.
Mit der Veröffentlichung seines GPT-3-Modells hatten deren Experten gezeigt, dass eine Skalierung der Größe eines neuronalen Netzwerks und der Daten, mit denen es trainiert wurde, die Leistung bei einer Vielzahl von Sprachaufgaben erheblich steigern kann. Das galt anderen Einrichtungen als Beispiel. So konnte inzwischen eine ganze Reihe von KI-Unternehmen den Ansatz verifizieren: je größer das Modell, desto besser die Ergebnisse.
Die Forschenden von Deepmind liefern jetzt einen Gegenentwurf. In einer Reihe von Papieren erklärt das Team, wie es zunächst sein eigenes großes Sprachmodell namens Gopher erstellt hat, das mehr als 60 Prozent größer ist als GPT-3.
Deepmind erweitert KI um Datenbank
Dann zeigen sie, wie ein viel kleineres Modell, das mit der Fähigkeit ausgestattet ist, Informationen in einer Datenbank nachzuschlagen, mit Gopher und anderen großen Sprachmodellen mithalten kann. Sie nennen dieses Modell Retro, was als Abkürzung für Retrieval-Enhanced Transformer (Deutsch etwa: durch Nachschlagemöglichkeiten verbesserter Transformator) steht. Transformatoren sind eine spezielle Art von neuronalen Netzen, die in den meisten großen Sprachmodellen verwendet werden. Sie werden anhand von großen Datenmengen trainiert und sollen in der Lage sein, vorherzusagen, wie mit menschlichen Nutzenden im konkreten Anwendungsfall zu interagieren ist.
Auch im Retro-Modell werkelt ein Transformator. Der kann jedoch auf eine entscheidende Erweiterung zugreifen. So sagt Retro nicht nur voraus, welcher Text als Nächstes kommen sollte. Vielmehr kann Retro auf eine Datenbank mit zwei Billionen Textabschnitten zugreifen, um nach Passagen mit ähnlicher Sprache zu suchen, die seine Vorhersagen verbessern könnten.
Diese Erweiterung hebt Retro auf eine Leistungsstufe, die mit Modellen konkurrieren kann, die um das bis zu 25-fache größer sind. Besonders interessant unter Ethik-Aspekten: Die Transparenz, welche Textabschnitte das Modell für seine Vorhersagen herangezogen hat, könnte die Ergebnisse erklären helfen. Retro wäre keine reine Blackbox mehr. Zudem könnten verzerrende Einflüsse – einmal erkannt – direkt in der Datenbank verändert werden.
Aber was ist erst mit Riesenmodellen nebst Datenbank möglich?
Neben diesem Vorteil konnten die Forschenden zeigen, dass der Rückgriff auf eine Datenbank die Möglichkeit eröffnet, das Wissen des Modells zu aktualisieren, ohne es neu zu trainieren. Ebenfalls ist es nach Deepmind-Erkenntnissen möglich, bestehende Transformatoren für die Arbeit mit einer Datenbank nachzurüsten. Dazu müsse nur ein kleiner Teil des Netzwerks neu trainiert werden.
Dass der Retro-Ansatz nun tatsächlich Ethik-Forschende wie Timnit Gebru ruhiger schlafen lässt, steht nicht zu erwarten. Denn längst machen sich Forschende darüber Gedanken, wie gut erst riesige Sprachmodelle mit Datenbankanbindung performen könnten. Es bleibt also ein Rat Race.