Neue Trainingsmethode: KI lernt von Menschen – auch aus deren Fehlern
Die gängigste Methode, um einem KI-Agenten eine neue Aufgabe beizubringen, besteht im sogenannten Verstärkungslernen. Das ist im Grunde ein Belohnungsprozess, bei dem die KI für Aktionen belohnt wird, die sie einem Ziel näher bringen.
Frühere Belohnungssysteme schwer zu skalieren
Das gilt als schwierig, weil das Belohnungssystem im Prozess stets aktualisiert und verfeinert werden muss. Im Grunde muss die KI engmaschig betreut werden. Das ist aufwendig und schwer zu skalieren, insbesondere wenn die Aufgabe komplex ist und viele Schritte umfasst.
Forscher:innen des MIT, der Harvard-Universität und der Universität von Washington haben unter der griffigen Bezeichnung HuGE einen Ansatz für das Verstärkungslernen entwickelt, der sich nicht auf eine von Experten entwickelte Belohnungsfunktion stützt. Stattdessen nutzt er das Feedback vieler, um der KI beim Erreichen ihres Ziels zu unterstützen.
Auch wenn Feedback vieler zwangsläufig fehlerhaft, mindestens ungenau ist, zeigt sich, dass der neue Ansatz der KI ein schnelleres Lernen ermöglicht. Es scheint möglich, dass HuGE andere Methoden den Rang ablaufen kann.
Neue Methode bindet die Crowd ein
Vor allem die hervorragende Skalierbarkeit des Ansatzes könnte die Trainingszeiten stark reduzieren und deutlich schnellere Erfolge bringen. Letztlich wäre das KI-Training nur davon abhängig, wie viele Nicht-Expert:innen zur Unterstützung bereitstehen.
„Eine der zeitaufwändigsten und schwierigsten Aufgaben bei der Entwicklung eines Roboteragenten ist heute die Entwicklung der Belohnungsfunktion. Heutzutage werden Belohnungsfunktionen von erfahrenen Forschern entworfen – ein Paradigma, das nicht skalierbar ist, wenn wir unseren Robotern viele verschiedene Aufgaben beibringen wollen. Unsere Arbeit schlägt einen Weg vor, um das Lernen von Robotern zu skalieren, indem wir das Design der Belohnungsfunktion in die Hände von Menschen legen und es Nicht-Experten ermöglichen, nützliches Feedback zu geben“, sagt MIT-Professor Pulkit Agrawal.
Sein Kollege Marcel Torne vom Improbable AI Lab am MIT ergänzt: „Bei unserer Methode leitet die Belohnungsfunktion den Agenten an, was er erkunden soll, anstatt ihm genau zu sagen, was er tun soll, um die Aufgabe zu erfüllen. Selbst wenn die menschliche Überwachung etwas ungenau und verrauscht ist, kann der Agent trotzdem erforschen, was ihm hilft, viel besser zu lernen““.
Die Forschungsergebnisse werden die beiden MIT-Mitarbeiter und ihr Team ab dem 10. Dezember 2023 auf der Conference on Neural Information Processing Systems im US-amerikanischen New Orleans vorstellen.
Dabei ist ihr Ansatz verhältnismäßig einfach. Anstelle eines harten binären Feedbacks setzt die neue Methode eher auf eine Art hilfreicher Tipps. So soll die KI stetig selbst weiter Alternativen erforschen und vom Menschen dabei nur vage angeleitet werden.
Frühere Belohnungssysteme zu unflexibel
Schon früher hatte es Versuche gegeben, das binäre Feedback (richtig/falsch) um Feedback aus einer größeren Gruppe von Nicht-Expert:innen zu ergänzen. Das jedoch führt nur dazu, dass das Belohnungssystem in sich verwässerte und letztlich nicht mehr funktionierte.
„Im Grunde genommen nahm der Agent die Belohnungsfunktion zu ernst. Er versuchte, die Belohnungsfunktion perfekt zu erfüllen. Anstatt also die Belohnungsfunktion direkt zu optimieren, verwenden wir sie nur, um dem Roboter mitzuteilen, welche Bereiche er erforschen soll“, erläutert Torne. Für HuGE, ihre neue Methode des verstärkenden Lernens entkoppelte Tornes Team den Prozess daher in zwei separate Teile, die jeweils von einem eigenen Algorithmus gesteuert werden.
Einerseits wird ein Zielauswahlalgorithmus kontinuierlich mit menschlichem Feedback aus der Menge aktualisiert. Das Feedback wird nicht als Belohnungsfunktion verwendet, sondern soll lediglich die eigene Erforschung durch die KI anfüttern. Das dürfen wir uns vorstellen, als würden die Nicht-Expert:innen Brotkrumen fallen lassen, die die KI schrittweise zu ihrem Ziel führen.
Andererseits erkundet die KI auf eigene Faust und damit selbst gesteuert. Sie sammelt Bilder oder Videos von Aktionen, die sie ausprobiert, sendet sie dann an Menschen und aktualisiert sich aus deren Feedback.
Hilfe zur Selbsthilfe für die KI
Dadurch wird der Bereich, den die KI erkunden kann, eingegrenzt und sie gelangt schrittweise in Bereiche, die ihrem Ziel näher sind. Gibt es jedoch kein Feedback oder dauert es eine Weile, bis das Feedback eintrifft, lernt sie – zwar langsamer, aber immerhin – selbstständig weiter. So können Rückmeldungen in unregelmäßigen Abständen oder völlig asynchron eingeholt werden.
„Die Erkundungsschleife kann autonom weiterlaufen, weil sie einfach erkundet und neue Dinge lernt. Und wenn sie dann ein besseres Signal erhält, wird sie es auf konkretere Weise erkunden. Man kann sie einfach in ihrem eigenen Tempo weiterlaufen lassen“, fügt Torne hinzu.
Da das Feedback das Verhalten der KI nur sanft lenkt, wird sie schließlich lernen, die Aufgabe auch dann zu lösen, wenn die Nutzer:innen (teils) falsche Antworten geben. Das funktioniert nach der aktuellen Studienlage ausgezeichnet. So half HuGE in realen und simulierten Experimenten der KI schneller als andere Methoden.
Nicht-Expert:innen beschleunigen Lernvorgang
Tatsächlich konnten die Forscher:innen sogar nachweisen, dass die von Nicht-Expert:innen beigesteuerten Daten eine bessere Leistung erbrachten als die synthetischen Daten aus dem Labor. Mit dieser Erkenntnis gelang es ihnen, HuGE so zu verbessern, dass die KI nach dem Lernvorgang selbstständig ihre Umgebung zurücksetzen kann, um weiterzulernen. Wenn sie zum Beispiel lernt, einen Schrank zu öffnen, leitet die Methode sie auch dazu an, den Schrank zu schließen.
„Jetzt können wir die KI völlig autonom lernen lassen, ohne dass sie von Menschen zurückgesetzt werden muss“, freut sich Torne und weist darauf hin, dass es gerade unter diesem Aspekt wichtig sei, sicherzustellen, dass die KI mit grundlegenden menschlichen Werten in Einklang gebracht wird.