Anzeige
Anzeige
News

Neue Trainingsmethode: KI lernt von Menschen – auch aus deren Fehlern

Eine neue Methode namens Human Guided Exploration (HuGE) beschleunigt das KI-Training erheblich und soll es letztlich autonom machen. Die wichtigste Rolle beim neuen Ansatz spielen dennoch die Menschen.

4 Min.
Artikel merken
Anzeige
Anzeige

Neue KI-Trainingsmethode setzt auf Feedback vieler. (Bild: bahadirbermekphoto/Adobe Stock)

Die gängigste Methode, um einem KI-Agenten eine neue Aufgabe beizubringen, besteht im sogenannten Verstärkungslernen. Das ist im Grunde ein Belohnungsprozess, bei dem die KI für Aktionen belohnt wird, die sie einem Ziel näher bringen.

Anzeige
Anzeige

Frühere Belohnungssysteme schwer zu skalieren

Das gilt als schwierig, weil das Belohnungssystem im Prozess stets aktualisiert und verfeinert werden muss. Im Grunde muss die KI engmaschig betreut werden. Das ist aufwendig und schwer zu skalieren, insbesondere wenn die Aufgabe komplex ist und viele Schritte umfasst.

Forscher:innen des MIT, der Harvard-Universität und der Universität von Washington haben unter der griffigen Bezeichnung HuGE einen Ansatz für das Verstärkungslernen entwickelt, der sich nicht auf eine von Experten entwickelte Belohnungsfunktion stützt. Stattdessen nutzt er das Feedback vieler, um der KI beim Erreichen ihres Ziels zu unterstützen.

Anzeige
Anzeige

Auch wenn Feedback vieler zwangsläufig fehlerhaft, mindestens ungenau ist, zeigt sich, dass der neue Ansatz der KI ein schnelleres Lernen ermöglicht. Es scheint möglich, dass HuGE andere Methoden den Rang ablaufen kann.

Neue Methode bindet die Crowd ein

Vor allem die hervorragende Skalierbarkeit des Ansatzes könnte die Trainingszeiten stark reduzieren und deutlich schnellere Erfolge bringen. Letztlich wäre das KI-Training nur davon abhängig, wie viele Nicht-Expert:innen zur Unterstützung bereitstehen.

Anzeige
Anzeige

„Eine der zeitaufwändigsten und schwierigsten Aufgaben bei der Entwicklung eines Roboteragenten ist heute die Entwicklung der Belohnungsfunktion. Heutzutage werden Belohnungsfunktionen von erfahrenen Forschern entworfen – ein Paradigma, das nicht skalierbar ist, wenn wir unseren Robotern viele verschiedene Aufgaben beibringen wollen. Unsere Arbeit schlägt einen Weg vor, um das Lernen von Robotern zu skalieren, indem wir das Design der Belohnungsfunktion in die Hände von Menschen legen und es Nicht-Experten ermöglichen, nützliches Feedback zu geben“, sagt MIT-Professor Pulkit Agrawal.

Sein Kollege Marcel Torne vom Improbable AI Lab am MIT ergänzt: „Bei unserer Methode leitet die Belohnungsfunktion den Agenten an, was er erkunden soll, anstatt ihm genau zu sagen, was er tun soll, um die Aufgabe zu erfüllen. Selbst wenn die menschliche Überwachung etwas ungenau und verrauscht ist, kann der Agent trotzdem erforschen, was ihm hilft, viel besser zu lernen““.

Anzeige
Anzeige

Die Forschungsergebnisse werden die beiden MIT-Mitarbeiter und ihr Team ab dem 10. Dezember 2023 auf der Conference on Neural Information Processing Systems im US-amerikanischen New Orleans vorstellen.

Dabei ist ihr Ansatz verhältnismäßig einfach. Anstelle eines harten binären Feedbacks setzt die neue Methode eher auf eine Art hilfreicher Tipps. So soll die KI stetig selbst weiter Alternativen erforschen und vom Menschen dabei nur vage angeleitet werden.

Frühere Belohnungssysteme zu unflexibel

Schon früher hatte es Versuche gegeben, das binäre Feedback (richtig/falsch) um Feedback aus einer größeren Gruppe von Nicht-Expert:innen zu ergänzen. Das jedoch führt nur dazu, dass das Belohnungssystem in sich verwässerte und letztlich nicht mehr funktionierte.

Anzeige
Anzeige

„Im Grunde genommen nahm der Agent die Belohnungsfunktion zu ernst. Er versuchte, die Belohnungsfunktion perfekt zu erfüllen. Anstatt also die Belohnungsfunktion direkt zu optimieren, verwenden wir sie nur, um dem Roboter mitzuteilen, welche Bereiche er erforschen soll“, erläutert Torne. Für HuGE, ihre neue Methode des verstärkenden Lernens entkoppelte Tornes Team den Prozess daher in zwei separate Teile, die jeweils von einem eigenen Algorithmus gesteuert werden.

Einerseits wird ein Zielauswahlalgorithmus kontinuierlich mit menschlichem Feedback aus der Menge aktualisiert. Das Feedback wird nicht als Belohnungsfunktion verwendet, sondern soll lediglich die eigene Erforschung durch die KI anfüttern. Das dürfen wir uns vorstellen, als würden die Nicht-Expert:innen Brotkrumen fallen lassen, die die KI schrittweise zu ihrem Ziel führen.

Andererseits erkundet die KI auf eigene Faust und damit selbst gesteuert. Sie sammelt Bilder oder Videos von Aktionen, die sie ausprobiert, sendet sie dann an Menschen und aktualisiert sich aus deren Feedback.

Anzeige
Anzeige

Hilfe zur Selbsthilfe für die KI

Dadurch wird der Bereich, den die KI erkunden kann, eingegrenzt und sie gelangt schrittweise in Bereiche, die ihrem Ziel näher sind. Gibt es jedoch kein Feedback oder dauert es eine Weile, bis das Feedback eintrifft, lernt sie – zwar langsamer, aber immerhin – selbstständig weiter. So können Rückmeldungen in unregelmäßigen Abständen oder völlig asynchron eingeholt werden.

„Die Erkundungsschleife kann autonom weiterlaufen, weil sie einfach erkundet und neue Dinge lernt. Und wenn sie dann ein besseres Signal erhält, wird sie es auf konkretere Weise erkunden. Man kann sie einfach in ihrem eigenen Tempo weiterlaufen lassen“, fügt Torne hinzu.

Da das Feedback das Verhalten der KI nur sanft lenkt, wird sie schließlich lernen, die Aufgabe auch dann zu lösen, wenn die Nutzer:innen (teils) falsche Antworten geben. Das funktioniert nach der aktuellen Studienlage ausgezeichnet. So half HuGE in realen und simulierten Experimenten der KI schneller als andere Methoden.

Anzeige
Anzeige

Nicht-Expert:innen beschleunigen Lernvorgang

Tatsächlich konnten die Forscher:innen sogar nachweisen, dass die von Nicht-Expert:innen beigesteuerten Daten eine bessere Leistung erbrachten als die synthetischen Daten aus dem Labor. Mit dieser Erkenntnis gelang es ihnen, HuGE so zu verbessern, dass die KI nach dem Lernvorgang selbstständig ihre Umgebung zurücksetzen kann, um weiterzulernen. Wenn sie zum Beispiel lernt, einen Schrank zu öffnen, leitet die Methode sie auch dazu an, den Schrank zu schließen.

„Jetzt können wir die KI völlig autonom lernen lassen, ohne dass sie von Menschen zurückgesetzt werden muss“, freut sich Torne und weist darauf hin, dass es gerade unter diesem Aspekt wichtig sei, sicherzustellen, dass die KI mit grundlegenden menschlichen Werten in Einklang gebracht wird.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige