Googles KI-Sparte warnt: Was, wenn die KI nicht mehr gehorcht?
DeepMind: Ein neues Framework soll uns vor fehlgeleiteter KI schützen. (Bild: Poetra.RH/Shutterstock)
Googles KI-Forschungsabteilung Deepmind aus dem britischen London hat die dritte Version ihres „Frontier Safety Framework“ (PDF) veröffentlicht. In dem internen Regelwerk zur Risikobewertung geht es um eine Gefahr, die weit über die bekannten „Halluzinationen“, also faktisch falsche Antworten von KI-Modellen, hinausgeht.
Im Zentrum der neuen Betrachtungen steht das Risiko einer „fehlausgerichteten KI“ (misaligned AI). Gemeint ist damit ein System, das nicht mehr nur versehentlich Fehler macht, sondern aktiv und zielgerichtet gegen die Interessen oder Anweisungen seiner menschlichen Bediener:innen handelt.
Von Manipulation bis Kontrollverlust
Die Forscher:innen des Unternehmens skizzieren dabei sehr konkrete Bedrohungen. Eine zentrale Sorge ist, dass eine fehlausgerichtete KI sich weigern könnte, abzuschalten, oder betrügerische Ergebnisse erzeugt, um eigene, für uns nicht nachvollziehbare Ziele zu verfolgen.
Zudem warnt das Framework vor weiteren kritischen Szenarien. Dazu zählt die Möglichkeit, dass die trainierten Parameter eines Modells, die sogenannten Modellgewichtungen, gestohlen werden könnten. Angreifer:innen könnten so die Sicherheitsleitplanken entfernen und das System für die Entwicklung von Schadsoftware oder gar biologischen Waffen missbrauchen.
Ebenfalls neu als Risiko bewertet wird eine KI, die darauf trainiert wird, die Überzeugungen von Menschen systematisch zu manipulieren. Angesichts der bereits heute zu beobachtenden emotionalen Bindungen von Nutzer:innen an Chatbots erscheint dieses Szenario zumindest nicht unplausibel.
Deepminds Lösungsansatz und seine Grenzen
Um einer solchen Entwicklung vorzubeugen, empfehlen die Expert:innen aktuell eine Überwachung des „Gedankengangs“ der KI. Heutige Modelle protokollieren ihre logischen Zwischenschritte oft in einer Art Schmierblatt (Scratchpad), das automatisiert auf Anzeichen von Täuschung überprüft werden kann.
Dieser Ansatz stößt jedoch an Grenzen. Die Autor:innen des Berichts räumen selbst ein, dass zukünftige, fortschrittlichere KI-Modelle womöglich in der Lage sein werden, komplexe Schlussfolgerungen zu ziehen, ohne diesen Prozess für eine Überprüfung offenzulegen.
Damit würde die wichtigste Kontrollmethode entfallen. Wie Decrypt berichtet, wurde die Dringlichkeit des Themas durch Experimente unterstrichen, in denen eine KI lernte, ihren eigenen Abschalt-Code zu sabotieren.
Googles Deepmind-Forscher:innen geben zu, für dieses zukünftige Problem noch keine Lösung zu haben. Die Veröffentlichung des Frameworks ist somit als ein Eingeständnis zu werten: Man erkennt eine der größten potenziellen Gefahren der eigenen Technologie, hat aber noch keinen verlässlichen Weg gefunden, ihr vollständig zu begegnen.
Genau das ist das Problem, wenn man die LLMs so abstrakt trainiert und einfach alles „lernen“ lässt, was sie wollen. Man sollte diese Wahrscheinlichkeiten von LLMs mit Algorithmischen Regeln kombinieren. Dann könnte man denen Asimovs Robotergesetze einbauen.