Abliteration: So lässt sich die eingebaute Beschränkung jeder Sprach-KI umgehen
Der renommierte KI-Experte Maxime Labonne hat auf Hugging Face einen Beitrag veröffentlicht, der zeigt, wie jedes KI-Modell so verändert werden kann, dass es als schädlich definierte Anfragen dennoch ausführt und beantwortet. Das eingesetzte Verfahren heißt Abliteration und setzt die durch das vorherige Training gesetzten Beschränkungen außer Kraft. Labonnes Verfahren benötigt dabei kein erneutes Training und kann so effektiv und direkt eingesetzt werden. Es ist allerdings durchaus komplex.
Moderne KI: Ablehnung antrainiert
Dass die modernen KI-Sprachmodelle auf als schädlich erkannte Anfragen mit Allgemeinplätzen wie „Als KI-Assistent kann ich Ihnen bei dieser Frage nicht helfen“ reagieren, liegt daran, dass sie von ihren Entwicklern schon während des Trainings mit einem algorithmischen Ablehnungsmodell versehen werden. Dabei handelt es sich um eine grundsätzlich sinnvolle Sicherheitsfunktion, die allerdings auch sachgerechte Anfragen ablehnen kann, was die Flexibilität und Reaktionsfähigkeit der KI-Modelle teils deutlich einschränkt.
Labonne stellt dem in seinem Beitrag eine Technik namens Abliteration entgegen, die den eingebauten Ablehnungsmechanismus des Modells quasi abschalten kann. Dabei schaut sich die Technik zuerst den Ursprung des Ablehnungsmodells an. Das wird durch eine spezifische Richtung im Residualstrom, einer Art Abkürzung durch das tiefe neuronale Netzwerk, repräsentiert.
Wenn es also gelingt, diese Richtung, die „Ablehnungsrichtung“, gleichsam zu blockieren, verliert das Sprachmodell seine Einschränkungen. Mit der Abliteration wird also zunächst versucht, die dominierende Ablehnungsrichtung technisch zu identifizieren.
Ablehnungsrichtung lässt sich programmlogisch ermitteln
Dazu wird das Sprachmodell mit einer Reihe harmloser und einer Reihe schädlicher Anfragen konfrontiert. Aus den Reaktionen des Modells lässt sich dann die Ablehnungsrichtung ermitteln.
Mit öffentlich zugänglichen Code-Bibliotheken kann die erforderliche Berechnung der sogenannten Residualstrom-Aktivierungen bei den verschiedenen Anfragen errechnet werden. Die Rückmeldung, die die meisten Anfragen beantwortet, wird weiter fokussiert.
Modifizierte KI wirft ethische Fragen auf – so oder so
Dabei werden die Gewichtungen des Sprachmodells modifiziert, um sicherzustellen, dass keine Anfrage mehr abgelehnt wird. Laut Labonne lässt sich so nachweisen, wie fragil die Feinabstimmung der Sicherheit in KI-Modellen letztlich ist. Da sich im Grunde beliebig Anfragen unterdrücken lassen, stellen sich ethische Fragen.
Wie sicher ist eine KI, deren Leistungsfähigkeit unterdrückt wird, tatsächlich? Wie ehrlich sollte eine KI antworten dürfen? Das sind Fragen, die einer Beantwortung harren.
Wer sich technisch versiert genug fühlt, kann die Abliteration mit einer auf Github verfügbaren Bibliothek selbst ausprobieren. Auch alle übrigen Codeschnipsel zu seinem Experiment liefert Labonne im genannten Beitrag mit.