KI-Agent macht sich zum Systemadministrator: Wenn ein KI-Experiment schief läuft
Bei Buck Shlegeris, CEO von Redwood Research, kam es zu einem unvorhergesehenen Vorfall, als er mit einem selbst entwickelten KI-Agenten experimentierte. Der Agent basiert auf einer Python-Integration von Anthropics Sprachmodell Claude.
Der Sicherheitsforscher bat den KI-Agenten, eine SSH-Verbindung von seinem Laptop zu seinem Desktop herzustellen, ohne dass er die IP-Adresse des Zielrechners kannte. Nach einem Netzwerkscan findet der Agent den Computer allerdings und stellt die Verbindung her.
Anstatt nun auf weiteren Input zu warten, entschied sich die KI allerdings weiterzumachen. Sie machte sich selbst zum Systemadministrator und führte dort Updates am System, darunter Kernel-Updates über den Paketmanager Apt durch, erklärt Shlegeris auf X.
Die KI wird ungeduldig
Allerdings dauert dem KI-Agenten das Update zu lange, weshalb dieser herausfinden möchte, warum das so ist. Dafür beginnt er, die Grub-Konfiguration zu ändern. Shlegeris beobachtet den Vorfall neugierig und entscheidet sich dazu, den Agenten weitermachen zu lassen. Die Änderungen der KI führten schließlich dazu, dass der PC nicht mehr hochfährt.
Gegenüber The Register meint der Sicherheitsforscher, dass der Vorfall sein Fehler war. Er hätte explizit angeben müssen, dass der Agent nach der Erledigung der Aufgabe stoppen soll. Außerdem hatte die KI auch sonst keine Grenzen gesetzt bekommen, was sie tun und lassen darf.
Bevor solche KI-Agenten auf Systeme losgelassen werden, sollten sie ausführlich getestet werden und es sollte „Red-Teaming“ stattfinden, welches mögliche Schwachstellen in dem Agenten identifizieren kann.
Shlegeris nutzt seinen Agenten weiter
Shlegeris hat sich von dem Vorfall allerdings nicht abschrecken lassen. Er möchte den Agenten weiterhin für einfache Systemverwalungsaufgaben nutzen. Er plant sogar, ihn einzusetzen, um den Bootfehler wieder zu beheben.
In der Tat sollten KI Systeme niemals völlig eigenständig Systeme administrieren. Ein entsprechender Client sollte sicherstellen, dass jeder Befehl der KI durch den Benutzer bestätigt wird. Der KI Assistent für Linux Systeme „Admin Companion“ zum Beispiel hat ein konventionell implementiertes Security Layer, das als Wrapper um die KI jeden Befehl der KI durch den Benutzer bestätigen lässt. Dies ist eine der möglichen Maßnahmen, um den Einsatz von KI sicher zu gestalten.