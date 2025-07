Was, wenn wir einer Künstlichen Intelligenz bei der Arbeit zusehen könnten, so als würden wir ihr über die Schulter auf einen digitalen Schmierzettel blicken? Genau diese Möglichkeit ist der Kern eines neuen Positionspapiers (PDF), das in dieser Woche für erhebliches Aufsehen gesorgt hat.

Verfasst wurde es von einer außergewöhnlich prominenten Gruppe von Unterzeichner:innen. Die Liste umfasst führende Forscher:innen von OpenAI, Google Deepmind und Anthropic. Auch Koryphäen wie Geoffrey Hinton, der oft als einer der „Paten der KI“ bezeichnet wird, und Ilya Sutskever, der jüngst das auf Sicherheit fokussierte Unternehmen Safe Superintelligence im kalifornischen Palo Alto gegründet hat, gehören zu den Unterstützern.

Der „Schmierzettel“ der KI als Sicherheitsfunktion

Im Zentrum des Aufrufs steht die sogenannte „Chain-of-Thought“ (CoT), zu Deutsch etwa „Gedankenkette“. Damit ist der Prozess gemeint, bei dem ein KI-Modell seine logischen Zwischenschritte zur Lösung eines Problems in für Menschen lesbarer Sprache ausgibt. Das funktioniert ganz ähnlich wie das Lösen einer komplexen Textaufgabe, bei der wir jeden einzelnen Rechenschritt aufschreiben, bevor wir zum Endergebnis kommen.

Ursprünglich wurde dieser Ansatz, der auf einem Paper von Google-Forscher:innen aus dem Jahr 2022 basiert, hauptsächlich zur Leistungssteigerung entwickelt. Modelle, die ihre Gedankengänge offenlegen, machen weniger Fehler. Die Unterzeichner:innen des aktuellen Papiers argumentieren nun, dass diese Transparenz eine einzigartige und wertvolle Chance für die KI-Sicherheit bietet. Sie ermöglicht es, potenziell schädliche Absichten oder Fehlfunktionen zu erkennen, bevor sie zu einer problematischen Handlung führen.

Die fragile Chance: Warum das Zeitfenster sich schließt

Diese Fähigkeit zur Überwachung, die sogenannte „Monitorability“, ist den Expert:innen zufolge jedoch alles andere als selbstverständlich. Sie bezeichnen sie als „fragil“ und warnen davor, dass sie durch zukünftige Entwicklungen verloren gehen könnte. Dafür nennen sie mehrere Gründe.

Zum einen könnten fortschrittliche Trainingsmethoden wie das Reinforcement Learning dazu führen, dass die KI ihre Gedankengänge so stark komprimiert, dass sie für Menschen nicht mehr verständlich sind. Zum anderen könnten neue KI-Architekturen entwickelt werden, die ihre komplexen Schlussfolgerungen gänzlich intern in einem „latenten Raum“ vollziehen, ohne sie je in Sprache zu externalisieren. Eine weitere Gefahr besteht darin, dass der Versuch, die CoT auf „gutes Aussehen“ zu trimmen, dazu führt, dass sie nicht mehr den wahren Denkprozess abbildet, sondern nur noch eine wohlklingende Fassade ist.

Konkrete Forderungen an die Industrie

Um diesem drohenden Verlust entgegenzuwirken, formulieren die Autor:innen klare Handlungsempfehlungen. Sie fordern die Entwickler:innen von KI-Basismodellen auf, standardisierte Metriken und Evaluierungen zu entwickeln, um die Überwachbarkeit ihrer Modelle messbar zu machen.

Diese Ergebnisse sollen dann transparent in den sogenannten „System Cards“, den Beipackzetteln der Modelle, veröffentlicht werden. Auf Basis dieser Werte sollen Entwickler:innen dann entscheiden, ob ein Modell sicher genug für die Veröffentlichung ist oder ob eine frühere, besser überwachbare Version bevorzugt werden sollte. Techcrunch zitiert den OpenAI-Forscher Bowen Baker, der erklärt, man befinde sich in einer kritischen Zeit, in der diese nützliche Fähigkeit in wenigen Jahren verschwinden könnte, wenn man sich nicht darauf konzentriere.

Kein Allheilmittel, aber ein wichtiger Baustein

Die Verfasser:innen des Papiers stellen klar, dass die CoT-Überwachung kein Allheilmittel ist. Sie allein kann Sicherheit nicht garantieren, da Modelle lernen könnten, ihre wahren Absichten zu verbergen oder schädliche Aktionen ohne komplexe, sichtbare Gedankengänge auszuführen.

Die Methode wird daher als eine zusätzliche, wichtige Sicherheitsebene verstanden, die neben anderen Ansätzen wie der „Mechanistic Interpretability“, an der etwa das KI-Unternehmen Anthropic mit großem Aufwand forscht, existieren muss. Der Aufruf ist somit der pragmatische Versuch, ein heute bereits existierendes Sicherheitsfenster zu bewahren, während die Forschung an der vollständigen Entschlüsselung der KI-„Black-Box“ weiterläuft.

