Anthropic enthüllt bisher geheime System-Prompts für seine Sprach-KI Claude
In einem in der Branche bisher unüblichen Schritt will sich Anthropic, das Unternehmen hinter der Claude-KI, von der Konkurrenz abheben. Dazu veröffentlicht die Firma nun die sogenannten System-Prompts seiner Modelle Claude 3 Opus, Claude 3.5 Sonnet und Claude 3.5 Haiku auf ihrer Website.
Was genau sind die System-Prompts? Einfach ausgedrückt eine Art Gebrauchsanweisung für KI-Modelle, die festlegt, wie diese sich gegenüber den Nutzer:innen verhalten sollen. Das kann von einfachen Richtlinien wie „Claude kann keine URLs und Videos öffnen“ bis hin zu komplexeren Anweisungen wie „Claude sollte immer neutral und objektiv bleiben“ reichen. Diese Prompts steuern maßgeblich das Verhalten und die Antworten der KI.
In der Regel halten Anbieter diese System-Prompts geheim, unter anderem, um Missbrauch vorzubeugen. Dass Anthropic sie dennoch veröffentlicht, passt insofern gut, als das Unternehmen von Beginn an auf Ethik und Transparenz bei der Entwicklung seiner Modelle setzt. Laut Alex Albert, Head of Developer Relations bei Anthropic, plane man, diese Praxis auch in Zukunft fortzusetzen und regelmäßig Updates der Prompts zu veröffentlichen.
System-Prompt bietet genaueren Einblick in das Verhalten der KI
Und welche Erkenntnisse bietet ein Blick in die systemweiten Prompts am Beispiel von Claude 3.5 Sonnet nun? Zum Beispiel versuchen die Entwickler:innen dem Chatbot einige Phrasen und Füllwörter auszutreiben. Claude soll direkt auf alle Nachrichten von Menschen antworten, dabei aber auf Wörter wie „Natürlich“, „Selbstverständlich“, „Absolut“, „Super“ oder „Sicher“ verzichten.
Auch die Thematik der Halluzinationen von Sprach-KIs fließen in die System-Prompts ein. Wenn Claude bestimmte Artikel, wissenschaftliche Arbeiten oder Bücher erwähnt oder zitiert, soll es die Nutzer:innen immer darauf hinweisen, dass es keinen Zugriff auf eine Suchmaschine oder Datenbank hat und daher Zitate halluzinieren könnte. Auch der Hinweis, dass die Nutzer:innen Zitate immer überprüfen sollten, ist in den Prompts hinterlegt.
Und wenn es gar keine Antwort gibt, oder eine Frage nicht beantwortet werden kann, dann soll Claude dies dem Nutzer transparent mitteilen, aber sich dafür interessanterweise nicht entschuldigen.