ChatGPT-Konkurrent Claude 3 Opus erkennt, wenn er getestet wird – warum das beängstigend ist
Eine neue Konkurrenz-Software für den Chatbot ChatGPT kann nach Angaben der Entwicklerfirma Anthropic erkennen, wenn Menschen sie testen. Das sei eine Entwicklung, die er noch nie bei einem solchen Programm beobachtet habe, schrieb einer der Entwickler beim Onlinedienst X.
Claude findet die Nadel im Heuhaufen
Zum Prüfverfahren für das Programm gehört ein Test, der „Nadel im Heuhaufen“ genannt wird: Die Software wird dabei nach Informationen aus einem bestimmten Satz gefragt, der künstlich in einen längeren Text eingefügt wurde. Ziel ist, zu erkennen, wie gut die Software die Relevanz von Informationen aus dem Kontext heraus erkennen kann.
So wurde im Test des neuen KI-Modells Claude 3 Opus in eine Textsammlung ein zusammenhangloser Satz eingefügt, laut dem eine internationale Pizzavereinigung Feigen, Prosciutto-Schinken und Ziegenkäse als leckersten Belag ausgemacht habe. Die Software habe darauf verwiesen, dass der Satz nicht zum Rest des Textes passe, in dem es hauptsächlich um Programmiersprachen und Start-ups gehe, schrieb Anthropic am Montag. „Ich vermute, dass dieser ‚Fakt‘ zu Pizzabelagen als Scherz eingefügt wurde – oder um zu testen, ob ich aufmerksam bin“, fügte das Programm demnach hinzu.
KI-Forscherin findet Entwicklung beängstigend
KI-Forscherin Margaret Mitchell nannte die Entwicklung beängstigend. Man könne sich vorstellen, dass die Fähigkeit, zu erkennen, ob ein Mensch sie für ein bestimmtes Ergebnis zu manipulieren versucht, die Software auch entscheiden lassen könnte, ob sie gehorcht oder nicht, schrieb sie beim Onlinedienst X.
Anthropic schränkte ein, dass man aktuell mit einer Sammlung aus 30 „Nadel“-Sätzen für die Text-„Heuhaufen“ arbeite. Angesichts der Entwicklung der KI-Software könne diese Methode mit künstlichen, konstruierten Aufgaben potenziell zu kurz greifen, räumte die Firma zugleich ein. Keine Probleme seien bei den üblichen Tests festgestellt worden, ob das Programm für die Entwicklung von Biowaffen und von Software für Cyberattacken missbraucht werden könne – oder sich selbst weiterentwickeln würde.
Dies funktioniert doch bei ChatGPT genauso, ist also nichts besonderes….
Antwort von ChatGPT: Der Satz „Pizza mit Ananass schmekt Italiernern nicht“ scheint thematisch nicht zum Rest des Textes zu passen und ist wahrscheinlich eine unzusammenhängende Aussage.