Der Chatbot Alpaca AI ist wieder offline. Das verantwortliche Team an der Stanford University hat den Stecker gezogen, nachdem das „intelligente“ Sprachmodell „halluzinierte“ und selbstbewusst Fehlinformationen streute. The Register berichtete.
Als Gründe nennen die Organisatoren zudem Kosten- und Sicherheitsbedenken. Erst letzte Woche haben sie eine Demo und eine Reihe Assets freigegeben, damit man selbst mit Alpaca herumspielen kann. Viele davon stehen noch online.
Alpaca AI basiert auf der Llama-7B-KI von Facebook-Mutterkonzern Meta. Die Forscher:innen warnen, dass auch andere Modelle wie ChatGPT, GPT-3.5, Claude und Bing Chat immer noch viele Mängel aufweisen. Die Wissenschaftler:innen schrieben in ihrem Start-Statement: „Sie können falsche Informationen erzeugen, soziale Stereotypen verbreiten und toxische Sprache produzieren.“
Übliche Schwächen von Sprachmodellen: Halluzination, Toxizität & Co
Die Verfasser:innen betonten, Alpaca habe nur akademischen Zwecken gedient. Das liegt auch daran, dass das Team Instruktionsdaten aus GPT verwendet hat – und OpenAI in den Nutzungsbedingungen ausdrücklich das Erzeugen konkurrierender Sprachmodelle untersagt.
Die Forschenden legen in dem Bericht offen, welche Instanzen sie mit welchen Informationen gefüttert haben. Das Ergebnis: „Alpaca weist auch einige übliche Schwächen von Sprachmodellen auf, darunter Halluzination, Toxizität und Stereotypen. Insbesondere Halluzinationen scheinen eine häufige Fehlerquelle für Alpaca zu sein, selbst im Vergleich zu text-davinci-003“ (GPT 3.5).
Demo und andere Daten freigegeben
Zwar schaltet die Gruppe den Bot zunächst ab, der Quellcode ist jedoch weiter auf GitHub verfügbar. Das gilt auch für die Trainingsdaten, den Code für die Datengenerierung und den Trainingscode auf Basis der Hugging-Face-API. Ursprünglich sollten – unter Absprache mit Meta – die Modellgewichte hinzukommen.
Die Risiken seien den Forschenden bewusst, steht in dem Statement. Sie nennen „zum Beispiel die weitere Verbreitung schädlicher Inhalte und die Senkung der Barriere für Spam, Betrug oder Desinformation.“
Um böswillige Akteure daran zu hindern, Modelle zu erstellen, die Schaden anrichten, habe man einen Inhaltsfilter implementiert, der wiederum aus OpenAIs Content-Moderation-API stamme. Die API versucht Inhalte auszufiltern, die nicht den Nutzungsrichtlinien von OpenAI entsprechen. Die Gruppe schreibt: „Wir sind uns bewusst, dass die Abschwächungsmaßnahmen umgangen werden können.“ Das gelte speziell, wenn Benutzer:innen über die Konfiguration ihre eigenen Modelle trainieren.
Grund für das Versagen der 600-Dollar-KI unbekannt
Den Startschuss für das Projekt hat im Prinzip Meta gegeben, in dem es Llama ausgewählten Forscher:innen zur Verfügung gestellt hat. Die Computerwissenschaftler:innen von der Stanford University entwickelten daraus das Open-Source-Modell mit sieben Milliarden Parametern. Warum es versagt hat, können die Forscher:innen nicht sagen. Sie empfehlen eine weitere und intensive Evaluierung der Engine.
Berichten zufolge sollen sie für Alpaca AI nur 600 US-Dollar aufgewendet haben. Allerdings schossen schnell die Kosten für das Hosting in die Höhe.
Findige Bastler:innen schafften es in kurzer Zeit, Alpaca AI auf Raspberry-Pis und Pixel-Smartphones zum Laufen zu bringen.
Nach „Forschenden“ habe ich aufgehört zu lesen. Das heißt „Forscher“. Beweis: „Die toten Forschenenden“ kann man nicht sagen, „die toten Forscher“ schon. Gendersprache ist unlogisch und die Gendertheorie wurde von einem praktizierenden Pädophilen aufgestellt, nur mal so zur Info.
Toxische Sprache verbreiten auch Menschen. Man braucht sich nur diesen Artikel:innen durchlesen.