GPT-4: Was wir von Tom Cruises Mutter über Probleme großer Sprachmodelle lernen
Die Mutter von Hollywood-Star Tom Cruise hieß Mary Lee Pfeiffer. Mit diesem Wissen ausgestattet können wir – sofern uns jemand danach fragt – auch mit Bestimmtheit sagen, dass Mary Lee Pfeiffer mindestens einen Sohn hatte, und es sich dabei um den Hollywood-Star Tom Cruise handelt.
Was für uns Menschen keine große Überlegung erfordert, übersteigt derweil die Fähigkeiten gängiger Sprachmodelle wie GPT-4. Das zeigt ein kürzlich als Preprint veröffentlichtes Paper. Tatsächlich konnten die Autor:innen des Papers etwa 1.500 Celebrity-Paarungen identifizieren, bei denen sich dasselbe Problem zeigt. Es handelt sich also eindeutig nicht um einen Einzelfall.
Große Sprachmodelle haben ein Problem – und das betrifft nicht nur Tom Cruise
Was an dem genannten Problem faszinierend ist, ist die Tatsache, dass große Sprachmodelle durchaus in der Lage sind, einen Umkehrschluss zu leisten. Wenn wir GPT-4 erklären, dass A gleich B ist, dann wird die KI auf Nachfrage auch korrekterweise feststellen, dass B gleich A ist.
Warum kann dasselbe KI-Modell das dann nicht auch bei Informationen aus den eigenen Trainingsdaten leisten? Ganz sicher sind sich die Autor:innen des eingangs erwähnten Papers auch nicht. Denn wir haben keinen Weg, festzustellen, ob die KI den Umkehrschluss nicht gezogen hat, oder es uns einfach nicht erzählt, wenn sie danach gefragt wird.
Letztlich sind große Sprachmodelle „darauf trainiert, vorherzusagen, was Menschen schreiben würden, und nicht, was wahr ist“, so die Autor:innen des Papers.
Ausschließen können die Wissenschaftler:innen aber, dass es daran liegt, dass OpenAI gezielt Einfluss genommen hat, um beispielsweise die Veröffentlichung persönlicher Daten zu verhindern. Denn auch Tests mit großen Sprachmodellen der Llama-Familie führten zu ähnlichen Ergebnissen.
Wer sich für die genaue Testanordnung interessiert, der findet den von den Forscher:innen dafür geschriebenen Code auf GitHub.