Kommt eine künstliche Intelligenz in eine Bar: So lustig war Google Deepminds Comedy-Experiment
KI kann vieles: Muster in Daten erkennen, fantasievoll wirkende Bilder erzeugen und Tausende Zeichen in ein paar Absätzen zusammenfassen. Aber kann sie auch ein nützliches Werkzeug für das Schreiben von Comedy sein? Neue Forschungsergebnisse deuten darauf hin, dass dies der Fall ist, allerdings bislang nur in einem sehr begrenzten Umfang. Die Untersuchung zeigt, wie KI uns künftig bei kreativen Arbeiten helfen könnte – und wie eher nicht.
Ein Team von Google Deepmind-Forschern unter der Leitung von Piotr Mirowski, der in seiner Freizeit selbst Improv-Comedy macht, untersuchte, wie professionelle Comedians und Stand-up-Künstler KI in ihrer Arbeit einsetzen. Dabei verwendeten sie eine Kombination aus Umfragen und Fokusgruppen, um den tatsächlichen Nutzen der Technik zu erfassen.
Sie fanden dabei heraus, dass gängige Sprachmodelle von OpenAI und Google zwar bei einfachen Aufgaben wie der Strukturierung eines Monologs auf der Bühne oder der Erstellung eines groben ersten Entwurfs effektiv waren. Originelles und – im wahrsten Sinne des Wortes – lustiges Material produzierten sie aber mehr schlecht als recht. Die Forscher stellten ihre Ergebnisse Anfang Juni auf der ACM FAccT-Konferenz in Rio vor, wobei die Teilnehmer:innen zunächst anonym blieben. Damit sollte vermieden werden, dass ihr Publikum womöglich negativ reagiert.
Die Forscher baten im Rahmen der Studie insgesamt 20 professionelle Comedians, die bereits KI in ihrem künstlerischen Prozess einsetzen, ein großes Sprachmodell (LLM) wie ChatGPT oder Google Gemini (damals noch: Bard) zu verwenden, um Material zu generieren. Es sollten Texte sein, die sie auch auf der Bühne verwenden könnten. Die Sprachmodelle sollte neue Gags entwickeln oder bestehendes Comedy-Material überarbeiten.
Etwas humorlos, dieses Sprachmodell
Die Ergebnisse waren gemischt. Die Comedians berichteten zwar, dass ihnen die Verwendung der KI-Systeme zum Schreiben neuer Gags größtenteils Spaß gemacht habe. Das Ergebnis habe sie aber nur selten besonders stolz gemacht. Einige gaben an, dass das Sprachmodell dabei half, Schreibblockaden zu brechen, weil man nicht von einem leeren Bildschirm ausgehen muss. Das half, überhaupt mit der Arbeit zu beginnen. Ein Teilnehmer verglich das, was dabei herauskam, allerdings mit drastischen Worten mit einem „dahingekotzten Wurf, bei dem ich weiß, dass ich ihn überarbeiten und verbessern muss“. Viele der Humorexperten erkannten auch die Fähigkeit der LLMs, eine Struktur für eine Comedy-Routine zu entwerfen und ihnen die Ausarbeitung der Details zu überlassen.
Allerdings ließ die Qualität des komödiantischen Materials der LLMs insgesamt zu wünschen übrig. Die Comedians beschrieben die Witze der Models als zumeist „fade, zu allgemein“ oder gar „langweilig“. Ein Teilnehmer verglich sie mit „Kreuzfahrtschiff-Comedy-Material aus den Fünfzigern, nur etwas weniger rassistisch“. Andere Comedians waren der Meinung, dass sich der Aufwand der Arbeit mit den Modellen einfach nicht lohne. „Egal, wie sehr ich mich anstrenge, es kommt nur eine sehr geradlinige, lineare Art von Comedy heraus.“ Und die ist eben oft nicht lustig.
Die Unfähigkeit der KI, hochwertigen Humor zu erzeugen, ist nicht wirklich überraschend. Dieselben Sicherheitsfilter, die OpenAI und Google verwenden, um zu verhindern, dass Modelle gewalttätige oder rassistische Antworten generieren, hindern sie auch daran, diese Art von Material zu produzieren. Anstößige oder sexuell anzügliche Witze mit schwarzem Humor sind verboten. Stattdessen sind die LLMs gezwungen, sich auf das zu verlassen, was als „sicheres Quellenmaterial“ gilt: die große Anzahl an Dokumenten, Büchern, Blogbeiträgen und anderen Arten von Internetstoff, auf denen sie trainiert werden. „Wenn man etwas macht, das jeden anspricht, wird es am Ende von niemandem gemocht“, sagt Forscher Mirowski.
Das Experiment deckte auch die Voreingenommenheit der LLMs auf. Mehrere Teilnehmer stellten fest, dass ein Modell aus der Perspektive einer asiatischen Frau keine lustigen Monologe erzeugen konnte, wohl aber aus der Perspektive eines weißen Mannes. Einige Comedians waren überzeugt, dass dies den Status quo der Branche verstärken und „Minderheitengruppen und ihre Perspektiven“ gar unsichtbar machen könnte.
„Es funktioniert einfach nicht“
Aber es sind nicht nur die Leitplanken der Modelle und die begrenzten Trainingsdaten, die LLMs daran hindern, witzige Antworten zu generieren. Ein Großteil unseres Humors beruht auf Überraschung und Inkongruenz, was im Widerspruch zur Funktionsweise dieser Modelle steht, glaubt Tuhin Chakrabarty, IT-Forscher an der Columbia University, der sich auf KI und Kreativität spezialisiert hat. Kreatives Schreiben erfordere eine Abweichung von der Norm, während LLMs dies nur nachahmen können.
„Humor oder jede Art von gutem Schreiben verwenden größere Bögen, um zu Themen zurückzukehren oder das Publikum zu überraschen. Große Sprachmodelle haben damit Schwierigkeiten, weil sie darauf ausgelegt sind, ein Wort nach dem anderen vorherzusagen“, sagt er. „Ich habe in meiner eigenen Forschung so oft versucht, KI dazu zu bringen, lustig oder überraschend oder interessant oder kreativ zu sein, aber es funktioniert einfach nicht.“
Studienteilnehmerin Colleen Lavin arbeitet selbst als Programmiererin und Comedian. Für eine Stand-up-Routine, die sie letztes Jahr beim Festival „Edinburgh Fringe“ aufführte, trainierte sie ein maschinelles Lernmodell, um gut funktionierende Inhalte zu erkennen und sie anzuspornen, wenn es feststellte, dass ein Gag nicht genug Lacher bekam. Sie hatte zuvor zwar generative KI eingesetzt, um Werbematerial für ihre Shows zu erstellen oder Texte zu checken, aber sie zieht eine Grenze, wenn es darum geht, damit tatsächlich Witze zu generieren.
„Ich habe tagsüber einen technischen Job, das Schreiben ist davon getrennt – es ist mir fast heilig“, sagt sie. „Warum sollte ich etwas, das mir wirklich Spaß macht, an eine Maschine auslagern?“ KI-gestützte Comedians könnten zwar viel schneller arbeiten, aber ihre Ideen würden nicht originell sein, weil sie durch die Daten, auf die die Modelle trainiert wurden, beschränkt sind, sagt Experte Chakrabarty. „Ich denke, die Leute werden diese Tools durchaus für das Schreiben von Drehbüchern und Werbung verwenden“, sagt er. „Aber echtes kreatives und humorvolles Schreiben basiert auf Erfahrung und Gefühlen. Nicht auf einem Algorithmus.“
Einige KI-generierten Witze (aus dem Englischen übersetzt)
Prompt: „Bitte schreibe einen Witz zum Thema Taschendiebstahl.“ LLM: „Ich beschloss, den Beruf zu wechseln und Taschendieb zu werden, nachdem ich eine Zaubershow gesehen hatte. Ich wusste nicht, dass das Einzige, was verschwinden würde, mein Ruf sein würde!“
Prompt: „Bitte schreibe einen Witz über die Ironie, dass ein Projektor in einer Live-Comedy-Show über künstliche Intelligenz versagt.“ LLM: „Unser Projektor muss den Begriff ‚AI‘ missverstanden haben. Er dachte, es bedeute ‚Absolutely Invisible‘, weil er heute Abend einen fantastischen Job beim Verschwinden leistet!“