Schon im vergangenen Jahr haben KI-Forscher:innen Alarm geschlagen. Sie befürchteten, dass Sicherheitsmaßnahmen wie Captchas künftig überholt sein könnten. Denn manche KI-Tools waren in der Lage, sie innerhalb von wenigen Sekunden zu lösen. KI-Forscher:innen bei Roundtable haben jetzt einen weiteren Versuch mit aktuellen Modellen der führenden Unternehmen durchgeführt und ihnen Captchas vorgesetzt.

So schlecht sind Claude, Gemini und GPT-5 bei Captchas

Für den Test konnten alle Modelle auf das Open-Source-Framework „Browser Use“ zugreifen und so Aufgaben im Browser erledigen. Gemini 2.5 Pro, Claude Sonnet 4.5 und GPT-5 wurde aufgetragen, Googles Demo-Seite aufzurufen und dort maximal fünf Captchas zu lösen. Für den Test wurden ausschließlich Bilderrätsel herangezogen. Dabei haben die Forscher:innen drei verschiedene Captcha-Typen genutzt. Static-Captchas fordern User:innen etwa auf, alle Brücken zu markieren. Dabei werden mehrere kleine Bilder mit oder ohne Brücke angezeigt, die nach dem Anklicken ausgewählt bleiben.

Die zweite Art der Captchas sind sogenannte „Reload“-Rätsel. Sie bestehen ebenfalls aus mehreren kleineren Bildern. Sobald ein Bild angeklickt wird, verschwindet dieses aber und ein neues Bild wird nachgeladen. Dort könnte dann wieder eine Brücke auftauchen oder ein ganz anderes Objekt gezeigt werden. Zu guter Letzt gibt es die Cross-tile-Captchas. Hier wird ein Bild auf mehrere Kacheln gestreckt und User:innen müssen alle mit einem bestimmten Objekt – etwa einer Ampel – auswählen.

Zunächst stellten die Forscher:innen fest, dass die KI-Modelle oftmals die gesetzte Grenze von fünf Captchas ignorierten und deutlich mehr Bilderrätsel angingen. Das lag offenbar daran, dass sie den Counter von Browser Use nicht nutzten oder schlichtweg nicht erkannten, wann eine Aufgabe abgeschlossen war. So kamen die KI-Modelle zusammen auf 388 Versuche bei 75 verschiedenen Captchas.

Die Ergebnisse zeigen, dass die KI-Modelle bei Static-Captchas noch am besten abschnitten. Claude Sonnet 4.5 konnte 47,1 Prozent aller Herausforderungen meistern, während es bei Gemini 2.5 Pro sogar 56,3 Prozent waren. GPT-5 landete mit 22,7 Prozent gelöster Captchas abgeschlagen auf dem dritten Platz. Bei den Reload- und Cross-tile-Captchas sank die Lösungsquote aller Modelle deutlich. Claude schaffte nur noch 21,2 Prozent der Reload-Aufgaben und keine einzige Cross-Tile-Aufgabe. Bei Gemini sank der Wert bei Reload-Captchas auf 13,3 Prozent und bei Cross-tile-Aufgaben auf 1,9 Prozent. GPT-5 konnte bei Reload-Captchas nur noch 2,1 Prozent lösen, während die Cross-tile-Aufgaben nur in 1,1 Prozent der Fälle gemeistert wurden.

Warum Gemini und Claude besser als GPT-5 abgeschnitten haben

Für die Ergebnisse haben die KI-Forscher:innen auch eine Erklärung. Die KI-Modelle hatten bei manchen Reload-Captchas schon alle richtigen Bilder ausgewählt und wollten auf „Submit“ drücken, als plötzlich neue Bilder aufgetaucht sind. Das Nachladen wurde als Fehler interpretiert und die KI-Modelle haben versucht, das zuvor ausgewählte Bild wieder abzuwählen. Da das Bild aber durch ein neues ersetzt wurde, manövrierten sie sich durch das erneute Klicken selbst in eine Fehlerschleife.

Bei den Cross-tile-Captchas hatten die Modelle laut den Forscher:innen Probleme, die Grenzen der kleineren Kacheln zu erkennen. Zudem haben die KI-Modelle meist nur Kacheln ausgewählt, die zusammen ein Rechteck ergaben. Ragte das gesuchte Objekt in eine Kachel, die nicht zu dem Muster passte, wurde es oftmals übersehen.

Zu guter Letzt haben die Verantwortlichen auch eine Erklärung, warum GPT-5 in allen Tests deutlich schlechter als Claude und Gemini abgeschnitten hat. OpenAIs KI-Modell hat mehr Zeit mit Reasoning verbracht, seine Gedankengänge offengelegt und sich zunächst einen Plan für die bevorstehende Aufgabe zurechtgelegt. Während der Aufgaben revidierte GPT-5 oftmals seine Auswahl eines Bildes, nur um im nächsten Moment wieder darauf zu klicken. Durch diese langen Denk- und Aktionsprozesse kam es vermehrt zum Timeout bei den Captchas.

