Warum sich Bots an Googles „Ich bin kein Roboter” die Zähne ausbeißen

Ratgeber

Warum sich Bots an Googles „Ich bin kein Roboter” die Zähne ausbeißen

Bei Googles Spamschutz Recaptcha muss der Nutzer die Checkbox „Ich bin kein Roboter“ zum Ausführen einer Aktion ankreuzen. Doch warum ist das für einen Bot so schwierig?

Von Andreas Domin

22.02.2019, 07:32 Uhr • 3 Min.

Warum sich Bots an Googles „Ich bin kein Roboter” die Zähne ausbeißen — (Grafik: Shutterstock/Allies Interactive)

Den Captcha-Dienst von Google findet man überall im Internet, ob bei Kontaktformularen, Nutzerregistrierungen oder Kommentarsektionen in einem Forum. Der Vorteil bei Googles Lösung? Der Nutzer muss keine kryptischen Zeichen abtippen wie bei einigen anderen Captcha-Lösungen. Es gilt lediglich, die Checkbox „Ich bin kein Roboter“ anzuwählen. Ist sich Google nicht sicher, ob du vielleicht doch ein Bot bist, musst du manchmal ein Bilderrätsel lösen, bei dem du alle Bilder auswählen musst, auf die ein bestimmtes Muster zutrifft. Doch was macht das Verfahren für Bots so kompliziert?

Das Recaptcha-Iframe von Google mit der Checkbox „Ich bin kein Roboter“. (Grafik: Google)

Virtuelle Maschine und zweifach verschlüsselter Bytecode

Google hat bereits ein Modell entwickelt, bei dem das Captcha-Iframe unsichtbar ist. Diese Analyse bezieht sich jedoch ausdrücklich auf die Recaptcha-Version mit der anzukreuzenden „Ich bin kein Roboter“-Checkbox, die immer noch weitverbreitet ist. Diese kleine Box hat einen riesigen Overhead an Code und Mechanismen im Hintergrund, die Bots von Menschen trennen sollen. Da Google selbst nur wenig über die Prüfung verrät, muss der Sourcecode analysiert werden.

Dort offenbart sich bereits das erste Problem. Recaptcha nutzt eine komplett virtuelle Maschine, die in JavaScript implementiert ist und einen eigenen, zweifach verschlüsselten Bytecode verwendet. Grundlegend kommt dafür der XTEA-Algorithmus zum Einsatz. Damit die Entschlüsselung nicht zu leicht ist und mit einem „simplen“ Schlüssel decodiert werden kann, wird der während des Lesens des Bytecodes verändert. Auch der Bytecode selbst verändert sich während des Lesens.

Um den Schlüssel selbst zu generieren, benutzt Google unter anderem die geöffnete Webadresse des Nutzers. So kann kein Schlüssel einer anderen Internetseite erneut verwendet werden. Außerdem spielen beim Erstellen des Schlüssels auch die browserspezifischen Funktionen und CSS-Regeln eine Rolle. Um zu verstehen, was genau Google also macht, muss dieser Wirrwarr an Verschlüsselungen geknackt werden. Dann erst kann die Sprache des Captcha-Dienstes analysiert werden. Genau das hat ein GitHub-Nutzer jetzt getan und die Ergebnisse veröffentlicht.

Recaptcha analysiert zahlreiche Daten

Um zu prüfen, ob der eine besagte Klick von einem Bot oder einem Menschen stammt, analysiert und prüft Google viele Informationen:

Browser und genutzte Plugins,
Zeitzone und Ausführungszeit des Computers,
IP-Adresse und grober Standort,
Bildschirmauflösung,
Anzahl der Klick-, Tastatur-, beziehungsweise Touch-Aktionen im Recaptcha-Iframe,
Darstellung von Canvas-Elementen,
Vermutlich auch serverseitige Cookies,
Und einiges mehr.

„Darstellung von Canvas-Elementen“ bedeutet, dass Google das Konzept des Canvas-Fingerprinting einsetzt. Hierfür wird ein unsichtbares Canvas-Bild mitsamt einem kurzen Text generiert. Canvas ist ein HTML-Element, in dem durch die Verwendung von JavaScript gezeichnet werden kann. Um so ein Bild zu generieren, wird auf die Systemkonfigurationen des Anwenders zurückgegriffen. Je nach Nutzer entsteht so ein individuelles Bild, das fast einem Fingerabdruck gleichkommt. Parameter wie das verwendete Betriebssystem, der benutzte Browser, installierte Fonts und die verwendete Grafikkarte sowie der Treiber haben einen entsprechenden Einfluss auf das Bild, da sie alle zum Rendern des Bildes beitragen.

Diese analysierten Informationen kann Google jetzt zusätzlich mit dem Wissen kombinieren, das der US-Konzern durch diverse Dienste über den Nutzer besitzt. Das kann die Suchmaschine, Chrome, Ads oder Maps sein. So spielen auch der Browser-Verlauf und die Suchhistorie eine Rolle. Da Google diese Nutzerdaten alle sammelt, kann der Konzern prüfen, wie menschlich all diese Informationen sind.

Warum ist Recaptcha für einen Bot jetzt so kompliziert?

Wie genau Google die Daten nutzt, ist nicht ganz klar. Es ist aber wahrscheinlich, dass der US-Konzern dafür eine künstliche Intelligenz (KI) verwendet, die mit den Informationen der Millionen anderer Nutzer gefüttert wird. Weil Google so viele Daten in die Überprüfung einfließen lässt, ist es für einen Angreifer unfassbar schwierig und teuer, Recaptcha zu knacken. Es müssen zahlreiche menschliche Verhaltensmuster simuliert werden. So müssten auch Mausbewegungen, Klick- sowie Tastatur-Aktionen mit gewissen realistischen Verzögerungen überzeugend menschlich durchgeführt werden. Weil Google auch eine Art Fingerabdruck des Computers erstellt, dürfte ein Bot auch nicht ausschließlich vom selben Gerät aus arbeiten.

Trotzdem – wie könnte es auch anders sein – wurde Google Recaptcha bereits geknackt. Etwa 70 Prozent des Recaptcha-Bilderrätsels werden bei dem Verfahren in 19 Sekunden pro Bild automatisch geknackt. Dafür werden ebenfalls eine KI und Machine Learning eingesetzt. Die Frage ist immer, wie lange solche Verfahren funktionieren, bevor Google sein Verfahren weiter verbessert oder die Google-KI von der Angreifer-KI sogar lernt und ihre Versuche erkennt (vielleicht trainiert Google ihre KI auch ständig, indem eine andere KI versucht, das Recaptcha zu lösen). Eins ist jedoch klar: Einer der am schwersten zu simulierenden Klicks dürfte der in Googles Recaptcha-Checkbox sein.

Mehr zu diesem Thema

Verpasse keine News! 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Kommentare (11)

Kommentieren

Kommentare einblenden

Thomas

22.02.2019, 09:11 Uhr

„Es gilt lediglich, die Checkbox „Ich bin kein Roboter“ anzuwählen. Ist sich Google nicht sicher, ob du vielleicht doch ein Bot bist, musst du manchmal ein Bilderrätsel lösen“

Ja klar, komischerweise muss ich dieses Bilderrätsel so gut wie immer lösen. Nur in Ausnahmefällen komme ich mal ohne das Rätsel durch.

Machen wir uns hier mal nichts vor. Der Grund, warum Google ReCaptcha gebaut und frei verteilt ist, uns auszunutzen. Zum einen liefern wir dem Laden ohne Ende Daten und Metadaten. Diese werden eh genutzt um uns zu erkennen und zu tracken. Und als wenn das nicht reichen würde, verkauft uns Google das Captcha als notwendiges Instrument um Bots zu filtern. Dabei dient es doch eigentlich dazu, deren Neuronales Netz zu trainieren und Millionen von Nutzern zu unbezahlten Klick-Workern zu machen die sich für Google krumm machen…

So bekommt Google die Nutzerdaten, Fingerprints der Computer und nutzt uns auch gleich noch für deren Entwicklung aus. Ich meide Internetseiten, die ReCaptcha einsetzen, wenn es irgendwie geht. Ich finde es eine Frechheit. Zumal bestimmte Blocker dazu führen, dass man 10 Rätsel hintereinander lösen muss. Als wollte Google einen dafür bestrafen, dass man auf seine Daten achtet.

Micha

22.02.2019, 09:47 Uhr

Ich muss das auch nur in Ausnahmefällen nicht lösen. Und oftmals dauert das Austauschen der Bilder auf meinem Handy ewig und 3 Tage. Das alles mit dem Ergebnis, dass man hinterher das Ganze noch einmal machen darf, weil die Lösung angeblich nicht richtig gewesen ist. Gerne auch noch ein weiteres Mal – obwohl ich mir sicher bin, dass ich Ampeln, Busse, Fußgängerüberwege, Autos und Fahrräder auf Bildern erkennen kann.

Naderio

22.02.2019, 10:23 Uhr

> „Ich meide Internetseiten, die ReCaptcha einsetzen, wenn es irgendwie geht“

Geht es dir darum Google aus dem Weg zu gehen?
Dann solltest du deinen Rechner lieber schnell vom Internet trennen und auch auf dem Smartphone keine Webseiten oder Handy-Apps mehr aufrufen. Oder hast du sogar ein Android-Smartphone? Dann solltest du vielleicht sogar auf ein Analoges Wählscheibentelefon wechseln.

Wenn du Google aus dem Weg gehen willst, darfst du dich im Internet nicht bewegen – übrigens auch nicht auf t3n.de

Titus von Unhold

25.02.2019, 09:30 Uhr

Kein AdBlocker = kein Captcha.

Dominik

22.02.2019, 10:56 Uhr

Aus Erfahrung von eigenen Webseiten kann ich sagen:

Sobald die Webseite etwas hat, dass für die bösen Leute interessant ist… bringt dieses Captcha nichts mehr. Gute Bots
beißen sich hier nicht die Zähne aus. Sie lösen es oder leiten es im Fehlerfall automatisch an Services weiter, die in China sitzen und dort dann manuell gelöst werden. 5000 Captchas kosten aktuell US$6.95. Ein guter Bot benutzt natürlich nicht nur 1 IP-Adresse sondern mithilfe von Colocation-Services sehr viele und generiert Container mit verschiedenen Browsern, Plugins, Auflösungen etc. Es bleibt ein Kopf-an-Kopf Rennen.

Roman

22.02.2019, 10:57 Uhr

Wir haben Recaptcha wegen eines Spammers auf unsere Seiten hinzugefügt.
Einiger unserer Kunden rufen selten an und behaupten Sie würden Bilder sehen und sich nicht mehr einloggen können…

jsm

22.02.2019, 14:35 Uhr

Das ist aber extrem wohlwollend formuliert!

Erstmal gibt es viele die ständig diese nervenden „kleinen“ Bilderrätsel lösen müssen. Und dann nicht nur eins, ich habe auch schon ne viertel Stunde lang 10 oder mehr dieser Rätsel lösen müssen um weiter zu kommen.
Dabei scheint es total willkürlich zu sein ob man ein oder 10 Rätsel hintereinander machen muss.
Dazu kommen die üblichen Dinge die keiner Weiß: Wenn die Ampel noch mit 2 Pixeln auf dem anderen Feld zu sehen ist, muss ich das dann auch noch anklicken? Was ist mit den Posten von Straßenschildern? Zählen die auch dazu? Woher soll ich wissen ob diese Fassade zu einem Geschäft gehört?
Und generell: Autonome Autos müssen automatisch und fehlerfrei Schilder lesen können und WIR sollen Schilder suchen und anklicken um zu beweisen das WIR keine Bots sind?!

Captchas wie zB die Puzzle wo man 3 Teile eines Bildes an die richtige Stelle schieben muss, oder die wo man den nicht geschlossenen Kreis anklicken soll sind wesentlich einfacher und schneller erledigt als der Mist von Google!

Und das Thema Datenschutz hat man hier auch „großzügig“ ignoriert:
Da wird von Fingerprints geschrieben, von der Auswertung von persönlichen Daten, von installierten Fonts und mehr. Und dann wird sogar noch ganz offen gesagt das keiner Weiß was Google mit diesen Daten anstellt!
Aber ein Problem scheint das nicht zu sein, wenn man sich nach dem Artikel richtet.

Fips

22.02.2019, 19:26 Uhr

Meine Vermutung ist ja, dass Google die Captchadaten nutzt, um Waymo auf die Sprünge zu helfen. Als das Captcha noch aus Wörtern Bestand, dienten die Captchadaten ja auch dazu, die Texterkennung von Google Books zu verbessern

Paul

22.02.2019, 16:42 Uhr

Wir haben eine ähnliche Botqute wie mit herkömmlichen Captcha Lösungen. Gezielte Angriffe kann man so nicht bekämpfen. Wir haben die IP von Bots vor einigen Monaten analysiert, oft stecken hinter dem Lösen der Captchas professionelle Unternehmen die auf den Philippinen mit Menschenhand die Capchas lösen lassen. Jeder der sich gegen Bots schützen möchte sollte vorher eine Risikobewertung durchführen und daraus Maßnahmen ableiten. Wer glaubt dass mit einem Captcha die Problematik zu Google verschoben wurde wird sich wundern. Im Normalfall ist das Risiko von Bots minimal und mit Captchas werden Nutzer terrorisiert. Es gibt viele Studien und simple Lösungen die ohne Captchas auskommen.

Stefan

22.02.2019, 16:49 Uhr

Der Artikel kommt von ganz unten aus der Mottenkiste und wurde mit neuem Datum noch mal aufgewaermt?

„das hat ein GitHub-Nutzer jetzt getan und die Ergebnisse veröffentlicht.“
Latest commit 5176f31 on Dec 9, 2014

MrX

26.02.2019, 12:41 Uhr

Ich habe es schon mehrfach geschafft bis zum Ende diese Bilderrätsel durchzuklicken.
Daher weiß ich nicht was der Mist soll, zumal vieles nicht eindeutig ist.

Brands

Themen

Magazine

Skills

Warum sich Bots an Googles „Ich bin kein Roboter” die Zähne ausbeißen

Virtuelle Maschine und zweifach verschlüsselter Bytecode

Recaptcha analysiert zahlreiche Daten

Warum ist Recaptcha für einen Bot jetzt so kompliziert?