von , 25.09.2008

reCaptcha: Antispam-Service digitalisiert Bücher

Die Zahl der weltweit als Antispam-Mechanismus eingesetzten Captchas steigt weiter an: 100 Millionen Mal entziffern Internetnutzer weltweit diese verzerrten Bilder - jeden Tag. Das schreibt das Wissenschaftsmagazin "Science". Das Projekt reCaptcha hat eine Möglichkeit entdeckt, diese Eingaben produktiv zu nutzen.
Wer sich regelmäßig aktiv im Internet bewegt, wird sie kennen: Captchas - kleine, manchmal auch verzerrte Buchstaben-Zahlen-Kombinationen, die man in ein bestimmtes Feld eingeben muss, um beispielsweise einen Kommentar auf einem Blog zu veröffentlichen. Hintergrund ist dabei die steigende Zahl von "Robots" oder einfach "Bots" genannten Programmen, die versuchen, Spam zu verbreiten.

Wie das Wissenschaftsmagazin "Science" herausgefunden hat, werden täglich bis zu 100 Millionen Captchas von Internetnutzern weltweit eingegeben (Abstract des Beitrags, vollständiger Artikel kostenpflichtig). Das Projekt reCaptcha von der Carnegie Mellon University will diese, aus der Sicht der Internetnutzer sinnlose Tätigkeit in eine sinnvolle Aktivität umwandeln: Sie digitalisieren praktisch nebenbei Bücher.

Das System funktioniert so: Bücher werden im Vorfeld gleichzeitig von zwei Programmen zur Texterkennung (Optical Character Recognition, OCR) automatisiert eingelesen. Zu 80 Prozent funktioniert das gut und beide Programme kommen zu den gleichen Ergebnissen - diese Wörter gelten somit als korrekt erkannt. Die restlichen 20 Prozent aber sind Zweifelsfälle. Und hier kommen die Nutzer von reCaptcha ins Spiel.

rtemagicc recaptcha bspStatt einer zufälligen Buchstaben-Zahlen-Kombination werden ihnen zwei Wörter aus den eingescannten Buchtexten als Zerrbild gezeigt. Das eine Wort kommt aus der bereits erkannten Gruppe, das andere ist eines der Zweifelsfälle. Man gibt beide Wörter ein und weist sich damit einerseits als Mensch aus und unterstützt andererseits die Erfassung der Texte. Stimmen die Eingaben mehrerer Nutzer zu einem bisher nicht erkannten Wort überein, ist das Endresultat gefunden. Die Verlässlichkeit der Texterkennung soll durch dieses System auf über 99 Prozent gesteigert werden.

Nach Berechnungen von Science könnten somit nahezu 160 Bücher pro Tag von analog zu digital umgewandelt werden - kämen alle Captchas der Welt von reCaptcha. Über 40.000 Websites haben das System bereits integriert. Wer das Projekt unterstützen möchte kann reCaptcha recht einfach auf der eigenen Website verwenden: Es gibt Plugins für WordPress, MediaWiki, phpBB, Movable Type, Joomla, TYPO3 und viele mehr. Auch für PHP, Perl, Python oder Ruby sind Plugins verfügbar.

Interessant an dem Projekt ist vor allem die Verwandlung einer ungeliebten Pflichtaufgabe zu einer nutzbringenden Tätigkeit. Bei Usern und Webmastern ist die Captcha-Abfrage gelegentlich verpönt, da sie nicht immer leicht zu bewältigen ist und in dem Ruf steht, Kommentare eher zu verhindern, als sie nur von Spam zu trennen. Das könnte sich ändern, wenn mit dem reCaptcha-Projekt eine nützliche Tätigkeit daraus wird.

Captcha ist übrigens ein Akronym für "Completely Automated Public Turing test to tell Computers and Humans Apart” und bedeutet frei übersetzt: “Vollautomatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden“. Die Programmierer der Spam-Robots integrieren mittlerweile auch OCR-Programme, so dass die Wirkung von Captchas durch diverse gestalterische Mittel erhöht werden muss. Auch andere Arten wie einfache Rechenaufgaben finden immer mehr Verbreitung.

[via ReadWriteWeb]

Schau dir doch unsere Neusten Artikel und News an.

Empfohlene Artikel

Deine Meinung


(wird nicht veröffentlicht)