Künstliche Intelligenz: Die Robo-Spionage überlisten
Wie die künstliche Intelligenz Gesichter erkennt
Heruntergebrochen auf das Wesentliche macht sich die künstliche Intelligenz (KI) das maschinelle Lernen für die Gesichtserkennung zunutze. Noch einen Schritt weiter geht das Deep Learning. Hinter diesem Lernprozess verbirgt sich ein künstliches neuronales Netzwerk, das mit der Zeit immer mehr Verbindungen knüpft oder auch löscht, wenn sie als falsch identifiziert werden. Vergleichbar mit dem menschlichen Gehirn. Stehen ausreichend Bilder für ein Training des Algorithmus zur Verfügung, verringert sich die Fehlerquote zunehmend.
Seit Deep Learning immer weiter an Fahrt aufnimmt, hat sich die Präzision der Bilderkennung eklatant verbessert. Das National Institute of Standards and Technology (NIST) evaluiert regelmäßig verschiedene Algorithmen auf ihre Genauigkeit. Bis 2011 betrug die Fehlerrate bei der Erkennung noch 28 Prozent. Schon zwei Jahre später hatte sich diese Rate halbiert. Einer der größten und bekanntesten Wettbewerbe zu dieser Forschung ist der ImageNet Large Scale Recognition Challenge (ILSVRC). Googlenet gewann diesen Wettbewerb 2014 mit einer Fehlerrate von sieben Prozent. Und 2017? Da waren es nur noch 2,3 Prozent – der Beginn von Deep Learning und damit einer neuen Ära. Die intelligente Technik ermöglicht inzwischen bereits die Zuordnung von Emotionen anhand der Mimik und verbessert nach wie vor die Präzision. Obwohl Deep Learning damit als die Wunderwaffe der KI schlechthin gilt, existieren immer noch Möglichkeiten, diese aufs Glatteis zu führen.
#disruptionfilter statt #nofilter
Im Grunde gibt es heute zwei verschiedene Arten, Deep Learning ein Schnippchen zu schlagen. Zum einen mit Perturbation-Technologien. Sie funktionieren, indem sie Bildern ein geringes Hintergrundrauschen hinzufügen, eine kleine Verwirbelung oder Störung, damit die Erkennung nicht mehr funktioniert. Sie werden auch Adversarial Attacks genannt. Mit dem bloßen Auge sind die Veränderungen kaum wahrnehmbar. Wenn die KI beispielsweise versucht, die Augenränder als Ankerpunkt für die Erkennung aufzuspüren, passt der Filter die Ränder leicht an, damit sie weniger auffällig sind. Mit diesen Fooling Technologies kann man dem Algorithmus beispielsweise auch vortäuschen, er sähe anstelle eines Menschen einen Killerwal. Aus jedem beliebigen Menschen ließe sich ein berühmter Schauspieler wie George Clooney machen. Es existieren bereits einige sehr gute Adversarial Attacks, um diese Störungen zu verursachen, wie die Carlini-Wagner-, Deepfool-, Basic-iterative- oder Jacobian-based-Saliency-Methode, um nur einige zu nennen. Diese Methoden täuschen die neuronalen Netze der Systeme durch bewusst modifizierte externe Daten, um der KI eine korrekte Klassifizierung zu erschweren oder unmöglich zu machen. Eine weitere Unterteilung erfolgt in Blackbox- und Whitebox-Methoden. Bei der Blackbox-Variante benötigen wir lediglich Zugriff auf den Input, also auf das eigentliche Bild. Für die Whitebox-Methoden brauchen wir hingegen den vollständigen Zugriff auf das neuronale Netzwerk.
Mit dieser Technik konnte das Forschungsteam um PParham Aarabi der University of Toronto eine zu 100 Prozent sichere Erkennung auf 0,5 Prozent senken. Der entwickelte Algorithmus ist das Ergebnis einer Schlacht zwischen zwei neuronalen Netzwerken. Das Team designte ein Netzwerk, das Gesichter erkennen soll, und eines, das es daran hindern will. Im Laufe ihres Kampfes lernten die beiden Netzwerke voneinander. Das Ergebnis ist ein Filter, ähnlich wie bei Instagram, der sich einfach über Bilder legen lässt, um sie vor einer Erkennung zu schützen.
Kampf gegen die Erkennung mit rosa Elefanten
Die zweite Möglichkeit, KI-Algorithmen zu überlisten, sind Störquellen innerhalb einer Szene. Stellen wir uns folgendes Bild vor: Im Wohnzimmer sitzen Menschen auf einem Sofa. In diese normale Szene packen wir einen großen rosa Elefanten aus Pappmaschee. Der Mensch macht in dieser Situation eine Art Plausibilitätscheck: ein Elefant? Im Wohnzimmer? Merkwürdig, da schaue ich lieber noch einmal genauer hin, um das Bild zu verstehen und einzuordnen. Neuronale Netzwerke sind dazu heute noch nicht in der Lage und lassen sich von den Störquellen völlig aus dem Konzept bringen.
Eine Gruppe von Google-Forschern hat mit diesem Prinzip bunte Sticker entwickelt, die man in der Nähe des Gesichtes trägt, etwa am Kragen der Jacke oder an anderer Stelle der Kleidung. Die KI wird von den leuchtenden, psychedelischen Kreisen des Stickers abgelenkt und die Bildklassifizierung konzentriert sich nur noch darauf und nicht mehr auf das Gesicht. Schon funktioniert die Erkennung nicht mehr. Google hat inzwischen einen Wettbewerb ausgeschrieben, um die Technik der Erkennung zu verbessern und die Störanfälligkeit zu beheben.
Bis Google, andere Firmen oder einzelne Entwickler damit erfolgreich sind, gibt es jedoch viele Möglichkeiten, die KI hinter der Gesichtserkennung auszutricksen. Dabei dürfen wir allerdings nicht vergessen, dass diese Technologie auch sehr wohl ihre Vorzüge hat. An öffentlichen Plätzen wie U-Bahn-Haltestellen kann KI-gestützte Bildauswertung einen automatischen Notruf ausschicken, wenn Menschen in Bedrängnis geraten. Dadurch kann schnell Hilfe kommen und das Schlimmste wird verhindert. Nutzer können ihre eigenen Endgeräte mit einem Gesichtsscan sichern und Unternehmen können den Zugang zu gesicherten Bereichen über die automatisierte Erkennung leicht lösen. Dabei sind dies nur wenige Beispiele für die vielen positiven Einsatzzwecke künstlicher Intelligenz und Bilderkennung. Alle Bereiche haben bis zu einem gewissen Grad eines gemein: die Beobachtung und Analyse. Es hängt von uns ab, ob wir in der Technologie eine Bedrohung sehen wollen oder sie für gute Zwecke einsetzen.