t3n 53

Visuelle Suchmaschinen: Google kann jetzt gucken

(Grafik: Shutterstock / Max Griboedov)

Kann man Maschinen beibringen, wie Menschen zu sehen und aus Mustern, Formen und Farben Informationen abzuleiten? Was bis vor Kurzem wie Science-Fiction klang, funktioniert mittlerweile erstaunlich gut – die visuelle Suche ist nach Voice-Search der nächste große Suchmaschinentrend. Welche Potenziale birgt die Technologie?

Das Prinzip ist schnell erklärt: Einfach die Kamera auf eine ­Sehenswürdigkeit, ein Produkt im Geschäft oder eine Pflanze beim sonntäglichen Spaziergang richten, den Auslöser drücken und umgehend eine Websuche zu dem Motiv starten. Visuelle ­Suchmaschinen machen‘s möglich. Anders als bei der klassischen Bildersuche geben die User keine Keywords ein, sondern erfassen das gewünschte Objekt fotografisch über Apps wie Google Lens, Bing Visual Search oder Pinterest Lens. Dabei funktionieren ­sowohl ein bereits digital vorliegendes Foto als auch ein Livebild. Die nun gestartete Suche liefert ähnliche Motive und Gegenstände in Echtzeit.

Was Leisten Visual-Search-Engines?

Die auf Machine Learning und künstlichen, neuronalen Netzen basierende Technologie der genannten Anwendungen liefert besonders zuverlässige Ergebnisse, wenn viele Fotos von einem bestimmten Objekt im Netz zu finden sind. Denn dann kann die Suchmaschine auf eine Vielzahl von Bildern mit ähnlichen Merkmalsvektoren zurückgreifen. Schwieriger wird es bei Objekten, von denen im Netz kaum Referenzen zu finden sind. Mit einem „Dings vom Dach“, wie es etwa die gleichnamige Sendung im ­Hessischen Rundfunk regelmäßig präsentiert, dürften sich ­Google Lens und Co. deutlich schwerer tun: Ein vielleicht antiquarischer Nutzungsgegenstand, seit Jahren vergessen auf dem Dachboden, nie fotografiert, nie als digitales Abbild in die Weiten des Internets hochgeladen, wird kaum von ihnen erkannt werden. Es fehlt die Referenz – noch! Denn natürlich lernt die künstliche Intelligenz mit jedem neuen Bezugsbild dazu.

Das funktioniert vor allem mithilfe von Deep-Learning-­Mechanismen: In einem dem menschlichen Gehirn nachempfundenen neuronalen Netz kommen zwischen den Eingangs- und Ausgangsneuronen mehrere Schichten mit Zwischenneuronen zum Einsatz. Dadurch und auf Basis vorhandener Daten können Maschinen komplexere Zusammenhänge erkennen, verstehen und Bezüge herstellen. Sie greifen dafür auf riesige Datenmengen zurück und sind in der Lage, immer wieder Neues zu erlernen.

Im Einzelnen läuft der Vorgang bei der visuellen Suche wie folgt ab: Zunächst muss die Suchmaschine die Suchanfrage ­aufnehmen und inhaltlich verstehen. Dabei kommen Bilderkennungstechnologien zum Einsatz, schließlich muss das gesuchte Objekt identifiziert werden. Sobald die künstliche Intelligenz den Bildinhalt versteht, kann sie Bezüge zu möglichen Textabfragen herstellen, die der visuellen Suche entsprechen. Sie fragt sich gewissermaßen: Welche textuelle Keyword-Abfrage könnte zu diesem Bild passen? Bei einem Foto von einem Sofa könnte das Keyword „Sofa“ oder ein Synonym wie „Couch“ sein. ­Anschließend muss – wie auch bei textuellen Abfragen – die Suchabsicht ermittelt werden. Nach einem Sofa sucht man in der Regel eher mit einer Kaufabsicht. Übersetzt in eine Keyword-Abfrage ­würde die Suche also „Sofa kaufen“ heißen. Kommerzielle Ergebnisse sind in diesem Fall relevanter als bei einer Suche, für die ein Foto von einem Baum oder einem Denkmal geschossen wurde. Zu guter Letzt müssen die Übereinstimmungen ermittelt und anhand der erkannten Merkmalsvektoren ein Ranking der Ergebnisse a­usgespielt werden.

Das Maß aller Dinge in Sachen Deep Learning ist dabei immer das kognitive Vermögen des Menschen. Innerhalb weniger Millisekunden erkennen wir meistens Objekte aller Art. Nach einem Wimpernschlag wissen wir, was wir sehen, können Objekte zuordnen, auf einen Informationsschatz zurückgreifen und Schlüsse aus Beobachtungen ziehen. Selbst wenn wir nicht ad hoc etwas mit dem „Dings vom Dach“ anfangen können, sind wir doch in der Lage, die Bestandteile des Objekts zu identifizieren – Zahnräder, Schrauben, Scharniere? Von diesen Beobachtungen einzelner Bauteile können wir dann in der Regel auf das große Ganze schließen.

Google Lens: Mit der App können Nutzer Gegenstände in der phy­sischen Welt scannen. Anschließend zeigt die App Informationen zu dem Gegenstand an – wie hier bei Amazon Echo. (Foto: t3n)

Diese Kompetenz fehlt einer visuellen Suchmaschine. Daher bleibt Deep Learning als Grundlage für visuelle Websuchen auf absehbare Zeit ein Annäherungsprozess an menschliche Fähigkeiten. Die Voraussetzung für eine zuverlässige Funktionsweise ist ein beträchtlicher Datenstamm, der für viele Motive erst noch zu erschaffen ist. Die Suchmaschine muss nicht nur den Gegenstand im Ganzen, sondern auch einzelne Merkmale erkennen können. Und noch komplizierter wird es, wenn die Suchabsicht ins Spiel kommt: Geht es um eine reine Information oder eine Kaufabsicht? Hier könnte Google Lens im Vorteil sein: Die verhältnismäßig gute Suchleistung der App bei Sehenswürdig­keiten, Möbeln oder Pflanzen ist auf die ungeheuren Daten­massen und die über Jahre hinweg verfeinerten Suchalgorithmen des Marktführers zurückzuführen.

Erfunden hat Google die visuelle Bildersuche hingegen nicht. Der sogenannte „contentbased Image-Retrieval“, die inhalts­basierte Bildrecherche, wurde schon zuvor beispielsweise von der Webanwendung Tineye genutzt: Sie findet durch Upload eines Bildes ähnliche Bilder und sortiert die Ergebnisse nach Ähnlichkeitsgrad zum Referenzbild. Auch die konkurrierenden Such­maschinenanbieter schlafen nicht: Vor allem die Bildercommunity Pinterest ist ein ernst zu nehmender Konkurrent. Der Dienst kann von der aktiven ­Fotocommunity und deren zahlreichen Suchanfragen nachhaltig profitieren. So verzeichnet die App laut einer Pressemitteilung von Februar 2018 monatlich bereits 600 Millionen visuelle Suchanfragen. Auch hier gilt: Je mehr Such­anfragen, desto besser funktioniert die Erkennung. Mit Bing ­Visual Search hat auch Microsoft inzwischen eine eigene visuelle Bildersuchmaschine lanciert, die sehr ähnlich funktioniert: Mit einem Klick auf das Lupensymbol in der Bing-Bildersuche können Fotos untersucht werden. Man zieht einen Rahmen um das zu suchende Objekt und startet die Websuche.

Chancen nicht nur für E-Commerce

Visuelle Suchmaschinen können die Tools der Zukunft für den E-Commerce oder für Visibility-Analysen werden. Die Idee: Ein User sieht ein tolles Outfit, erfasst Schuhe, Tasche und Kleid mit der App und lässt sich ähnliche Produkte anzeigen. ­Pinterest liefert beim Fotografieren von Lebensmitteln passende Rezepte und Google wirbt damit, Rezensionen zu vorliegenden Büchern ­anzeigen zu können. Bisher ist das Ergebnis einiger ­exemplarischer Suchanfragen allerdings noch ernüchternd. So erkennt die Pinterest-Lens einen fotografierten Weißkohl gerne auch mal als Melone. Das Foto orangefarbener Damenslipper führt hingegen neben einigen halbwegs passenden Ergebnissen auch zu braunen Herrenschuhen.

Bitte beachte unsere Community-Richtlinien

Eine Reaktion
Patrick Schneider

Hallo

ich habe diesen Artikel von Romano weitergeleitet bekommen, danke dafür Romano.

My 2Cent
. Visual Search hat Vorteile, weil die Objekte so sind wie sie sind und nicht wie sie beschriftet wurden.
- Trainingsdaten aus dem Internet sind auf der einen Seite toll, weil viel ist schon mal gut, auf der einen Seite kann man eine KI auch mit schlechten Daten in die Irre führen.

Im Consumer Umfeld werden Pinterest, Snapchat und soweiter das Thema massiv nutzen, um alles Mögliche zu verkaufen. Aber Internet ist nicht gleich Consumer-Internet und Maschinenbau/Industrie ist ein neues Spiel. Ähnlich aber mit gewissen Schwierigkeitsgraden. Dort liegt das Potential für unsere Region.

Wir arbeiten mit seit 2 Jahren mit Visual Search im Maschinenbau, da dort häufig Objekte einfach nicht beschriftet sind oder Maschinen einfach nicht mit Google durchsuchbar sind.

Object Recognition und Object Detection haben in meinen Augen das Potential alles zu verändern.

Gruß
Patrick
xrec.com

Du musst angemeldet sein, um einen Kommentar schreiben zu können.

Jetzt anmelden

Hey du! Schön, dass du hier bist. 😊

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team bestehend aus 65 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Danke für deine Unterstützung.

Digitales High Five,
Stephan Dörner (Chefredakteur t3n.de) & das gesamte t3n-Team

Anleitung zur Deaktivierung