Amazons Machine-Learning-Chef: „Programme mit Bewusstsein sind Fiktion“
Als Ralf Herbrich Mitte der 1990er begann, theoretische Statistik an der TU Berlin zu studieren, ging in der KI-Forschung gerade die Ära der sogenannten Expertensysteme zu Ende. Bis dahin hatte man versucht, dem Computer auf Basis einer symbolischen Beschreibung der Welt logisches Denken beizubringen. Man befragte zum Beispiel Piloten und Ärzte dazu, wie sie ihre Entscheidungen treffen und versuchte, aus ihren Antworten Regelwerke zu codieren. Eine Sackgasse, wie sich später herausstellen sollte.
Ralf Herbrich spezialisierte sich stattdessen schon sehr früh auf die Frage, wie man den Computer dazu kriegt, mittels Statistik selbst Regeln aus großen Datenmengen abzuleiten. Ein Paradigmenwechsel – vom Programmieren zum Trainieren von Maschinen –, der sich im gesamten Forschungsfeld des maschinellen Lernens vollzogen und zu den Erfolgen der vergangenen Jahre geführt hat. Bevor Herbrich allerdings zu Amazon ging, forschte er rund elf Jahre bei Microsoft und ein Jahr bei Facebook. Am Amazon-Standort in Berlin arbeiten insgesamt rund 500 Menschen aus 62 Nationen. Mit rund 100 Mitarbeitern auf insgesamt anderthalb Etagen entwickelt die Machine-Learning-Unit des Unternehmens hier konkrete Vorhaben für die verschiedenen Amazon-Produkte.
t3n: Herr Herbrich, was hat Sie zum maschinellen Lernen gebracht?
Ralf Herbrich: Als begeisterter Videospieler hat es mich immer gestört, dass die Computergegner so berechenbar waren. Ich habe mich deshalb schon früh damit auseinandergesetzt, wie man zum Beispiel neuronale Netze einsetzen kann, um Computergegner zu erschaffen, gegen die es mehr Spaß macht zu spielen. Mich interessiert immer die Frage, wie man aus Forschung Realität schaffen kann, nicht bloß akademische Veröffentlichungen. Letztere sind toll für die Diskussion mit den Kollegen aus der Wissenschaft, aber es sind im Schnitt nur 50 Experten, die ein Papier lesen und zitieren, wohingegen reale Produkte von Millionen von Kunden genutzt werden.
t3n: Sie forschen seit mehr als 20 Jahren an intelligenten Systemen. Vielen Menschen kam das Thema lange Zeit wie Science-Fiction vor. Jetzt scheinen wir als Endverbraucher plötzlich von künstlichen Intelligenzen und digitalen Assistenten umgeben. Wie kommt das?
Die Öffentlichkeit hat die großen Fortschritte auf dem Gebiet zehn Jahre lang übersehen, was auch daran liegt, dass konkrete Anwendungen erst durch die stark gestiegene Rechenleistung der letzten Jahre möglich geworden sind. Heute ist Rechenkapazität eine Ware, die man pro Tag oder Stunde mieten kann, sodass solche Anwendungen auch für kleinere Unternehmen und Startups nutzbar geworden sind. Das hat zum Durchbruch geführt. Hinter dieser Entwicklung steht aber eine überschaubare Anzahl von Algorithmen, die schon Anfang der Achtzigerjahre untersucht wurden. Diese werden natürlich ständig erweitert, weil sich die Anforderungen verändern und heute Milliarden Datenpunkte ausgewertet werden müssen – quasi eine digitale Kopie der realen Welt. Bei diesen Dimensionen spielt dann auch der Energieverbrauch der Prozesse in den Datencentern eine immer wichtigere Rolle. Die Algorithmen selbst sind aber nach wie vor ziemlich klein. Es geht heute um das Kuratieren von kleinen Algorithmen und riesigen Datenströmen, die wiederum entsprechend gereinigt werden müssen, um gute Ergebnisse zu liefern. Das ist eine ganz andere Form des Programmierens.
t3n: Sie betreiben einerseits Grundlagenforschung, andererseits leiten Sie Teams, die an konkreten Produkten für Endkunden arbeiten. Wie geht das zusammen?
Zusammen mit dem Chief Economist von Amazon, der in Seattle sitzt, leite ich hier in Berlin ein zentrales Team, das keiner speziellen Produktgruppe unterstellt ist. Zusätzlich bauen wir hier Teams auf, die dann irgendwann unabhängig von uns dezentral weiterarbeiten, sobald sie ihre eigene Expertise um ein Produkt herum aufgebaut haben. Derzeit habe ich Teams in Berlin, Tübingen und Barcelona. Obwohl ich im Herzen Wissenschaftler bin, ist die Kundenperspektive für mich sehr wichtig. Aber Kunde heißt für mich nicht zwangsläufig Endverbraucher. Es ist immer die Person, für die man arbeitet, und das ist häufig jemand Firmeninternes. Für die Personalabteilung bin ich selbst der Kunde, als wissenschaftlicher Leiter wiederum sind meine Kunden die Produktgruppen innerhalb unserer Firma, die zum Beispiel Apps für Alexa entwickeln. Wenn diese internen Software-Teams die Ergebnisse unserer Forschung nicht benutzen können, etwa weil wir sie nur als akademische Papiere veröffentlichen anstatt selbst bei der Umsetzung unterstützend mitzuwirken, leiste ich schlechte Arbeit an meinen Kunden.
t3n: Woher kommen Ihre Forschungsziele?
Die Ziele sollen von den Mitarbeitern selbst entwickelt werden. Natürlich gibt es übergeordnete strategische Ziele, etwa Amazon Web Services, Prime, Alexa oder auch den Marktplatz. Aber schon in unserem Onboarding-Prozess, wenn ein Forscher hier frisch anfängt, besteht eine seiner Aufgaben darin, eine fiktive Pressemitteilung für einen künftigen Produkt-Launch zu verfassen.
t3n: Eine Pressemitteilung für ein Produkt, das es nicht gibt?
Ja. Unsere neuen Mitarbeiter sollen genau das Projekt beschreiben, an dem sie die nächsten zwölf Monate arbeiten wollen. Idealerweise passiert das in kleinen Teams von drei bis vier Leuten. Diese Erfahrung funktioniert dann wie ein Nordstern, sie gibt der Grundlagenforschung eine Orientierung. Neben der fiktiven Pressemitteilung müssen die Forscher auch ein FAQ einreichen, bei dem es darum geht, das Forschungsrisiko einzuschätzen, kritische Fragen zu stellen, zu beschreiben, welche Experimente erfolgreich durchgeführt werden müssen, um zu einem Ergebnis zu gelangen. Da geht es dann darum, Fachwissen einzubringen. Anstatt mit reinen Forschungsfragen zu beginnen und davon auszugehen, dass das, was man entwickelt, schon eine Anwendung finden wird, gehen wir also umgekehrt vor und beginnen mit der Anwendung. Die Forschung ist für uns Mittel zum Zweck.
t3n: Ist diese Vorgehensweise ein Industriestandard?
Ich denke nicht. Ich kann es zwar aus eigener Erfahrung nur mit zwei Firmen vergleichen, aber als ich bei Microsoft und Facebook gearbeitet habe, war das zumindest nicht so. Da ging man entweder von technischen Herausforderungen oder von Geschäftsmodellen aus. Wir haben gelernt, dass neue Wissenschaftler, die von außen zu Amazon kommen, mehrere Monate brauchen, bis sie das kundenorientierte Forschen wirklich verinnerlicht haben.
t3n: Wie weit liegen diese fiktiven Anwendungen denn in der Zukunft?
Typischerweise drei Jahre. Darüber hinaus wird es schwer, Vorhersagen zu treffen, weil sich in dem Zeitraum technologisch wirklich sehr viel tun kann.
t3n: Zurückblickend auf die letzten Jahre: Welche Forschungsprobleme konnten sie überraschend schnell lösen und welche haben sich als besonders hartnäckig erwiesen?
Eine für mich überraschende Erfolgsgeschichte war das X-Ray-Feature auf dem Amazon Kindle. Es ging darum, Inhalte von E-Books automatisiert zu erkennen und zu strukturieren, genauer gesagt: Namen von Orten und Protagonisten semantisch auseinanderzuhalten. Das hatten wir auf Englisch bereits entwickelt und mussten es für andere Sprachen implementieren. Gerade für die asiatischen Sprachen ohne Interpunktion hatte ich damit gerechnet, dass wir dafür mehrere Jahre brauchen würden, aber wir haben es in unter sechs Monaten geschafft. Deutlich länger hingegen hat es gedauert, den Reifegrad von Früchten visuell erfassbar zu machen. Diese Aufgabe war 2014 vom Lieferservice Amazon Fresh an mich herangetragen worden. Es besteht allgemein das Problem, dass bis zu 50 Prozent aller Frischwaren auf dem Weg von der Ernte zur Küche verderben. Da es hier im Prinzip auch um Mustererkennung geht, hätte ich nicht damit gerechnet, dass wir am Ende dreieinhalb Jahre brauchen würden, um das Problem zu lösen. Angefangen haben wir damit, dass wir beim Supermarkt 56 Erdbeeren gekauft und dann regelmäßig fotografiert haben. Mit so einem kleinen Datensatz ließen sich aber noch keine Deep-Learning-Verfahren einsetzen, dafür brauchten wir erst ein System, um im großen Stil Bilder von Obst und Gemüse in verschiedenen Stadien zu erfassen.
t3n: Wie viel von der Entwicklungszeit wird an konkreten Algorithmen gearbeitet?
Das Erforschen der Algorithmen macht oft nur 30 Prozent der Projektdauer aus. Was dauert, ist die Integration der neuen Lösung in bestehenden Code und die Gewährleistung einer guten Kundenerfahrung. Wenn man eine praktisch-technische Lösung hat, die die Kunden aber nicht nutzen, muss man immer wieder in die Entwicklung zurückgehen und experimentelle Prototypen zusammen mit kleinen Nutzergruppen testen.
t3n: Fällt das dann überhaupt noch in Ihren Aufgabenbereich?
Ja, bis eine hinreichend große Kundenbasis ein neues Produkt auch wirklich benutzt, gilt ein Projekt nicht als Erfolg.
t3n: Bei textbasierten Suchmaschinen sehen Nutzer viele Ergebnisse auf einen Blick und können sich das für sie relevanteste heraussuchen. Stellen sie aber einem Sprachassistenten wie Alexa eine Frage, erhalten sie nur eine einzige Antwort. Wie können Sie bei Sprach-Interfaces abschätzen, mit welcher Wahrscheinlichkeit diese Antwort richtig ist?
Dieses Konzept ist für Kunden sehr schwierig intuitiv darzustellen. Zwar liefern fast alle Systeme im Hintergrund einen Confidence-Wert für jedes Ergebnis – der Algorithmus weiß also, wie sicher er sich seiner Sache ist. Eine solche Zahl ist auch für Statistiker verständlich, aber anderen Menschen schwer begreifbar zu machen, und kann verwirren. Was heißt es, wenn mir gesagt wird, es wird morgen mit 60-prozentiger Wahrscheinlichkeit regnen? Wird es nun regnen oder nicht? Da braucht es noch mehr Forschung und zwar nicht im mathematischen Bereich, sondern vor allem im sprachlichen User-Interface-Design, um die richtigen Schwellenwerte der Abstufungen zwischen Formulierungen wie „ich bin mir nicht sicher“ und „ich bin mir sehr sicher“ zu finden.
t3n: Wird denn das Potenzial des maschinellen Lernens in der Öffentlichkeit über- oder unterschätzt?
Vielen Menschen ist nicht bewusst, wie riesig die Menge an Trainingsdaten ist, die ein System benötigt, um daraus zu lernen. Um eine Objektkategorie zu erlernen, braucht ein Algorithmus zwischen hundert- bis tausendmal mehr Lernbeispiele als ein Kind. Deswegen sind Programme, die sich selbst das Programmieren beibringen oder gar Bewusstsein entwickeln, heute reine Fiktion. Um Programmieren zu lernen und sich selbst fortzuschreiben, bräuchte ein Machine-Learning-Algorithmus Millionen gleichartiger Programmierbeispiele, und die gibt es nicht. Was überschätzt wird, ist also die Möglichkeit einer generellen KI. Zugleich unterschätzen die meisten Leute, wie präzise ein Programm innerhalb eines engen Bereichs Muster erkennen kann, wenn es genügend Daten zur Verfügung hat. Das sehen wir intern zum Beispiel bei der Nachfragevorhersage – manche unserer Einkäufer denken regelmäßig, sie könnten das aufgrund ihrer Erfahrung besser als der Algorithmus. Aber es gibt einfach so viele Daten, die da einfließen, dass sie ein einzelner Mensch nicht mehr überblicken und erfassen kann. Das Gleiche gilt für Übersetzungssoftware. Kein Mensch kann zu Trainingszwecken sämtliche in zwei Sprachen verfügbaren Texte lesen – ein Algorithmus schon. Die Trainingsdaten sind der Schlüssel. Alles hängt davon ab, wie strukturiert, wie sauber und wie umfangreich sie sind.
t3n: Wenn Daten eine derart zentrale Rolle spielen: Haben die Big Five Google, Amazon, Facebook, Apple und Microsoft nicht schon einen uneinholbaren Vorteil in Sachen KI?
Sie haben natürlich eine ziemlich lange Geschichte an Daten in bestehenden Bereichen, aber bei neuen Produkten fängt man wieder von ganz vorne an. Dies sieht man zum Beispiel an neuen Diensten Airbnb, Uber oder Pinterest, die in anderen Bereichen unterwegs sind. Oder auch an Firmen wie Strava, die auf neuartige Sensoren wie Pulsmesser zurückgreifen können. Da bauen sich für jedes Unternehmen sehr schnell signifikante Datenmengen auf.