Trendreport

Transfer Learning: Das Wundermittel für mehr Intelligenz?

(Grafik: Hubertus Krohne)

Transfer Learning wird oft als Wundermittel gepriesen, um künstliche ­Intelligenz zur Marktfähigkeit zu bringen. Doch auch wenn die Methode anscheinend Wunder vollbringt, ­so verschärft sie im selben Zug die ­Probleme der Technologie.


Die Verzweiflung war groß, als Björn Schuller zu einem ­Wundermittel griff: Es hieß Transfer Learning und brachte ihm eine Vielzahl von ­Trainingsdaten ein, die ihm zuvor gefehlt ­hatten, um seine KI weiterzuentwickeln. Der Augsburger ­Professor für Informatik hat ein Startup gegründet, das Emotionen in menschlichen Stimmen erkennt. Das funktionierte schon recht gut, doch für manche ­Anwendungsfälle hatte er viel zu wenig Daten. Diese sind aber nötig, um Systeme künstlicher Intelligenz zu trainieren. Im Fall von Schuller braucht es etwa Sprachbeispiele von Menschen und die dazugehörige Einschätzung anderer Menschen, welche Emotionen hier transportiert werden – sogenannte ­„annotierte“ Daten. Solche, die Anmerkungen und Erläuterungen beinhalten. „Sprachdaten gibt es viele, aber es ist wahnsinnig aufwendig und teuer, annotierte Sprachdaten zu bekommen“, erklärt Schuller.

Also hat er zu einem ungewöhnlichen Mittel gegriffen: Er nutzte ein tiefes neuronales Netz, das auf Emotionserkennung in Musik trainiert war, und ließ es die Stimmung von verschiedenen Geräuschen erkennen. Schließlich empfinden wir Menschen manche Geräusche wie etwa Vogelgezwitscher als angenehm, Töne wie Autolärm dagegen als unangenehm. Und er griff auf Netze zurück, die auf menschliche Stimmungen bei Geräuschen – Verkehrslärm negativ, Vogelgezwitscher positiv – trainiert waren, und fütterte sie mit seinen Sprachdaten: Tatsächlich waren diese Netze recht gut darin, Emotionen in Sprachdaten zu erkennen. „Wir imitieren mit der Stimme offenbar Dinge, die wir in der Natur wahrnehmen.“ Allein mit dieser Mischung aus Geräusch­erkennung und Sprachdaten erzielte Schuller relativ schnell hohe ­Erkennungsraten von um die 70 Prozent. „Die Community war ziemlich ­erstaunt“, berichtet Schuller grinsend.

Unternehmen und Wissenschaftler verbinden derzeit sehr ­große Hoffnungen mit dem Transfer Learning: Er beschreibt die Methode, vortrainierte Modelle aus anderen Zusammenhängen zu nutzen, um eine künstliche Intelligenz zu verbessern. Diese Methode scheint die Lösung für eines der größten Probleme zu sein, die KI mit sich bringt, wenn sie ins reale Leben vordringt und ihre Marktfähigkeit beweisen will: die Trainingsdaten. Schuller, der seit 17 Jahren in diesem Bereich arbeitet, weiß: „Der Flaschenhals sind immer die ­Daten.“

Neuronale Netze und die Inselbegabung

Transfer Learning basiert auf Deep Learning. Diese moderne Methode des maschinellen Lernens hat verschiedene Schichten als Grundlage, auf denen die Neuronen Informationen weitergeben: In der Bild­erkennung beispielsweise erlernen die Netze in den ersten Schichten Linien, später Ecken, dann irgendwann Farben und ausgefeiltere Formen – und erst in den obersten Schichten wird die Entscheidung getroffen, was auf einem Bild zu sehen ist. Doch ein bekanntes ­Problem von maschinellem Lernen ist, dass die Netze meist nur sehr spezifische Probleme lösen können – nämlich jene, auf die sie trainiert wurden. Auch wenn der Begriff „neuronale Netze“ an Vorgänge im menschlichen Gehirn angelehnt ist, funktioniert das Lernen offenbar ziemlich anders: Menschen sind eher Generalisten, während neuronale Netze sehr konkrete Probleme lösen können – das allerdings oft besser als Menschen.

Meist funktionieren die Netze nur in jener Domäne gut, in der sie auch trainiert wurden. Da sie obendrein sehr viele Trainingsdaten brauchen, die Menschen annotiert haben müssen, sind sie recht teure, spezifische Problemlöser. Transfer Learning könnte hier Abhilfe schaffen.

„In der Bilderkennung funktioniert Transfer Learning schon recht gut“, sagt auch Zbigniew Jerzak, Leiter Machine Learning Research bei SAP. Beispielsweise für einen Service, der Produkte klassifizieren soll für einen Kunden, der Retouren automatisch richtig einordnen will. „Doch dafür braucht man viele Bilder von jedem Produkt, während der Hersteller meist nur genau eines im Katalog hat.“ Dafür habe sich Transfer Learning auf der Basis frei verfügbarer Bilddatenbanken aus der Wissenschaft bewährt. Auch wenn auf diesen keine Computer oder Smartphones zu ­sehen sind, sondern Hunde, Katzen, Bäume oder Häuser, helfen sie dem Netz, eben jene technischen Geräte des Kunden zu er­kennen. „Das Modell entwickelt dabei ein Verständnis, wie die Welt aussieht“, erklärt Jerzak.

Am Ende müsse es natürlich noch händisch angepasst werden an den Anwendungsfall. „Man radiert die allerletzte Ebene des Netzes aus, lässt die grundlegenden Konzepte drin und trainiert das System dann auf neuen Daten.“ Dafür brauche es aber dann entsprechend weniger Trainingsdaten, da es die Grundlagen ja schon gelernt habe. „Das ist vergleichbar damit, wie ein Mensch lernt, sich in der Umwelt zu bewegen“, so Jerzak. „Sie können sich ja auch auf einem Schiff zurechtfinden, auch wenn Sie sich bislang nur in Häusern bewegt haben.“

Die Technologie kam SAP gerade recht, denn auch das Unternehmen hatte bemerkt, dass genau jene Fälle, für die künstliche ­Intelligenz gut geeignet ist, gleichzeitig ein Problem mit sich bringen: Es sind Spezialfälle, sehr spezifische Anwendungsfälle wie zum Beispiel die automatische Erkennung eines konkreten Produktes eines Unternehmens. Das bedeutet, es gibt in der ­Regel wenig Trainingsdaten – es braucht aber viele, um ein zufriedenstellendes Ergebnis zu erzielen. „Wir machen seit 45 Jahren nichts anderes, als Geschäftsprozesse in Software zu gießen“, so Jerzak. Viele dieser Prozesse sind sehr ähnlich – jeder verkauft schließlich irgendein Produkt oder eine Dienstleistung und muss abrechnen. Doch gerade jene Probleme, die sich bisher nicht so gut automatisieren ließen, sind für das ­maschinelle Lernen geeignet: „Machine Learning hilft da, wo Standardsoftware Probleme hat.“

Meist zu wenig Daten verfügbar

Jerzak führt das Beispiel einer Rechnung an: Wenn ein Kunde Tausende Lieferanten hat, sieht die Rechnung bei jedem ein bisschen anders aus. Von wem kommt sie? Wo steht der Betrag, wo das gelieferte Produkt? „Künstliche Intelligenz kann hier helfen, diese Prozesse sauberer und schneller abzuwickeln.“ Denn ­maschinelles Lernen ist flexibler als klassische, nach Regeln programmierte Software. Allerdings gibt es auch hier das Problem mit den Trainingsdaten: „Wir haben meist nur wenige annotierte Beispiele oder es ist kostenintensiv, diese vorzubereiten. Hier ist Transferlernen eine Krücke.“

Sowohl Schuller als auch Jerzak sind zwar überzeugt, dass ­Transfer Learning gerade für die Unternehmen ein riesiges ­Potenzial bietet, um KI-Systeme konkret einsetzen zu können. Das Potenzial muss aber erst noch erschlossen werden. In der Textverarbeitung können transfer-learning-basierte ­Systeme etwa mittels Wikipedia-Daten vortrainiert werden, erklärt Jerzak: „Das hilft ihnen, zu verstehen, was ein Verb ist, was eine Person und so weiter. Das kann ich in den Businesskontext einbetten und auf dieser Grundlage lernen, was ein Nutzer ist und was ein ­Produkt.“ Ein solches System lerne schneller und genauer. Bei visuellen Systemen sei dieses „Abschneiden“ der letzten Ebenen noch einfacher, da sich die Abstraktionsebenen besser anschauen ließen als bei anderen Daten. „Es ist immer die entscheidende Frage: Was lasse ich das System vergessen und was nicht?“ Doch auch wenn er der Meinung ist, dass Transfer Learning „super funktioniert“, so sei es doch eine Sache der Erfahrung: „Wir haben Jahre in die Entwicklung gesteckt – und man weiß nie, ob es am Ende funktioniert.“

Auch Schuller bestätigt, dass Transfer Learning viel mit Ausprobieren zu tun habe. Das hat er ausgiebig getan und vor allem eines gelernt: Die Probleme müssen nicht unbedingt sehr ähnlich sein – zumindest nicht aus menschlicher Perspektive – und es scheint nicht intuitiv zu sein, welche Probleme ähnlich genug sind oder von welchen aufeinander aufbauend gelernt werden kann. So hat Schuller – angestachelt von seinen Erfolgen im Transfer Learning – schließlich sogar ein Netz aus der Bilderkennung genutzt, um Sprachdaten auszuwerten. „Das hat mich selbst ein wenig überrascht, dass das funktioniert hat. Es war ja eine drastisch andere Domäne.“ Schuller und seine Kollegen haben dafür das Audiosignal als Spektrum abgebildet und die Energie in den Frequenzen als dritte Dimension in den Farben Grün und Blau codiert. „Die funktionierten am besten, wahrscheinlich weil Grün und Blau auch auf vielen Bildern vorkommen“, sagt Schuller, „als Himmel und Landschaft.“

Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Schreib den ersten Kommentar!

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.