Sprach-KI versagt: Deshalb funktioniert Natural Language Processing bei Tieren nicht
Engadget hat sich in einem ausführlichen Beitrag mit dem Thema befasst, warum Natural Language Processing (NLP) im Wesentlichen nicht funktioniert, um tierische Laute in menschliche Sprache oder umgekehrt zu übersetzen.
Kommunikation ist nicht gleich Sprache
Im Grunde ist die Begründung ganz einfach. Denn, was wir verstehen müssen, ist eines. Es gibt einen Unterschied zwischen Kommunikation und Sprache.
„Alle Lebewesen kommunizieren“, hat ein interdisziplinäres Forscherteam schon 2018 in ihrem Buch „On understanding the nature and evolution of social cognition: a need for the study of communication“ behauptet. Die führen aus:
„Kommunikation beinhaltet eine Handlung oder Eigenschaft eines Individuums, die das Verhalten, die Verhaltenstendenz oder die Physiologie mindestens eines anderen Individuums in einer Weise beeinflusst, die typischerweise für beide adaptiv ist.“
Tatsächlich hat die Wissenschaft von Mikroben über Pilze bis hin zu Pflanzen bisher noch keinen Organismus gefunden, der so extrem isoliert lebt, dass er nicht über ein natürliches Mittel zur Kommunikation mit seiner Umwelt verfügt. Das klingt positiv im Sinne des NLP-Gedankens, ist es aber nicht.
Denn die Linguistics Society of America argumentiert, dass kein anderes natürliches Kommunikationssystem mit der menschlichen Sprache vergleichbar ist. Immerhin ermögliche uns die Sprache, unsere inneren Gedanken auszudrücken und Informationen zu übermitteln, aber auch um sie zu bitten oder sie sogar einzufordern:
„Im Gegensatz zu allen anderen tierischen Kommunikationssystemen enthält sie einen Ausdruck für die Verneinung. Tierische Kommunikationssysteme haben dagegen typischerweise höchstens ein paar Dutzend verschiedene Rufe, und sie werden nur verwendet, um unmittelbare Angelegenheiten wie Nahrung, Gefahr, Bedrohung oder Versöhnung mitzuteilen.“
Haustiere „verstehen“ uns gut
Wenn wir nun Sprache und Kommunikation korrekt voneinander trennen, heißt das nicht etwa, dass Haustiere uns nicht verstehen. Gerade „Hunde und Katzen können auf sehr breites Spektrum menschlicher Wörter reagieren.“
Es ist allerdings nicht klar, ob sie damit nur auf konditionierte Begriffe reagieren oder ob ein tieferes Verständnis dahintersteckt. So bleibe abzuwarten, ob unsere Hunde und Katzen tatsächlich verstehen, was „Abendessen“ bedeutet – abgesehen von der unmittelbaren pawlowschen Reaktion.
Die Chancen stehen indes ganz gut, denn gerade Hunde „halten derzeit den Rekord unter den nicht-menschlichen Tierarten, wenn es darum geht, gesprochene menschliche Worte zuverlässig Objekten oder Handlungen zuzuordnen“. Allerdings sei es schwierig, mit Sicherheit zu wissen, inwieweit Hunde die Absicht hinter unseren Worten oder Handlungen verstehen.
Das liege daran, dass wir im Gespräch mit Hunden und Katzen in der Regel ein ganz konkretes Tun oder Unterlassen vor Augen haben. Ein echtes Gespräch sei das natürlich nicht.
Natural Language Programming (NLP) ist nun allerdings der Zweig der künstlichen Intelligenz, der es Computern und algorithmischen Modellen ermöglicht, Text und Sprache zu interpretieren, einschließlich der Absicht des Sprechers.
Sie kombiniert Computerlinguistik, die die Syntax, Grammatik und Struktur einer Sprache modelliert, mit Modellen des maschinellen Lernens, die „automatisch Elemente von Text- und Sprachdaten extrahieren, klassifizieren und kennzeichnen und dann jeder möglichen Bedeutung dieser Elemente eine statistische Wahrscheinlichkeit zuweisen“, erläutert IBM.
Deshalb ist NLP die Grundlage für die Funktionalität aller digitalen Assistenten auf dem Markt. Im Grunde genommen übersetzt NLP jedes Mal, wenn Sie mit einem „intelligenten“ Gerät sprechen, Ihre Worte in maschinenverständliche Signale und vice versa.
NLP-Transformatoren revolutionieren die Sprach-KI
Der Bereich der NLP-Forschung hat sich in den letzten Jahren erheblich weiterentwickelt, da die Kernsysteme auf die Transformer-Architektur von Google umgestellt wurden, die die Trainingseffizienz erheblich verbessert. Denn statt einer Wort-für-Wort-Übersetzung schnappen sich Transformatoren ganze Sätze.
So können sie nicht nur ganz konkret mehr leisten, sondern „viel größere Modelle auf viel mehr Daten zu trainieren.“ Das ist positiv und wird uns in der Sprach-KI deutlich nach vorne bringen.
Dem Sprechen mit Tieren bringen uns diese Systeme dennoch nicht näher. Das liegt an mehreren Faktoren.
Tierische Kommunikationssysteme sehr unterschiedlich
Zum einen sind die Kommunikationssysteme tierischer Arten nicht homogen. Das komplexeste bisher bekannte Kommunikationssystem unterhalten wohl die Meisen.
Das bestätigt Dr. Jeffrey Lucas, Professor für Biowissenschaften an der Purdue University. Für ihn ist der Ruf der Meisen „eines der kompliziertesten Vokalsysteme, das wir kennen. Letztendlich zeigen die zahlreichen Forschungsarbeiten, dass es verdammt kompliziert ist, und das Problem mit den Arbeiten ist, dass sie die tatsächliche Kompliziertheit [der Rufe] stark unterbewerten.“
Denn problematisch ist, dass wir nicht nur riesige Mengen an Trainingsdaten brauchen, um ihrer selbst willen. Gerade beim NLP-Einsatz im Tierreich kommt eine starke sozial-kulturelle Besonderheit hinzu.
Ermittlung der Absicht des Sprechers überaus komplex
Denn was wir nicht wissen und auch nicht wissen können, ist, wie die beiden Sprachen miteinander korrelieren, damit der übersetzte Text die richtige Absicht des Sprechers wiedergibt. Das lässt sich im tierischen Kontext kaum ermitteln.
Im Grunde brauchten wir Daten aus der einen Sprache, für die es in der anderen Sprache Entsprechungen gibt, z.B. Mann und Frau. Für eine korrekte Übersetzung ist es dann allerdings wichtig zu wissen, ob das gesuchte Wortpaar in der Zielsprache so ebenso existiert.
Gibt es diese Entsprechungen so nicht, kann es reichen, sich auf kulturelle Ähnlichkeiten zu verlassen, etwa das Vorhandensein eines Königspaars in beiden Ländern. Sobald eine fixe Verknüpfung gefunden werden kann, ist ein Übersetzungsversuch zumindest nicht völlig aussichtslos.
Begriffspaare gesucht
Allerdings müssen wir wohl realistisch davon ausgehen, dass das Begriffspaar Mann und Frau im Tierreich eine eher pragmatische Rolle spielt. Es ist denkbar, dass es einen zentralen Anker, wie etwa ein Begriffspaar Mann und Frau gibt.
Allerdings kennen wir den nicht. Und ohne eine auch nur rudimentäre begriffliche Zuordnung wird es sehr viel schwieriger, den Kontext und die Absicht eines Tierrufs zu erkennen – von der Syntax, Grammatik und Semantik des zugrunde liegenden Kommunikationssystems gar nicht erst zu reden.
Im Ergebnis gehen die Forschenden davon aus, dass sie sehr viel mehr Daten aus dem Kontext der Lebewesen benötigen, um in die Lage zu geraten, tatsächlich deren Laute in menschliche Sprache zu übersetzen.
Ansonsten könne nicht ausgeschlossen werden, dass die Vögel nur wegen der Hitze schreien.