Audiodaten als Training: Dieser Roboter kann Bagel besser umdrehen, wenn er zuhört
Die meisten KI-gesteuerten Roboter verwenden heute Kameras, um ihre Umgebung zu verstehen und neue Aufgaben zu erlernen. Aber es wird immer einfacher, Roboter auch mit Geräuschen zu trainieren, damit sie sich an Aufgaben und Umgebungen anpassen können, in denen die Sicht eingeschränkt ist.
Obwohl das Sehen wichtig ist, sind für einige unserer täglichen Aufgaben Geräusche hilfreicher, zum Beispiel, wenn wir hören, wie die Zwiebeln auf dem Herd brutzeln, um festzustellen, ob die Pfanne die richtige Temperatur hat. Das Training von Robotern mit Audio wurde bisher jedoch nur in streng kontrollierten Laborumgebungen durchgeführt, und die Techniken blieben hinter anderen schnellen Lernmethoden für Roboter zurück.
Hinweise aus Audiosignalen
Forscher des Robotics and Embodied AI Lab an der Stanford University haben sich vorgenommen, das zu ändern. Sie bauten zunächst ein System zur Erfassung von Audiodaten, bestehend aus einem Greifer mit einem Mikrofon, das Hintergrundgeräusche herausfiltert, und einer Gopro-Kamera. Menschliche Demonstranten benutzten den Greifer für eine Reihe von Haushaltsaufgaben und trainierten dann anhand dieser Daten Roboterarme, wie sie die Aufgabe selbstständig ausführen können. Die neuen Trainingsalgorithmen des Teams helfen Robotern, Hinweise aus Audiosignalen zu gewinnen, um effizienter zu arbeiten.
„Bislang haben Roboter mit Videos trainiert, die stummgeschaltet sind“, sagt Zeyi Liu, Doktorand in Stanford und Hauptautor der Studie. „Aber es gibt so viele hilfreiche Daten im Audiobereich.“
Um zu testen, wie viel erfolgreicher ein Roboter sein kann, wenn er in der Lage ist, „zuzuhören“, wählten die Forscher vier Aufgaben aus: einen Bagel in einer Pfanne umdrehen, ein Whiteboard löschen, zwei Klettstreifen zusammenfügen und mit einem Würfelbecher würfeln. Bei jeder Aufgabe liefern Geräusche Hinweise, die Kameras oder taktile Sensoren nur schwer erkennen können, zum Beispiel, ob der Radiergummi die Tafel richtig berührt oder ob der Becher Würfel enthält oder nicht.
Nachdem das Team jede Aufgabe einige Hundert Mal vorgeführt hatte, verglich es die Erfolgsquoten des Trainings mit Ton mit denen des Trainings nur auf visueller Basis. Die Ergebnisse, die in einem noch nicht begutachteten Papier auf Arxiv veröffentlicht wurden, waren vielversprechend. Beim Würfeltest konnte der Roboter nur in 27 Prozent der Fälle erkennen, ob sich Würfel im Becher befanden, aber die Erfolgsquote stieg auf 94 Prozent, wenn der Ton hinzukam.
Audiodateien aus „der freien Natur“
Laut Liu ist es nicht das erste Mal, dass Audiodaten zum Trainieren von Robotern verwendet werden, aber es ist ein großer Schritt in Richtung einer groß angelegten Anwendung. „Wir erleichtern die Verwendung von Audiodaten, die in der freien Natur gesammelt wurden, anstatt sie nur im Labor zu sammeln, was zeitaufwendiger ist.“
Die Forschungsergebnisse deuten darauf hin, dass Audiodaten im Wettlauf um das Training von Robotern mit künstlicher Intelligenz zu einer gefragten Datenquelle werden könnten. Forscher bringen Robotern durch Imitationslernen schneller als je zuvor etwas bei, indem sie ihnen Hunderte Aufgabenbeispiele zeigen, anstatt jede Aufgabe von Hand zu programmieren. Wenn Audiodaten in großem Umfang mit Geräten wie dem in der Studie gesammelten erfasst werden könnten, könnten sie Robotern einen völlig neuen „Sinn“ geben und ihnen helfen, sich schneller an Umgebungen anzupassen, in denen die Sicht eingeschränkt oder nicht nützlich ist.
„Man kann mit Sicherheit sagen, dass Audio die am wenigsten untersuchte Modalität für die Wahrnehmung von Robotern ist“, sagt Dmitry Berenson, außerordentlicher Professor für Robotik an der Universität von Michigan, der nicht an der Studie beteiligt war. Das liegt daran, dass der Großteil der Robotikforschung zur Manipulation von Objekten auf industrielle Pick-and-place-Aufgaben wie das Sortieren von Objekten in Behälter ausgerichtet war. Diese Aufgaben profitieren nicht sehr vom Klang, sondern verlassen sich auf taktile oder visuelle Sensoren. Wenn Roboter jedoch auch Aufgaben in Haushalten, Küchen und anderen Umgebungen übernehmen, wird Audio immer nützlicher werden, sagt Berenson.
Audiodaten geben Hinweise, haben aber auch Grenzen
Stellen Sie sich einen Roboter vor, der versucht, bei eingeschränkter Sicht zu erkennen, in welcher Tasche sich ein Schlüsselbund befindet. „Noch bevor man die Schlüssel berührt, hört man sie vielleicht klimpern“, sagt Berenson. „Das ist ein Hinweis darauf, dass sich die Schlüssel in dieser Tasche befinden und nicht in einer anderen.“
Dennoch hat Audio seine Grenzen. Das Team weist darauf hin, dass der Ton bei sogenannten weichen oder flexiblen Objekten wie Kleidung nicht so nützlich ist, da diese nicht so viele verwertbare Geräusche erzeugen. Die Roboter hatten auch Probleme damit, die Geräusche ihrer eigenen Motoren während der Aufgaben herauszufiltern, da diese Geräusche in den von Menschen produzierten Trainingsdaten nicht vorhanden waren. Um dies zu beheben, mussten die Forscher Robotergeräusche – Sirren, Brummen und Antriebsgeräusche – zu den Trainingsdaten hinzufügen, damit die Roboter lernen konnten, sie auszublenden.
Der nächste Schritt, so Liu, besteht darin, zu sehen, wie viel besser die Modelle mit mehr Daten werden können, was mehr Mikrofone, das Sammeln von räumlichem Audio und das Hinzufügen von Mikrofonen zu anderen Arten von Datenerfassungsgeräten bedeuten könnte.