Audiodaten als Training: Dieser Roboter kann Bagel besser umdrehen, wenn er zuhört -

MIT Technology Review News

Audiodaten als Training: Dieser Roboter kann Bagel besser umdrehen, wenn er zuhört

Bisher wurden Roboter oft mit stumm geschalteten Videos trainiert. Eine neue Studie zeigt jetzt aber, dass es viele hilfreiche Daten im Audiobereich gibt, die Robotern beim Training helfen können.

Von MIT Technology Review Online

05.07.2024, 10:45 Uhr • 4 Min.

Audiodaten als Training: Dieser Roboter kann Bagel besser umdrehen, wenn er zuhört — In der Studie zeigte sich, dass es der Roboter besser schaffte, den Bagel umzudrehen, wenn er zusätzlich Audioinformationen hatte. (Screenshot: Zeyi Liu et al.)

Die meisten KI-gesteuerten Roboter verwenden heute Kameras, um ihre Umgebung zu verstehen und neue Aufgaben zu erlernen. Aber es wird immer einfacher, Roboter auch mit Geräuschen zu trainieren, damit sie sich an Aufgaben und Umgebungen anpassen können, in denen die Sicht eingeschränkt ist.

Obwohl das Sehen wichtig ist, sind für einige unserer täglichen Aufgaben Geräusche hilfreicher, zum Beispiel, wenn wir hören, wie die Zwiebeln auf dem Herd brutzeln, um festzustellen, ob die Pfanne die richtige Temperatur hat. Das Training von Robotern mit Audio wurde bisher jedoch nur in streng kontrollierten Laborumgebungen durchgeführt, und die Techniken blieben hinter anderen schnellen Lernmethoden für Roboter zurück.

Hinweise aus Audiosignalen

Forscher des Robotics and Embodied AI Lab an der Stanford University haben sich vorgenommen, das zu ändern. Sie bauten zunächst ein System zur Erfassung von Audiodaten, bestehend aus einem Greifer mit einem Mikrofon, das Hintergrundgeräusche herausfiltert, und einer Gopro-Kamera. Menschliche Demonstranten benutzten den Greifer für eine Reihe von Haushaltsaufgaben und trainierten dann anhand dieser Daten Roboterarme, wie sie die Aufgabe selbstständig ausführen können. Die neuen Trainingsalgorithmen des Teams helfen Robotern, Hinweise aus Audiosignalen zu gewinnen, um effizienter zu arbeiten.

Abseits von Audiosignalen sind es vor allem KI-Modelle, auf die große Hoffnungen gesetzt werden, dass diese der Robotik einen kräftigen Schub in Richtung „smarte Robotik“ verleihen. Wie der Stand der Technik aussieht, welche Möglichkeiten KI in der Robotik bietet und welche Probleme noch zu lösen sind, behandelt MIT Technology Review in seiner aktuellen Ausgabe, die seit Donnerstag, 4. Juli, im Heise-Shop bestellbar und ab Freitag, 5. Juli, zu kaufen ist.

„Bislang haben Roboter mit Videos trainiert, die stummgeschaltet sind“, sagt Zeyi Liu, Doktorand in Stanford und Hauptautor der Studie. „Aber es gibt so viele hilfreiche Daten im Audiobereich.“

Um zu testen, wie viel erfolgreicher ein Roboter sein kann, wenn er in der Lage ist, „zuzuhören“, wählten die Forscher vier Aufgaben aus: einen Bagel in einer Pfanne umdrehen, ein Whiteboard löschen, zwei Klettstreifen zusammenfügen und mit einem Würfelbecher würfeln. Bei jeder Aufgabe liefern Geräusche Hinweise, die Kameras oder taktile Sensoren nur schwer erkennen können, zum Beispiel, ob der Radiergummi die Tafel richtig berührt oder ob der Becher Würfel enthält oder nicht.

Nachdem das Team jede Aufgabe einige Hundert Mal vorgeführt hatte, verglich es die Erfolgsquoten des Trainings mit Ton mit denen des Trainings nur auf visueller Basis. Die Ergebnisse, die in einem noch nicht begutachteten Papier auf Arxiv veröffentlicht wurden, waren vielversprechend. Beim Würfeltest konnte der Roboter nur in 27 Prozent der Fälle erkennen, ob sich Würfel im Becher befanden, aber die Erfolgsquote stieg auf 94 Prozent, wenn der Ton hinzukam.

Audiodateien aus „der freien Natur“

Laut Liu ist es nicht das erste Mal, dass Audiodaten zum Trainieren von Robotern verwendet werden, aber es ist ein großer Schritt in Richtung einer groß angelegten Anwendung. „Wir erleichtern die Verwendung von Audiodaten, die in der freien Natur gesammelt wurden, anstatt sie nur im Labor zu sammeln, was zeitaufwendiger ist.“

Die Forschungsergebnisse deuten darauf hin, dass Audiodaten im Wettlauf um das Training von Robotern mit künstlicher Intelligenz zu einer gefragten Datenquelle werden könnten. Forscher bringen Robotern durch Imitationslernen schneller als je zuvor etwas bei, indem sie ihnen Hunderte Aufgabenbeispiele zeigen, anstatt jede Aufgabe von Hand zu programmieren. Wenn Audiodaten in großem Umfang mit Geräten wie dem in der Studie gesammelten erfasst werden könnten, könnten sie Robotern einen völlig neuen „Sinn“ geben und ihnen helfen, sich schneller an Umgebungen anzupassen, in denen die Sicht eingeschränkt oder nicht nützlich ist.

„Man kann mit Sicherheit sagen, dass Audio die am wenigsten untersuchte Modalität für die Wahrnehmung von Robotern ist“, sagt Dmitry Berenson, außerordentlicher Professor für Robotik an der Universität von Michigan, der nicht an der Studie beteiligt war. Das liegt daran, dass der Großteil der Robotikforschung zur Manipulation von Objekten auf industrielle Pick-and-place-Aufgaben wie das Sortieren von Objekten in Behälter ausgerichtet war. Diese Aufgaben profitieren nicht sehr vom Klang, sondern verlassen sich auf taktile oder visuelle Sensoren. Wenn Roboter jedoch auch Aufgaben in Haushalten, Küchen und anderen Umgebungen übernehmen, wird Audio immer nützlicher werden, sagt Berenson.

Empfehlungen der Redaktion

Feature

Zwischen Mensch und Maschine: Was macht eigentlich ein Human Robot Relations Manager?

News

Kaffeepause 2.0: In diesem Büro liefern Roboter die Heißgetränke aus

MIT Technology Review News

Digit: Wie die Technologie hinter ChatGPT diesen Roboter antreibt

Audiodaten geben Hinweise, haben aber auch Grenzen

Stellen Sie sich einen Roboter vor, der versucht, bei eingeschränkter Sicht zu erkennen, in welcher Tasche sich ein Schlüsselbund befindet. „Noch bevor man die Schlüssel berührt, hört man sie vielleicht klimpern“, sagt Berenson. „Das ist ein Hinweis darauf, dass sich die Schlüssel in dieser Tasche befinden und nicht in einer anderen.“

Dennoch hat Audio seine Grenzen. Das Team weist darauf hin, dass der Ton bei sogenannten weichen oder flexiblen Objekten wie Kleidung nicht so nützlich ist, da diese nicht so viele verwertbare Geräusche erzeugen. Die Roboter hatten auch Probleme damit, die Geräusche ihrer eigenen Motoren während der Aufgaben herauszufiltern, da diese Geräusche in den von Menschen produzierten Trainingsdaten nicht vorhanden waren. Um dies zu beheben, mussten die Forscher Robotergeräusche – Sirren, Brummen und Antriebsgeräusche – zu den Trainingsdaten hinzufügen, damit die Roboter lernen konnten, sie auszublenden.

Der nächste Schritt, so Liu, besteht darin, zu sehen, wie viel besser die Modelle mit mehr Daten werden können, was mehr Mikrofone, das Sammeln von räumlichem Audio und das Hinzufügen von Mikrofonen zu anderen Arten von Datenerfassungsgeräten bedeuten könnte.

Der Artikel stammt von James O’Donnell. Er ist Redakteur bei der US-amerikanischen Ausgabe von MIT Technology Review. O’Donnell schreibt regelmäßig über Hardware-, aber auch KI-Themen.

Bildergalerie: Roboter im Einsatz

Ein Roboter-Oberkörper in weiß und türkis — Roboter in Action: Acht spannende Tech-Helfer im Einsatz Quelle: Diligent Robotics

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Studie Roboter

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Brands

News

Themen

Magazine

Skills

Podcast

Shop

Jobs

Events