Anzeige
Anzeige
MIT Technology Review News

Audiodaten als Training: Dieser Roboter kann Bagel besser umdrehen, wenn er zuhört

Bisher wurden Roboter oft mit stumm geschalteten Videos trainiert. Eine neue Studie zeigt jetzt aber, dass es viele hilfreiche Daten im Audiobereich gibt, die Robotern beim Training helfen können.

Von MIT Technology Review Online
4 Min.
Artikel merken
Anzeige
Anzeige
In der Studie zeigte sich, dass es der Roboter besser schaffte, den Bagel umzudrehen, wenn er zusätzlich Audioinformationen hatte. (Screenshot: Zeyi Liu et al.)

Die meisten KI-gesteuerten Roboter verwenden heute Kameras, um ihre Umgebung zu verstehen und neue Aufgaben zu erlernen. Aber es wird immer einfacher, Roboter auch mit Geräuschen zu trainieren, damit sie sich an Aufgaben und Umgebungen anpassen können, in denen die Sicht eingeschränkt ist.

Anzeige
Anzeige

Obwohl das Sehen wichtig ist, sind für einige unserer täglichen Aufgaben Geräusche hilfreicher, zum Beispiel, wenn wir hören, wie die Zwiebeln auf dem Herd brutzeln, um festzustellen, ob die Pfanne die richtige Temperatur hat. Das Training von Robotern mit Audio wurde bisher jedoch nur in streng kontrollierten Laborumgebungen durchgeführt, und die Techniken blieben hinter anderen schnellen Lernmethoden für Roboter zurück.

Hinweise aus Audiosignalen

Forscher des Robotics and Embodied AI Lab an der Stanford University haben sich vorgenommen, das zu ändern. Sie bauten zunächst ein System zur Erfassung von Audiodaten, bestehend aus einem Greifer mit einem Mikrofon, das Hintergrundgeräusche herausfiltert, und einer Gopro-Kamera. Menschliche Demonstranten benutzten den Greifer für eine Reihe von Haushaltsaufgaben und trainierten dann anhand dieser Daten Roboterarme, wie sie die Aufgabe selbstständig ausführen können. Die neuen Trainingsalgorithmen des Teams helfen Robotern, Hinweise aus Audiosignalen zu gewinnen, um effizienter zu arbeiten.

Anzeige
Anzeige
Abseits von Audiosignalen sind es vor allem KI-Modelle, auf die große Hoffnungen gesetzt werden, dass diese der Robotik einen kräftigen Schub in Richtung „smarte Robotik“ verleihen. Wie der Stand der Technik aussieht, welche Möglichkeiten KI in der Robotik bietet und welche Probleme noch zu lösen sind, behandelt MIT Technology Review in seiner aktuellen Ausgabe, die seit Donnerstag, 4. Juli, im Heise-Shop bestellbar und ab Freitag, 5. Juli, zu kaufen ist.

„Bislang haben Roboter mit Videos trainiert, die stummgeschaltet sind“, sagt Zeyi Liu, Doktorand in Stanford und Hauptautor der Studie. „Aber es gibt so viele hilfreiche Daten im Audiobereich.“

Um zu testen, wie viel erfolgreicher ein Roboter sein kann, wenn er in der Lage ist, „zuzuhören“, wählten die Forscher vier Aufgaben aus: einen Bagel in einer Pfanne umdrehen, ein Whiteboard löschen, zwei Klettstreifen zusammenfügen und mit einem Würfelbecher würfeln. Bei jeder Aufgabe liefern Geräusche Hinweise, die Kameras oder taktile Sensoren nur schwer erkennen können, zum Beispiel, ob der Radiergummi die Tafel richtig berührt oder ob der Becher Würfel enthält oder nicht.

Anzeige
Anzeige

Nachdem das Team jede Aufgabe einige Hundert Mal vorgeführt hatte, verglich es die Erfolgsquoten des Trainings mit Ton mit denen des Trainings nur auf visueller Basis. Die Ergebnisse, die in einem noch nicht begutachteten Papier auf Arxiv veröffentlicht wurden, waren vielversprechend. Beim Würfeltest konnte der Roboter nur in 27 Prozent der Fälle erkennen, ob sich Würfel im Becher befanden, aber die Erfolgsquote stieg auf 94 Prozent, wenn der Ton hinzukam.

Audiodateien aus „der freien Natur“

Laut Liu ist es nicht das erste Mal, dass Audiodaten zum Trainieren von Robotern verwendet werden, aber es ist ein großer Schritt in Richtung einer groß angelegten Anwendung. „Wir erleichtern die Verwendung von Audiodaten, die in der freien Natur gesammelt wurden, anstatt sie nur im Labor zu sammeln, was zeitaufwendiger ist.“

Anzeige
Anzeige

Die Forschungsergebnisse deuten darauf hin, dass Audiodaten im Wettlauf um das Training von Robotern mit künstlicher Intelligenz zu einer gefragten Datenquelle werden könnten. Forscher bringen Robotern durch Imitationslernen schneller als je zuvor etwas bei, indem sie ihnen Hunderte Aufgabenbeispiele zeigen, anstatt jede Aufgabe von Hand zu programmieren. Wenn Audiodaten in großem Umfang mit Geräten wie dem in der Studie gesammelten erfasst werden könnten, könnten sie Robotern einen völlig neuen „Sinn“ geben und ihnen helfen, sich schneller an Umgebungen anzupassen, in denen die Sicht eingeschränkt oder nicht nützlich ist.

„Man kann mit Sicherheit sagen, dass Audio die am wenigsten untersuchte Modalität für die Wahrnehmung von Robotern ist“, sagt Dmitry Berenson, außerordentlicher Professor für Robotik an der Universität von Michigan, der nicht an der Studie beteiligt war. Das liegt daran, dass der Großteil der Robotikforschung zur Manipulation von Objekten auf industrielle Pick-and-place-Aufgaben wie das Sortieren von Objekten in Behälter ausgerichtet war. Diese Aufgaben profitieren nicht sehr vom Klang, sondern verlassen sich auf taktile oder visuelle Sensoren. Wenn Roboter jedoch auch Aufgaben in Haushalten, Küchen und anderen Umgebungen übernehmen, wird Audio immer nützlicher werden, sagt Berenson.

Audiodaten geben Hinweise, haben aber auch Grenzen

Stellen Sie sich einen Roboter vor, der versucht, bei eingeschränkter Sicht zu erkennen, in welcher Tasche sich ein Schlüsselbund befindet. „Noch bevor man die Schlüssel berührt, hört man sie vielleicht klimpern“, sagt Berenson. „Das ist ein Hinweis darauf, dass sich die Schlüssel in dieser Tasche befinden und nicht in einer anderen.“

Anzeige
Anzeige

Dennoch hat Audio seine Grenzen. Das Team weist darauf hin, dass der Ton bei sogenannten weichen oder flexiblen Objekten wie Kleidung nicht so nützlich ist, da diese nicht so viele verwertbare Geräusche erzeugen. Die Roboter hatten auch Probleme damit, die Geräusche ihrer eigenen Motoren während der Aufgaben herauszufiltern, da diese Geräusche in den von Menschen produzierten Trainingsdaten nicht vorhanden waren. Um dies zu beheben, mussten die Forscher Robotergeräusche – Sirren, Brummen und Antriebsgeräusche – zu den Trainingsdaten hinzufügen, damit die Roboter lernen konnten, sie auszublenden.

Der nächste Schritt, so Liu, besteht darin, zu sehen, wie viel besser die Modelle mit mehr Daten werden können, was mehr Mikrofone, das Sammeln von räumlichem Audio und das Hinzufügen von Mikrofonen zu anderen Arten von Datenerfassungsgeräten bedeuten könnte.

Der Artikel stammt von James O’Donnell. Er ist Redakteur bei der US-amerikanischen Ausgabe von MIT Technology Review. O’Donnell schreibt regelmäßig über Hardware-, aber auch KI-Themen.

Bildergalerie: Roboter im Einsatz

Roboter in Action: Acht spannende Tech-Helfer im Einsatz Quelle: Diligent Robotics
Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige