KI hilft Robotern, Objekte mit ihrem ganzen Körper zu manipulieren

Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.

Vorheriges Bild Nächstes Bild

Stellen Sie sich vor, Sie möchten eine große, schwere Kiste eine Treppe hinauftragen. Sie könnten Ihre Finger ausbreiten und die Kiste mit beiden Händen anheben, sie dann auf Ihren Unterarmen halten und sie gegen Ihre Brust balancieren, wobei Sie Ihren ganzen Körper einsetzen, um die Kiste zu manipulieren.

Menschen sind im Allgemeinen gut darin, den ganzen Körper zu manipulieren, aber Roboter haben mit solchen Aufgaben Schwierigkeiten. Für den Roboter stellt jede Stelle, an der die Kiste irgendeinen Punkt an den Fingern, Armen und am Rumpf des Trägers berühren könnte, ein Kontaktereignis dar, über das er nachdenken muss. Bei Milliarden potenzieller Kontaktereignisse wird die Planung dieser Aufgabe schnell schwierig.

Jetzt haben MIT-Forscher einen Weg gefunden, diesen Prozess zu vereinfachen, der als kontaktreiche Manipulationsplanung bekannt ist. Sie verwenden eine KI-Technik namens Glättung, die viele Kontaktereignisse in einer geringeren Anzahl von Entscheidungen zusammenfasst, damit selbst ein einfacher Algorithmus schnell einen effektiven Manipulationsplan für den Roboter identifizieren kann.

Obwohl diese Methode noch in den Kinderschuhen steckt, könnte sie Fabriken möglicherweise den Einsatz kleinerer, mobiler Roboter ermöglichen, die Objekte mit ihren gesamten Armen oder Körpern manipulieren können, anstelle großer Roboterarme, die nur mit den Fingerspitzen greifen können. Dies kann dazu beitragen, den Energieverbrauch zu senken und die Kosten zu senken. Darüber hinaus könnte diese Technik bei Robotern nützlich sein, die auf Erkundungsmissionen zum Mars oder zu anderen Körpern des Sonnensystems geschickt werden, da sie sich mithilfe eines Bordcomputers schnell an die Umgebung anpassen könnten.

„Anstatt dies als Black-Box-System zu betrachten, besteht die Möglichkeit, den gesamten Prozess des Versuchs, diese Entscheidungen zu treffen und kontaktreiche Ergebnisse zu erzielen, zu beschleunigen, wenn wir die Struktur dieser Art von Robotersystemen mithilfe von Modellen nutzen können.“ Pläne“, sagt HJ Terry Suh, ein Doktorand der Elektrotechnik und Informatik (EECS) und Co-Hauptautor einer Arbeit über diese Technik.

Neben Suh sind Co-Hauptautor Tao Pang PhD '23, ein Robotiker am Boston Dynamics AI Institute; Lujie Yang, ein EECS-Doktorand; und leitender Autor Russ Tedrake, Toyota-Professor für EECS, Luft- und Raumfahrt sowie Maschinenbau und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL). Die Studie erscheint diese Woche in IEEE Transactions on Robotics.

Lernen über das Lernen

Reinforcement Learning ist eine Technik des maschinellen Lernens, bei der ein Agent wie ein Roboter lernt, eine Aufgabe durch Ausprobieren zu erledigen und eine Belohnung erhält, wenn er einem Ziel näher kommt. Forscher sagen, dass diese Art des Lernens einen Black-Box-Ansatz verfolgt, da das System durch Versuch und Irrtum alles über die Welt lernen muss.

Es wurde effektiv für die kontaktreiche Manipulationsplanung eingesetzt, bei der der Roboter lernen möchte, wie er ein Objekt am besten auf eine bestimmte Weise bewegen kann.

Da es aber möglicherweise Milliarden potenzieller Kontaktpunkte gibt, über die ein Roboter nachdenken muss, wenn er entscheidet, wie er seine Finger, Hände, Arme und seinen Körper für die Interaktion mit einem Objekt einsetzt, erfordert dieser Versuch-und-Irrtum-Ansatz einen hohen Rechenaufwand.

„Reinforcement Learning muss möglicherweise Millionen von Jahren in der Simulationszeit durchlaufen, um tatsächlich in der Lage zu sein, eine Richtlinie zu lernen“, fügt Suh hinzu.

Wenn Forscher andererseits speziell ein physikbasiertes Modell entwerfen und dabei ihr Wissen über das System und die Aufgabe nutzen, die der Roboter erfüllen soll, enthält dieses Modell eine Struktur über diese Welt, die sie effizienter macht.

Doch physikbasierte Ansätze sind nicht so effektiv wie Reinforcement Learning, wenn es um die kontaktreiche Manipulationsplanung geht – Suh und Pang fragten sich, warum.

Sie führten eine detaillierte Analyse durch und stellten fest, dass eine als Glättung bekannte Technik eine so gute Leistung des verstärkenden Lernens ermöglicht.

Viele der Entscheidungen, die ein Roboter treffen könnte, wenn es darum geht, ein Objekt zu manipulieren, sind im Großen und Ganzen nicht wichtig. Beispielsweise spielt jede winzige Bewegung eines Fingers keine große Rolle, unabhängig davon, ob sie mit dem Objekt in Kontakt kommt oder nicht. Durch die Glättung werden viele dieser unwichtigen Zwischenentscheidungen gemittelt und einige wichtige bleiben übrig.

Reinforcement Learning führt eine Glättung implizit durch, indem viele Kontaktpunkte ausprobiert und dann ein gewichteter Durchschnitt der Ergebnisse berechnet wird. Auf der Grundlage dieser Erkenntnisse entwickelten die MIT-Forscher ein einfaches Modell, das eine ähnliche Art der Glättung durchführt und es so ermöglicht, sich auf die Kerninteraktionen zwischen Roboter und Objekt zu konzentrieren und langfristiges Verhalten vorherzusagen. Sie zeigten, dass dieser Ansatz bei der Erstellung komplexer Pläne genauso effektiv sein könnte wie Reinforcement Learning.

„Wenn Sie etwas mehr über Ihr Problem wissen, können Sie effizientere Algorithmen entwerfen“, sagt Pang.

Eine gewinnbringende Kombination

Auch wenn die Glättung die Entscheidungen erheblich vereinfacht, kann das Durchsuchen der verbleibenden Entscheidungen immer noch ein schwieriges Problem sein. Deshalb kombinierten die Forscher ihr Modell mit einem Algorithmus, der alle möglichen Entscheidungen, die der Roboter treffen könnte, schnell und effizient durchsuchen kann.

Mit dieser Kombination konnte die Rechenzeit auf einem Standard-Laptop auf etwa eine Minute verkürzt werden.

Sie testeten ihren Ansatz zunächst in Simulationen, bei denen Roboterhänden Aufgaben wie das Bewegen eines Stifts in eine gewünschte Konfiguration, das Öffnen einer Tür oder das Aufheben eines Tellers übertragen wurden. In jedem Fall erzielte ihr modellbasierter Ansatz die gleiche Leistung wie Reinforcement Learning, jedoch in einem Bruchteil der Zeit. Ähnliche Ergebnisse erzielten sie, als sie ihr Modell in Hardware an echten Roboterarmen testeten.

„Die gleichen Ideen, die eine Ganzkörpermanipulation ermöglichen, funktionieren auch für die Planung mit geschickten, menschenähnlichen Händen. Früher sagten die meisten Forscher, dass verstärkendes Lernen der einzige Ansatz sei, der sich auf geschickte Hände übertragen ließe, aber Terry und Tao zeigten, dass sie durch die Übernahme dieser Schlüsselidee der (randomisierten) Glättung aus dem verstärkenden Lernen auch traditionellere Planungsmethoden sehr gut zum Funktionieren bringen können „, sagt Tedrake.

Das von ihnen entwickelte Modell basiert jedoch auf einer einfacheren Annäherung an die reale Welt und kann daher nicht mit sehr dynamischen Bewegungen, wie etwa fallenden Objekten, umgehen. Obwohl sie für langsamere Manipulationsaufgaben effektiv sind, kann ihr Ansatz keinen Plan erstellen, der es einem Roboter ermöglichen würde, beispielsweise eine Dose in einen Mülleimer zu werfen. In Zukunft wollen die Forscher ihre Technik weiterentwickeln, um diese hochdynamischen Bewegungen bewältigen zu können.

„Wenn Sie Ihre Modelle sorgfältig studieren und das Problem, das Sie lösen möchten, wirklich verstehen, können Sie auf jeden Fall einige Vorteile erzielen. Es hat Vorteile, Dinge zu tun, die über die Black Box hinausgehen“, sagt Suh.

Diese Arbeit wird teilweise von Amazon, dem MIT Lincoln Laboratory, der National Science Foundation und der Ocado Group finanziert.

Vorheriger Artikel Nächster Artikel

Lernen über das LernenEine gewinnbringende Kombination