Ein Team der Universität Tokio hat Alter3 vorgestellt, einen humanoiden Roboter, der mithilfe des GPT-4 Large Language Model (LLM) Bewegungen ausführen kann. Alter3 verwendet das neueste Tool AI öffnen um dynamisch verschiedene Posen einzunehmen, von der Selfie-Pose bis zum Ghosting, alles ohne die Notwendigkeit vorprogrammierter Datenbankeinträge.

„Die Reaktion von Alter3 auf Gesprächsinhalte mithilfe von Gesichtsausdrücken und Gesten ist ein bedeutender Fortschritt in der humanoiden Robotik, der sich mit minimalen Änderungen leicht an andere Androiden anpassen lässt“, sagten die Forscher.

Im Bereich der LLM-Integration mit Robotern liegt der Schwerpunkt auf der Verbesserung der Basiskommunikation und der Modellierung realistischer Reaktionen. Forscher befassen sich auch mit den Fähigkeiten von LLM, Roboter in die Lage zu versetzen, komplexe Anweisungen zu verstehen und auszuführen und so ihre Funktionalität zu erhöhen.

Traditionell Low-Level-Management Roboter ist an Hardware gebunden und liegt außerhalb des Zuständigkeitsbereichs von LLM-Unternehmen. Dies führt zu Schwierigkeiten bei der direkten Verwaltung LLM-basierter Werke. Um dieses Problem zu lösen, hat das japanische Team eine Methode entwickelt, um Ausdrücke menschlicher Bewegungen in für Android verständlichen Code umzuwandeln. Dies bedeutet, dass der Roboter im Laufe der Zeit selbstständig Handlungsabfolgen generieren kann, ohne dass Entwickler jedes Körperteil einzeln programmieren müssen.

Während der Interaktion kann eine Person Alter3-Befehle wie „Mach ein Selfie mit deinem iPhone“ geben. Anschließend initiiert der Roboter eine Reihe von Anfragen an GPT-4, um Anleitung zu den notwendigen Schritten zu erhalten. GPT-4 wird dies in Python-Code übersetzen, der es der Arbeit ermöglicht, die notwendigen Bewegungen zu „verstehen“ und auszuführen. Diese Innovation ermöglicht es Alter3, seinen Oberkörper zu bewegen, während sein Unterkörper stationär und am Ständer befestigt bleibt.

Alter3 ist die dritte Iteration in der Reihe humanoider Roboter von Alter seit 2016 und verfügt über 43 Aktuatoren, die für Gesichtsausdrücke und Bewegungen der Gliedmaßen verantwortlich sind und durch Druckluft angetrieben werden. Diese Konfiguration bietet eine breite Palette ausdrucksstarker Gesten. Der Roboter kann nicht laufen, aber er kann typische Geh- und Laufbewegungen nachahmen.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 demonstrierte auch die Fähigkeit, menschliche Posen mithilfe der Kamera und des OpenPose-Frameworks zu kopieren. Der Roboter passt seine Gelenke an die beobachteten Haltungen an und speichert gelungene Nachahmungen für die spätere Verwendung. Die Interaktion mit einem Menschen führte zu vielfältigeren Körperhaltungen, was die Idee stützt, dass unterschiedliche Bewegungen durch die Nachahmung des Menschen entstehen, ähnlich wie Neugeborene durch Nachahmung lernen.

Vor dem LLM mussten Forscher alle 43 Aktuatoren sorgfältig steuern, um die Pose einer Person nachzubilden oder ein Verhalten zu simulieren, beispielsweise das Servieren von Tee oder das Spielen von Schach. Dies erforderte jedoch zahlreiche manuelle Anpassungen KI half dabei, das Team aus dieser Routine zu befreien. „Wir erwarten, dass Alter3 durch die Darstellung kontextrelevanter Gesichtsausdrücke und Gesten effektiv in den Dialog einsteigt. „Es zeigte die Fähigkeit, Emotionen zu spiegeln, zum Beispiel Traurigkeit oder Glück als Reaktion zu zeigen und so Emotionen mit uns zu teilen“, sagen die Forscher.

Lesen Sie auch:

QuelleInteressante Technik

Anmelden

0 Ihre Nachricht

Eingebettete Bewertungen

Alle Kommentare anzeigen

Andere Artikel

In Tokio wurden die Erfolge des humanoiden Roboters Alter3 auf Basis von GPT-4 gezeigt

Letzte Kommentare