Root NationNachrichtenIT-NeuigkeitenFigure AI stellte die neuen Fähigkeiten seines humanoiden KI-Roboters vor

Figure AI stellte die neuen Fähigkeiten seines humanoiden KI-Roboters vor

-

Die Entwicklung humanoider Roboter verlief fast zwei Jahrzehnte lang langsam, doch in letzter Zeit gab es immer mehr Durchbrüche auf diesem Gebiet. Wie wir kürzlich geschrieben haben, wurde auf dem MWC 2024 ein KI-Roboter vorgestellt Ameca, und eine weitere Entwicklung, Unitree H1brach den Geschwindigkeitsrekord unter humanoiden Robotern. Und jetzt ist ein spektakuläres Ergebnis der Zusammenarbeit zwischen den Unternehmen Figure AI und OpenAI im Internet aufgetaucht – ein atemberaubendes Video eines humanoiden Roboters, der nun Gespräche mit Menschen führen kann.

Figure AI und OpenAI stellten einen neuen humanoiden Roboter mit KI vor

Das Startup Figure AI hat ein Video veröffentlicht, das den Roboter Figure 01 zeigt, der mit dem neuen Visual Language Model (VLM) arbeitet. Darin steht Abbildung 01 an einem Tisch, auf dem ein Teller, ein Apfel und eine Tasse stehen. Auf der linken Seite befindet sich ein Trockner. Und auf die Frage eines Menschen, was der Roboter vor sich sieht, antwortet er, indem er alles, was auf dem Tisch liegt, detailliert beschreibt.

Und dann fragt der Mann, ob er etwas essen darf, und der Roboter antwortet: „Natürlich“, und dann nimmt er mit einer geschickten, sanften Bewegung den Apfel und reicht ihn dem Mann. Danach folgt eine weitere atemberaubende Demonstration: Ein Mann schüttet zerknüllten Müll aus einem Korb vor Abbildung 01 aus und bittet den Roboter, zu erklären, warum er das getan hat, und gleichzeitig den Müll im Korb einzusammeln. Und er erklärt seinen „Gedanken“, während er die Zeitung wieder in den Müll wirft. „Also habe ich dir einen Apfel gegeben, weil es das einzige essbare Produkt ist, das ich dir vom Tisch geben kann“, sagte der Roboter.

Unternehmensvertreter erklärten, dass Abbildung 01 ein vorab trainiertes multimodales Modell verwendet OpenAI, VLM, kann Bilder und Texte verstehen und verlässt sich bei der Generierung seiner Antworten auf Sprachansagen. Dies unterscheidet sich beispielsweise von GPT-4 von OpenAI, das sich auf schriftliche Eingabeaufforderungen konzentriert.

Es verwendet auch das, was das Unternehmen als „erlernte bimanuelle Manipulationen auf niedriger Ebene“ bezeichnet. Das System koordiniert die präzise Bildkalibrierung (bis auf Pixelebene) mit seinem neuronalen Netzwerk zur Bewegungssteuerung. „Diese Netzwerke empfangen Bilder mit 10 Hz und erzeugen 24-DOF-Aktionen (Handgelenkshaltungen und Fingergelenkwinkel) mit 200 Hz“, sagte Figure AI in einer Erklärung.

Das Unternehmen behauptet, dass jedes Verhalten im Video auf Systemlernen basiert, sodass niemand hinter den Kulissen die Fäden von Figure 01 in der Hand hält. Natürlich gibt es eine Nuance – es ist nicht bekannt, wie oft der Roboter diesen Vorgang durchlaufen hat. Vielleicht war es das hundertste Mal, was seine präzisen Bewegungen erklärt. Aber auf jeden Fall sieht diese Leistung spektakulär und ein wenig fantastisch aus.

Lesen Sie auch:

QuelleTechradar
Anmelden
Benachrichtigen Sie über
Gast

0 Ihre Nachricht
Eingebettete Bewertungen
Alle Kommentare anzeigen
Andere Artikel
Abonnieren Sie Updates
Beliebt jetzt