Розробка гуманоїдних роботів протягом більшої частини двох десятиліть рухалася повільними темпами, але останнім часом ми бачимо все більше проривів у цій сфері. Як ми нещодавно писали, на MWC 2024 представили робота зі ШІ Ameca, а інша розробка, Unitree H1, побила рекорд швидкості серед людиноподібних роботів. А зараз у Мережі з’явився ефектний результат співпраці між компаніями Figure AI та OpenAI – приголомшливе відео гуманоїдного робота, який відтепер може вести розмови з людьми.
Стартап Figure AI випустив відео, де показав робота Figure 01, який працює з новою візуальною мовною моделлю (VLM). На ньому Figure 01 стоїть за столом, на якому стоїть тарілка, яблуко і чашка. Ліворуч стоїть сушарка. І на запитання людини, що робот бачить перед собою, він відповідає, доволі детально описуючи все, що лежить на столі.
А далі чоловік запитує, чи можна йому щось з’їсти, і роботи відповідає: “Звичайно”, а потім спритним плавним рухом бере яблуко і простягає його чоловікові. Після того наступає ще одна приголомшлива демонстрація – чоловік висипає зім’яте сміття з кошика перед Figure 01 і просить робота пояснити, чому він зробив саме це, і при цьому збирати сміття в кошик. І він пояснює свій “хід думок”, поки кладе папір назад у смітник. “Отже, я дав тобі яблуко, тому що це єдиний їстівний предмет, який я міг дати тобі зі столу”, – сказав робот.
Представники компанії пояснили, що Figure 01 використовує попередньо навчену мультимодальну модель OpenAI, VLM, для розуміння зображень і текстів, і покладається на голосовий запит для створення своїх відповідей. Це відрізняється від, скажімо, GPT-4 від OpenAI, який фокусується на письмових підказках.
Він також використовує те, що компанія називає “вивченими низькорівневими бімануальними маніпуляціями”. Система узгоджує точне калібрування зображення (аж до рівня пікселів) зі своєю нейронною мережею для керування рухом. “Ці мережі отримують зображення з частотою 10 Гц і генерують 24-DOF дії (пози зап’ястя і кути суглобів пальців) з частотою 200 Гц”, – йдеться в повідомленні Figure AI.
Компанія стверджує, що кожна поведінка на відео заснована на навчанні системи, тож ніхто за лаштунками не рухає Figure 01 за ниточки. Звісно, є нюанс – невідомо, скільки разів робот проходив цю процедуру. Можливо, це був сотий раз, що пояснює його точні рухи. Але у будь-якому випадку це досягнення виглядає ефектно і трохи фантастично.
Figure 01 is now completing real world tasks
Everything is autonomous:
-Autonomous navigation & force-based manipulation
-Learned vision model for bin detection & prioritization
-Reactive bin manipulation (robust to pose variation)
-Generalizable to other pick/place tasks pic.twitter.com/0wFmYnq0GC— Figure (@Figure_robot) February 26, 2024
Читайте також: