Група, що займається робототехнікою в підрозділі DeepMind компанії Google, презентувала три нові продукти, які допоможуть роботам швидше ухвалювати рішення, а також діяти ефективніше і безпечніше, виконуючи завдання в оточенні людей.
Система збору даних AutoRT працює на основі візуальної мовної моделі (VLM) і великої мовної моделі (LLM) – вони допомагають роботам оцінювати навколишнє середовище, адаптуватися до незнайомої обстановки і приймати рішення про виконання поставлених завдань. VLM застосовується для аналізу навколишнього середовища і розпізнавання об’єктів у межах видимості, а LLM відповідає за творче виконання завдань. Найважливішим нововведенням AutoRT стала поява в блоці LLM “Конституції роботів” – спрямованих на безпеку команд, які наказують машині уникати вибору завдань, у яких беруть участь люди, тварини, гострі предмети і навіть електроприлади. З метою додаткової безпеки роботи програмуються на зупинку, коли зусилля на суглобах перевищує певний поріг; а в їхній конструкції тепер є додатковий фізичний вимикач, яким людина може скористатися в екстреному випадку.
За останні сім місяців Google розгорнула в чотирьох своїх офісних будівлях 53 роботи з системою AutoRT і провела понад 77 тис. випробувань. Деякі з машин управлялися віддалено операторами, інші ж виконували завдання автономно або на основі заданого алгоритму, або з використанням ШІ-моделі Robotic Transformer (RT-2). Поки що всі ці роботи мають гранично простий вигляд: це кінцівки-маніпулятори на рухомій базі та камери для оцінки обстановки.
Другим нововведенням стала система SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers), спрямована на оптимізацію роботи моделі RT-2. Дослідники встановили, що при подвоєнні вхідних даних, наприклад, підвищенні роздільної здатності на камерах, потреба робота в обчислювальних ресурсах зростає вчетверо. Цю проблему вдалося розв’язати шляхом нового методу тонкого налаштування ШІ, що отримав назву up-training – цей метод перетворює квадратичне зростання потреби в обчислювальних ресурсах майже на лінійне. За цей рахунок модель працює швидше, зберігаючи колишню якість.
Нарешті, інженери Google DeepMind розробили ШІ-модель RT-Trajectory, яка спрощує навчання роботів виконання конкретних завдань. Поставивши завдання, оператор сам демонструє зразок його виконання, RT-Trajectory аналізує задану людиною траєкторію руху й адаптує її до дій робота.
Читайте також:
Leave a Reply