Забудьте про штучний інтелект, який вміє малювати картинки, – остання модель штучного інтелекту від Google може керувати роботами. Нещодавно Google представила Robotics Transformer 2 (RT2), модель “зір-мова-дія” (VLA), яка може сприймати текст і зображення та перетворювати їх на роботизовані дії.
“Подібно до того, як мовні моделі навчаються на тексті з Інтернету, щоб засвоїти загальні ідеї та концепції, RT-2 передає знання з веб-даних, щоб інформувати поведінку робота”, – пояснює Вінсент Ванхуке, керівник відділу робототехніки Google DeepMind, у своєму блозі. “Іншими словами, RT-2 може говорити, як робот”.
Ванхуке каже, що в той час, як чат-ботів можна навчити, надаючи їм інформацію на певну тему, роботам потрібно зробити крок далі і “заземлитися” в реальному світі. Як приклад він наводить червоне яблуко. Якщо ви можете просто пояснити чат-боту, що таке яблуко, то робот повинен знати все про нього, а також те, як відрізнити його від схожого предмета, наприклад, червоного м’яча, і він також повинен навчитися, як він повинен взяти це яблуко в руки.
RT-2 йде на крок далі, ніж RT-1 від Google та інші моделі, використовуючи дані з Інтернету. Наприклад, якщо ви хотіли, щоб попередня модель викинула щось, вам потрібно було б навчити її, що таке сміття і як ним користуватися. З RT-2, можливо таке, що ви не пояснюватиме, що таке сміття і як ним користуватися, але робот може зрозуміти це самостійно, використовуючи дані з Інтернету.
Завдяки RT-2 роботи здатні навчатися, засвоювати отримані знання та застосовувати їх у майбутніх ситуаціях. Проте, Google зазначає, що в нинішньому вигляді обмеження означають, що RT-2 може лише допомогти роботу покращити фізичні завдання, які він вже вміє виконувати, а не вивчити їх з нуля.
З усім тим, це величезний крок вперед і показує нам, що може бути можливим у майбутньому. Детальніше про те, як працює RT-2, Google розповідає у своєму блозі DeepMind.
Читайте також:
Leave a Reply