Як повідомляється, компанія DeepMind розробляє систему, яка дає AI-агентам «внутрішній монолог», щоб допомогти їм ефективніше вивчати завдання.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
У нещодавній патентній заявці лабораторія штучного інтелекту Google описала метод під назвою «внутрішнє мовлення агента для полегшення вивчення завдань», коли роботи спостерігають за завданнями за допомогою зображень або відео і генерують природні описи того, що вони бачать, природною мовою. Ця внутрішня розповідь допомагає пов’язати візуальні дані з діями, забезпечуючи навчання «з нуля» і дозволяючи агентам розуміти і взаємодіяти з незнайомими об’єктами без попередньої підготовки, а також зменшуючи вимоги до пам’яті і обчислювальних ресурсів.

Минулого тижня DeepMind представила потужну модель штучного інтелекту, здатну передбачати, як окремі мутації ДНК впливають на складні системи, що контролюють активність генів. Як повідомляє The Daily Upside, у нещодавній патентній заявці лабораторія штучного інтелекту, що належить Google, детально описала систему, яка дозволяє агентам штучного інтелекту спостерігати за відео або зображеннями людини, яка виконує завдання, а потім генерувати природні мовні описи побаченого. Наприклад, робот може переглядати відео, на якому людина бере чашку, і водночас внутрішньо обробляти фразу «людина бере чашку».
Цей процес дозволяє роботу поєднувати візуальні дані з внутрішнім мовленням, допомагаючи йому розуміти і запам’ятовувати правильні дії, які потрібно виконати, коли він стикається з подібними об’єктами. Ця методика підтримує так зване навчання «з нуля», тобто робот може виконувати завдання, пов’язані з незнайомими об’єктами, без попереднього навчання. DeepMind зазначає, що цей метод також зменшує обсяг пам’яті та обчислювальну потужність, необхідну для навчання роботизованих систем.

Ця ініціатива є продовженням ширших зусиль DeepMind у сфері робототехніки. Минулого тижня компанія представила «Gemini Robotics On-Device», який призначений для роботи без доступу до хмарних технологій. Google стверджує, що ця модель досить компактна і ефективна, щоб працювати безпосередньо на роботах.
Як пише The Daily Upside, завдяки додаванню внутрішнього мовлення роботи отримують цінний контекст, що дозволяє їм приймати кращі рішення та ефективніше адаптуватися до нових ситуацій. Ця інновація може значно покращити навчання та роботу роботів у динамічному реальному середовищі. Gemini Robotics On-Device – це вбудована в пристрій версія моделі мови зору Gemini Robotics, створена для роботи виключно на роботах – без необхідності підключення до Інтернету.
Розроблена для чутливих до затримок або автономних середовищ, вона забезпечує швидку та надійну роботу в реальних умовах. На відміну від хмарної версії, ця модель працює локально, дозволяючи роботам швидко реагувати і зберігати конфіденційність, що особливо корисно в таких чутливих сферах, як охорона здоров’я.
За даними DeepMind, попри свою полегшену версію, Gemini Robotics On-Device виявився напрочуд потужним. Він здатний виконувати завдання «з коробки» і може адаптуватися до нових завдань лише після 50-100 демонстрацій. Розробники Google називають його «стартовою моделлю», яка ідеально підходить для платформ з обмеженим зв’язком.
Спочатку ця модель навчалася на роботі ALOHA від Google, а потім була адаптована до інших, таких як гуманоїд Apollo від Apptronik і робот Franka FR3. Вона виконує складні дії, такі як складання одягу або розстібання блискавки на сумці, з плавним управлінням і низькою затримкою.
Розробники можуть тонко налаштовувати модель, дистанційно керуючи роботом, щоб навчити його новим завданням. За словами DeepMind, він підтримує моделювання за допомогою багатошарнірної динаміки з фізичним рушієм Contact або розгортання у фізичному середовищі. Однак, на відміну від свого гібридного аналога, ця версія для пристроїв не має вбудованих систем семантичної безпеки. Google радить розробникам впроваджувати власні протоколи безпеки, а поки що обмежує доступ обраним користувачам для оцінки реальних ризиків безпеки.
Читайте також:
- Hexagon представила інноваційного людиноподібного робота AEON
- Toyota будує перше у світі «місто роботів» біля підніжжя гори Фудзі
