Xiaomi, відома передусім своїми смартфонами, пристроями розумного дому та розвитком електромобілів, оголосила про новий крок у напрямку робототехніки, представивши Xiaomi Robotics 0, свою першу великомасштабну модель для роботів.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
Це відкритий vision language action (VLA) алгоритм із 4,7 млрд параметрів, який поєднує комп’ютерний зір, розуміння природної мови та виконання фізичних дій у реальному часі. У компанії заявляють, що така комбінація лежить в основі концепції «фізичного інтелекту», а сама модель вже демонструє результати рівня state of the art як у симуляціях, так і під час реальних тестів.

Загальна логіка роботи подібних робототехнічних систем будується навколо замкненого циклу: сприйняття, ухвалення рішення та виконання. Робот повинен спочатку бачити середовище, розуміти поставлене завдання, формувати план дій і коректно його реалізовувати. За словами Xiaomi, Robotics 0 розроблялася з акцентом на баланс між широким контекстним розумінням і точним моторним контролем.
Архітектура моделі базується на підході Mixture of Transformers (MoT), у межах якого функції розподілені між двома основними модулями. Перший компонент це Visual Language Model (VLM), який виконує роль центрального «мозку» системи. Він навчається інтерпретувати людські інструкції, включаючи нечіткі запити на кшталт «склади рушник», а також аналізувати просторові зв’язки на основі зображень високої роздільної здатності. Цей модуль відповідає за розпізнавання об’єктів, відповіді на візуальні запитання та логічні висновки.

Другим елементом є так званий Action Expert. Він побудований на багаторівневому Diffusion Transformer (DiT) і відповідає за фізичне виконання рухів. Замість генерації окремих команд система створює «Action Chunk», тобто послідовність рухів, яка формується за допомогою методів flow matching для забезпечення плавності та точності виконання.

Однією з поширених проблем VLA-моделей є втрата частини когнітивних можливостей після навчання фізичним діям. Xiaomi заявляє, що вдалося уникнути цього завдяки спільному тренуванню на мультимодальних даних і даних рухів. У результаті система, принаймні за заявами компанії, здатна зберігати аналітичні здібності та одночасно ефективно взаємодіяти з фізичним середовищем.
Читайте також:
- Xiaomi готує магнітний знімний об’єктив для флагманів до запуску
- OpenAI покращила функцію ChatGPT Deep Research: Що нового з’явилося
