Компанія BeingBeyond представила найпотужнішу у світі модель, чим ознаменувала початок «ери мозку» для індустрії втіленого інтелекту. Це технологічне досягнення дозволяє роботам самостійно навчатися розумінню дій так само природно, як вони опановують мову. Стиснення 200 тисяч годин відеозаписів людської поведінки в один чип для периферійних обчислень означає появу першої комерційно життєздатної моделі світу, здатної до локального розгортання.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
BeingBeyond, будучи піонером у використанні відеоданих із діями людей, надала ідеальну відповідь на виклики галузі в цей переломний момент. Коли роботи переходять від демонстраційних виступів до роботи в реальних умовах, вони часто стикаються з труднощами в осмисленні оточення та завдань, а безперервне прийняття рішень у мінливих обставинах дається їм ще важче. Усе більше експертів погоджуються, що методи навчання роботів діям потребують докорінного переосмислення.

Модель Being-H0.7 – це інтелектуальна система, навчена на колосальних обсягах даних про людську поведінку, яка здатна мігрувати між різними роботами та виконувати складні операції в реальному світі. На відміну від генеративних відеорішень, які потребують величезних обчислювальних потужностей і мають високу затримку, Being-H0.7 використовує метод міркування в прихованому просторі. Це наближає систему до людської фізичної інтуїції, дозволяючи моделі безпосередньо оцінювати майбутні стани та результати дій. Такий підхід дав змогу стиснути модель світу для роботи на периферійному обладнанні в режимі реального часу, зробивши її першим подібним продуктом у галузі. Компанія BeingBeyond менш ніж за рік продемонструвала повний технологічний цикл: від попереднього навчання на відео до збору даних і розгортання моделей, що дозволяє втіленому інтелекту еволюціонувати від загальної бази до експертних навичок.
У сучасній індустрії втіленого інтелекту виокремилися три основні напрями: VLA для розуміння, моделі світу для прогнозування та дистанційне керування для безпосередньої реалізації. Проте більшість із них обмежені даними, отриманими від самих роботів, що прив’язує навички до конкретного заліза чи сценаріїв. Наявні рішення від NVIDIA або DreamZero покладаються на прогнозування наступного кадру відео, що складно реалізувати локально через високу енерговитратність. Крім того, двовимірні зображення погано передають складні фізичні процеси, як-от взаємодія з рідинами чи гнучкими об’єктами. BeingBeyond пропонує інший шлях: оскільки роботи працюватимуть серед людей, їх слід навчати на масштабних відео людської активності, які краще відображають реальний розподіл завдань. Це дозволяє машинам засвоювати фізичні закони та принципи взаємодії на «підсвідомому» рівні, подібно до того, як спортсмени реагують на рух м’яча, не вираховуючи кожну секунду майбутнього зображення в голові.

Експерименти показали, що Being-H0.7 посіла перше місце у шести світових рейтингах, ставши найкомплекснішою моделлю світу. Інформацію вдалося стиснути мінімум у сто разів, що дозволило системі працювати на платформі Orin NX із потужністю близько 75 TOPS. Це робить BeingBeyond першою командою, яка реалізувала роботу моделі світу на чипі з такою обчислювальною потужністю в реальному часі. Розбіжність у підходах команд часто залежить від визначення самої проблеми. Багато розробників у Китаї зосереджені на залізі та оптимізації керування конкретними роботами, що замикає дані в межах однієї платформи. Засновник BeingBeyond Лу Цзунцін, як науковець, поставив фундаментальне питання про те, з яких саме даних має вчитися модель для набуття загальних здібностей. Він створив систему, де зір, мова та дії об’єднані в єдину послідовність для навчання, орієнтованого на людину.

Серія моделей Being-H підтвердила, що за достатньої кількості даних про людську поведінку та роботу різних роботів, модель може успішно переноситися між пристроями, зберігаючи стабільність. Попередня версія H0.5 довела життєздатність концепції навчання на основі людського досвіду, тоді як H0.7 продемонструвала можливість впровадження цього підходу в реальні сценарії. У цій екосистемі серія H вирішує загальні питання інтелекту, Being-Dex адаптує навички до конкретних бізнес-сценаріїв за лічені хвилини, а система U1 забезпечує безперервний потік високоякісних даних за допомогою вправних механічних рук. Такий замкнений цикл виробництва є рідкістю для галузі, де дані, можливості моделей та розгортання тривалий час існували відірвано одне від одного.
Наразі в індустрії спостерігається чіткий поділ між розробкою тіла робота та його «мозку». Компанії все частіше воліють купувати готові інтелектуальні системи замість того, щоб витрачати десятки мільйонів доларів на власні розробки, які потребують постійних інвестицій у обчислення та кадри. Аутсорсинг інтелекту стає вигіднішим і ефективнішим, оскільки дозволяє швидше впроваджувати нові функції без необхідності створювати моделі з нуля. BeingBeyond уже встановила партнерські відносини з провідними виробниками роботів, пропонуючи їм фундамент із загальних можливостей, доповнений експертними навичками для конкретних завдань. Поява Being-H0.7 сигналізує про перехід індустрії від розрізнених спроб до чіткої системи розподілу праці, де одні зосереджені на механіці та впровадженні, а інші – на створенні універсального інтелекту.
Читайте також:
- AI-скандал навколо Amazon: Компанію звинувачують у зборі YouTube-контенту
- Найрозумніший AI Meta: Muse Spark відкриває нову епоху
