Root NationНовиниНовини ITШтучний інтелект DeepMind MuZero може освоювати ігри, не знаючи правил

Штучний інтелект DeepMind MuZero може освоювати ігри, не знаючи правил

-

Священний Грааль Штучного Інтелекту (ШІ) завжди полягав у тому, щоб дозволити комп’ютерам вчитися так, як це роблять люди. Однак найпотужніші ШІ сьогодні, як і раніше, покладаються на певні відомі правила, такі як, наприклад, правила гри у шахи. Однак людське навчання часто пов’язане з плутаниною стосовно висновків, вивчення правил життя на ходу.

DeepMind вже давно намагається створити такий штучний інтелект, використовуючи ігри як середовище і набір тестів. Дочірня компанія Google, що спеціалізується на дослідженнях в галузі ШІ, щойно представила своє останнє досягнення – MuZero, ШІ, який може освоїти гру, не вивчаючи заздалегідь правила.

Попередні ШІ DeepMind, такі як AlphaGo, широко висвітлювалися в ЗМІ через те, що вони перемагали людських чемпіонів у своїх іграх. Якими б вражаючими вони не були, вони все ще були у кількох кроках до кінцевої мети. AlphaGo, зокрема, мав перевагу, в тому що знав не тільки правила гри, але також знання предметної області та дані гравців-людей. Його наступники, AlphaGo Zero і AlphaZero, все ще могли розраховувати на те, що у них є підбірка правил, з якої можна вчитися.

Хоча ці ШІ досягли успіху в іграх зі складними стратегіями, але з простими візуальними ефектами, вони зазнали невдачі в застосуванні до більш візуально складних ігор, правила яких не так легко вивести. Ось тут-то і з’являється новий MuZero ШІ, який використовує вибір ігор Atari, таких як Ms. Pac-Man, для перевірки своєї теорії.

DeepMind

Більшість дослідників штучного інтелекту використовують дві стратегії для розв’язання проблеми навчання, одна з яких – попередній пошук, заснований на отриманні правил або знань про гру. Планування на основі моделей дійсно працює, створюючи точну модель середовища, але шляхом надмірної складності. Перевага MuZero в тому, що він моделює тільки ті частини навколишнього середовища, які важливі, наприклад, знання того, що парасолька допоможе вам залишатися сухим під дощем, а не моделювання руху всіх крапель дощу.

Фахівці з DeepMind були безперечно вражені ефективністю і швидкістю, з якою MuZero зміг освоїти ігри, навіть якщо для планування заздалегідь була запропонована лише обмежена кількість кроків. Фахівці сподіваються, що цей новий метод навчання ШІ буде застосовуватися до безладного реального середовища, де правила не викладені чітко і певним чином.

Читайте також:

Джерелоslashgear
Підписатися
Сповістити про
guest

0 Comments
Найновіше
Найстаріші Найбільше голосів
Зворотній зв'язок в режимі реального часу
Переглянути всі коментарі
Підписатися на оновлення