KIVI KidsTV
Root NationНовиниНовини ITMicrosoft представила мультимодальний підхід, що прокладає шлях до ШІ рівня людини

Microsoft представила мультимодальний підхід, що прокладає шлях до ШІ рівня людини

-

На початку цього тижня дослідники з Microsoft представили мультимодальну модель штучного інтелекту Kosmos-1, яка може аналізувати зображення на наявність контенту, вирішувати візуальні головоломки, виконувати візуальне розпізнавання тексту, проходити візуальні тести IQ та розуміти інструкції природною мовою. За словами дослідників, подібні моделі ШІ є першим кроком до створення штучного загального інтелекту (ІІА), який може виконувати спільні завдання на рівні людини. Тобто ця технологія зможе замінити людину в будь-якому інтелектуальному завданні. І це є заявленою метою OpenAI, ключового ділового партнера Microsoft в галузі штучного інтелекту.

Kosmos-1

У цьому випадку Kosmos-1 є суто особистою розробкою компанії Microsoft. Дослідники називають своє творіння “мультимодальна широка модель мови” (MLLM), тому що її коріння лежить в обробці природної мови, такої як LLM, тільки для тексту, наприклад ChatGPT. Для того, щоб модель могла б сприймати вхідні зображення, дослідники повинні спочатку перетворити зображення на спеціальну серію токенів (в основному текст), які може зрозуміти LLM.

Kosmos-1

Kosmos-1 пройшла навчання на базі даних з Інтернету, у тому числі витяги з The Pile (текстовий ресурс англійською мови об’ємом 800 ГБ) та Common Crawl. Після цього модель перевірили кількома тестами на розуміння мови, генерацію мови, класифікацію тексту без оптичного розпізнавання символів, субтитрів до зображень, візуальні відповіді на запитання, відповіді на запитання веб-сторінки та класифікацію зображень з локалізацією. За даними Microsoft, у багатьох із цих тестів Kosmos-1 перевершив сучасні моделі.

Kosmos-1

Особливо цікавим був тест Raven’s Progressive Reasoning, який вимірює візуальний IQ, представляючи послідовність форм і пропонуючи випробуваному завершити послідовність. Kosmos-1 зміг дати правильну відповідь у 22% випадків.

Kosmos-1

Ці ранні кроки, які при майбутній оптимізації можуть принести ще більш значні результати, дозволяючи моделям ШІ сприймати будь-які форми медіа та впливати на них, що значно розширить можливості штучних помічників.

Читайте також:

Джерелоarstechnica
Підписатися
Сповістити про
guest

0 Comments
Найновіше
Найстаріші Найбільше голосів
Зворотній зв'язок в режимі реального часу
Переглянути всі коментарі
Підписатися на оновлення