Що таке Gemini: Все про нову модель ШІ від Google

Google щойно випустив свою найпотужнішу модель ШІ під назвою Gemini. Що вона собою являє та що вміє? Про все в нашій статті.

Google розробляє власні інструменти штучного інтелекту вже протягом багатьох років. З публічним випуском ChatGPT-3 від OpenAI компанія, яка керує найпопулярнішою пошуковою системою в світі, також створила подібний інструмент – Bard. Але цей інструмент все ж програвав конкурентам, чого не могли допустити в Google. Тому й не дивно, що нещодавно світ побачив Gemini, нову мовну модель від Google, про яку ми дізнались з презентації.

Вона покликана не тільки вдосконалити попередню LLM (Large Language Model) гіганта, але й запропонувати абсолютно нові можливості у сфері обробки тексту, графіки та звуку.

Тож давайте більш детально познайомимось з новою мовною моделлю Google Gemini.

Також цікаво: OpenAI Project Q*: що це таке і чому проєкт викликає занепокоєння

ЗМІСТ СТАТТІ:

Що таке Google Gemini?

Це нова та потужна модель штучного інтелекту від Google, яка може розуміти не лише текст, але й зображення, відео й аудіо. Цю мультимодальну модель описано як здатну виконувати складні завдання з математики, фізики та інших областей, а також розуміти та генерувати високоякісний код різними мовами програмування.

Наразі Gemini доступний через інтеграцію з Google Bard і Google Pixel 8 і поступово буде включено в інші служби Google.

“Gemini є результатом масштабних спільних зусиль команд Google, у тому числі наших колег із Google Research”, – сказав Денніс Хассабіс, генеральний директор і співзасновник Google DeepMind. “Вона була створена з нуля, щоб бути мультимодальною, що означає, що вона може узагальнювати та бездоганно розуміти, оперувати та поєднувати різні типи інформації, включаючи текст, код, аудіо, зображення та відео”.

Теж цікаво: Не все, що ми називаємо ШІ, насправді є штучним інтелектом. Ось що потрібно знати

Хто створив модель?

Ймовірно, ви вже здогадалися, що Gemini створений Google і Alphabet, материнською компанією Google, і є найдосконалішою моделлю ШІ компанії на сьогодні. Підрозділ Google DeepMind також зробив значний внесок у її розвиток. Поки що невідомо, скільки саме співробітників приймало участь у розробках і які кошти на це виділено, але, знаючи можливості Google, можна бути впевненими, що там вельми кругленька сума.

Також цікаво: Windows 12: Якою буде нова ОС

Можливості

Як я вже відзначав вище, це мультимодальна модель, тобто вона може розуміти, оперувати та поєднувати різні типи даних, включаючи текст, код, аудіо, зображення та відео. Це забезпечує кращі навички розуміння, мислення та кодування порівняно з попередніми системами ШІ.

Основними можливостями моделі є:

Обробка природної мови для таких завдань, як переклад, узагальнення та діалог
Математичне мислення та розв’язування задач
Можливість генерувати код і документацію
Розуміння зображень, аудіо та відео
Багатозадачність у різних доменах

Як бачимо, можливості перевершують інші моделі.

У тестах на розуміння мови, математичне мислення та кодування, Gemini Ultra перевершив можливості таких моделей, як GPT-4. Зокрема, це перша модель, яка випереджає продуктивність людського рівня за тестом Massive Multitask Language Understanding (MMLU), досягнувши понад 90% точності.

У 32 академічних тестах дослідження великої мовної моделі Gemini досягла кращих результатів, ніж GPT-4. У 30 випадках нова мовна модель від Google була кращою за конкурента. Це демонструє можливості повного розуміння мови моделлю.

Читайте також: Human Brain Project: Спроба імітувати людський мозок

Чи існують різні версії?

Google описує цей ШІ як гнучку модель, що здатна працювати на будь-якому пристрої: від центрів обробки даних Google до мобільних пристроїв. Щоб досягти цієї масштабованості, Gemini випускається в трьох версіях: Nano, Pro та Ultra.

Давайте більш детально поговоримо про різні версії Gemini.

Gemini Nano: призначена для роботи на смартфонах, зокрема Google Pixel 8. Вона створена для виконання завдань, які вимагають ефективної обробки штучним інтелектом без підключення до зовнішніх серверів, наприклад пропозиції відповідей у програмах чату або підсумовування тексту. Ця компактна модель для пристроїв має близько 6 мільярдів параметрів.
Gemini Pro: працює в центрах обробки даних Google. Pro розроблено для роботи з останньою версією чат-бота Bard зі штучним інтелектом. Він здатний забезпечувати швидкий час відповіді та розуміти складні запити. Модель середнього розміру має приблизно 100 мільярдів параметрів і є ядром розмовного ШІ Bard. Pro буде доступний через Google Cloud.
Gemini Ultra: хоча версія Ultra все ще недоступна для широкого використання, Google описує її як свою найефективнішу модель, яка перевищує “поточні найсучасніші результати за 30 із 32 широко використовуваних академічних тестів, які застосовуються в дослідженнях великої мовної моделі (LLM)”. Як найбільша і найпотужніша версія, Ultra отримає понад 1 трильйон параметрів. Вона буде розміщуватися в центрах обробки даних. Ultra пристосована для корпоративного використання. Версія розроблена для виконання дуже складних завдань. В Google планують її випустити після завершення поточного етапу тестування. Тобто, найпотужніша версія ще не доступна для користувачів.

Також цікаво: Google Bard AI: все, що вам потрібно знати

Як отримати доступ до Gemini?

ШІ у версіях Nano та Prо тепер доступний у продуктах Google, таких як смартфони Google Pixel 8 і чат-бот Bard відповідно. Google планує з часом інтегрувати його у свою пошукову систему, рекламу, поштовий сервіс Gmail, браузер Chrome та інші служби.

Розробники та корпоративні клієнти зможуть отримати доступ до Pro через Gemini API у Google AI Studio та Google Cloud Vertex AI, починаючи з 13 грудня 2023 року. Розробники Android матимуть доступ до моделі версії Nano через AICore, який буде доступний на ранній попередній версії.

Читайте також: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: битва двох йокодзун

Gemini в Google Bard: що зміниться?

Відповідно до інформації, наданої під час презентації, модель дозволить Google Bard краще справлятися зі складнішими проблемами, як зазначено:

“Ми розробили Gemini таким чином, щоб модель була природно мультимодальною та попередньо навченою різноманітним модальностям із самого початку. Потім ми вдосконалили її, додавши більше мультимодальних даних для покращення продуктивності. Завдяки цьому Gemini легко розуміє та робить висновки набагато краще, ніж попередні мультимодальні моделі, і може похвалитися найсучаснішими можливостями майже в усіх сферах.

Надзвичайні мультимодальні можливості Gemini допомагають вам зрозуміти складну текстову та візуальну інформацію. Вони особливо корисні, коли йдеться про отримання конкретної інформації з величезних масивів даних. Надзвичайна здатність цієї моделі витягувати суть інформації із сотень тисяч документів шляхом їх читання, фільтрації та аналізу, безсумнівно, сприятиме новим, блискавичним відкриттям у різних галузях від науки до фінансів”.

Під час презентації продемонстрований приклад комплексного дослідження, яке містить понад 200 тис. записів, деякі з яких потрібно було оновити відповідно до нових даних. Як ви могли здогадатися, виконання цього вручну зайняло б дуже багато часу, тому автори дослідження застосовували Gemini для підготовки коду, який використовував вхідні дані та вносив необхідні оновлення. Іншим, більш реальним прикладом, є використання мовної моделі Google для пояснення завдань з математики чи фізики.

Вхідними даними тут були фото/скан завдання зі шкільного уроку. Системі вдалося обробити збережену там графіку та текст, а потім вказати, які частини домашнього завдання виконано правильно, а які потребують додаткової уваги. Презентація показала, що користувач може неодноразово просити Gemini пояснити задачу, і кожну наступну спробу потрібно пояснювати більш простою мовою. Наскільки Gemini буде точним і правильним, звісно, бажаючі перевірять, але можливість читати й опрацьовувати текст прямо з фотографій вражає. Як додали під час презентації:

“Gemini навчили розпізнавати та розуміти текст, зображення, звуки та багато іншого одночасно. Завдяки цьому він краще розуміє нюанси інформації та може відповісти на складні запитання. Він особливо ефективний у поясненні тем, пов’язаних з математикою та фізикою, тому може слугувати особистим порадником під час виконання домашніх завдань“.

Gemini в смартфонах Google Pixel

Google також похвалився тим, що Gemini “навчався” на нових чипсетах TPUv5, а також планує на початку 2024 року представити Gemini Ultra, яка буде використовувати Bard Advanced, нову версію споживчої версії мовної моделі гіганта. Наразі Gemini Ultra знаходиться на стадії тестування та вже доступна для окремих експертів із безпеки.

Останньою важливою інформацією є впровадження Gemini у смартфони Google Pixel 8. Це дозволить, серед іншого, створювати швидкі відповіді через програму Gboard у месенджерах. Перший – WhatsApp, але наступного року такі рішення з’являться і в інших застосунках, пов’язаних зі спілкуванням. Однак це тільки початок, тому що Google анонсувала багато нових інструментів ШI для смартфонів Pixel 8, і в майбутньому вони будуть доступні й на деяких інших пристроях Android. Однак це подальші плани, і наразі жодних подробиць не надано.

Чим Gemini відрізняється від інших моделей штучного інтелекту, наприклад GPT-4?

Нова модель Gemini від Google, здається, є однією з найбільших і найдосконаліших моделей штучного інтелекту на сьогоднішній день, хоча випуск моделі Ultra точно визначить це. Порівняно з іншими популярними моделями, які зараз використовують чат-боти штучного інтелекту, Gemini виділяється своєю власною мультимодальною характеристикою, тоді як інші моделі, як-от GPT-4, покладаються на плагіни та інтеграцію, щоб бути справді мультимодальними.

Занепокоєння щодо точності та неупередженості

Хоча Gemini є серйозним стрибком у розвитку можливостей штучного інтелекту, він має недоліки, які притаманні й іншим великим мовним моделям. Перш з все, це можливість створення неправдивої інформації. Упередження також ґрунтуються на навчальних даних, доступних новій мовній моделі. Варто також згадати про обмежене розуміння реального світу. Google визнає, що нова модель Gemini може робити помилки, надавати факти, які не ґрунтуються на доказах та суперечать здоровому глузду.

Потрібні додаткові тести, особливо для Gemini Ultra, яка має нові можливості, що ще не повністю вивчені. Google прагне ретельно оцінити Gemini, щоб мінімізувати можливу шкоду.

Також цікаво: Все про Microsoft Copilot: майбутнє чи хибний шлях?

Майбутнє з Gemini

Запуск Gemini від Google започаткував нову еру розвитку ШІ. Завдяки своїй найкращій продуктивності в порівнянні з попередніми моделями та людськими базовими показниками, Gemini вказує на майбутні можливості штучного інтелекту, але все ще потребує додаткових досліджень для усунення певних недоліків.

У майбутньому можна очікувати, що Gemini забезпечить більш корисні та інтелектуальні функції в продуктах Google. Надалі компанія планує продовжувати розширювати мову Gemini за межі англійської та спиратися на свою базову модельну методологію.

Нам залишається лише спостерігати та сподіватися, що Google знає, що робить.

Читайте також:

Більше від автора

Підписатися

1 Comment

Найновіше

НайстарішіНайбільше голосів

גם

30/09/2024 22:43

הדבר היחיד שמעניין אותי זה איך מוחקים את החרא הזה

1

0

Відповісти

Інші статті