На конференції для розробників I/O з’ясувалося, що у Google є відповідь на GPT-4o від OpenAI та CoPilot від Microsoft. Це Project Astra – рання версія універсального асистента на базі ШІ. Як говорять у DeepMind, він є версією AI-агента Google, “який може бути корисним у повсякденному житті”. В якомусь сенсі це прокачаний Google Lens, який здатен розуміти, міркувати та реагувати на відео та аудіо в реальному часі.
У записаному на смартфон Pixel відео людина ходила по офісу, вела пряму трансляцію з задньої камери та ставила ШІ запитання щодо об’єктів в кадрі. Gemini обробляв зображення, розпізнавав об’єкти та одночасно відповідав на запитання.
Це говорить про мультимодальні можливості та широкий контекст у внутрішньому інтерфейсі Gemini, який миттєво ідентифікує об’єкти та швидко надає відповідь. Під час демонстрації він знав, що таке певна частина мови, розпізнав код та зміг визначити район у Лондоні. Він також має генеративні можливості, оскільки швидко створив назву гурту для милого цуценяти та іграшкової тварини.
Відео, за словами Google, було знято одним дублем, і в ньому ще один цікавий момент – асистент підказує користувачеві, де він залишив свої окуляри, і коли користувач знаходить і одягає їх, ми дізнаємося, що вони мають вбудовану систему камер і здатні використовувати Project Astra для ведення розмови. Можливо, це натяк на те, що Google працює над створенням конкурента смартокулярів Ray Ban від Meta.
Хоча це рання версія, навіть в ролі демонстрації під час Google I/O її можливості вражають. Цей ШІ може надати нового імпульсу смартфонам і нинішнім асистентам від Google і навіть Apple. Але вдосконалення Gemini – не єдина цікавинка, про яку говорили зі сцени. Компанія також представила кілька ШІ-інструментів для тих, хто займається створенням контенту.
Перший інструмент – Veo – здатен генерувати 1080p-відео у безлічі кінематографічних та візуальних стилів, тривалість яких може перевищувати хвилину. У компанії заявили, що створене відео повинно точно відображати ваше творче бачення, передаючи тон підказки та деталі, якщо їх додати до підказки. Модель розуміє такі терміни, як таймлапс або аерофотозйомка ландшафту. Відео, створене ШІ, має бути цілісним і послідовним, а об’єкти повинні реалістично рухатися в кадрі. У майбутньому Google планує додати можливості Veo до YouTube Shorts.
Також компанія працює над покращенням якості своєї моделі генерації зображень. Imagen 3 генерує фотореалістичні, реалістичні зображення і має менше артефактів у порівнянні з попередніми моделями. Насправді зображення, згенеровані Imagen 3, просто неймовірні – Google наводила декілька прикладів.
Оновлений інструмент навіть вміє малювати. Малюнок виглядає дивовижно і загалом не схожий на згенерований штучним інтелектом. Для нього була використана така підказка “Абстрактний ескіз. Розмитість виразних ліній та енергії передає динамічний рух танцівниці в жестикуляційному малюнку вугіллям. Ескіз на зістареному пергаментному папері”.
Крім того, Google співпрацює з музикантами, авторами пісень і продюсерами для розробки технологій генерації музики. Зокрема, мова йде про Lyria – найсучаснішу модель компанії зі ШІ для створення музики. Google працює над набором музичних ШІ-інструментів, таких як Music AI Sandbox. Завдяки цій розробці люди зможуть створювати інструментальні партії з нуля або трансформувати звуки.
Читайте також: