Google має не найкращий послужний список, коли справа доходить до створення зображень за допомогою штучного інтелекту. Нещодавно спалахнув скандал через генератор зображень, вбудований у Gemini, який некоректно створював зображення людей, помиляючись у расовій приналежності. Після багатьох скарг техногігант прибрав функцію генерації облич і відправив її “на ремонт”. А поки ми чекаємо, компанія випустила вдосконалений інструмент для створення зображень Imagen 2 в рамках своєї платформи для розробників Vertex AI. Щоправда, є нюанс – інструмент поки що орієнтований на бізнес.
Imagen 2 може створювати та редагувати зображення, отримуючи текстові підказки, подібно до DALL-E та Midjourney. Інструмент може відображати текст, емблеми та логотипи кількома мовами, за бажанням накладаючи ці елементи на вже існуючі зображення, наприклад, на візитки, одяг та продукти.
Після першого запуску в режимі попереднього перегляду, редагування зображень за допомогою Imagen 2 тепер доступне у Vertex AI разом з двома новими можливостями: зафарбовуванням і розфарбовуванням. Функції зафарбовування і розфарбовування, які вже давно пропонують інші популярні генератори зображень, включаючи DALL-E, можна використовувати для видалення небажаних частин зображення, додавання нових компонентів і розширення меж зображення для створення ширшого поля зору.
Але справжнім оновленням Imagen 2 є те, що Google називає “перетворення тексту на живі зображення”. Тепер інструмент може створювати 4-секундні відео з текстових підказок, подібно до інструментів для створення кліпів на основі ШІ. Відповідно до корпоративної спрямованості моделі, Google пропонує живі зображення як інструмент для маркетологів і творчих працівників, наприклад, генератор GIF-файлів для реклами, що демонструє природу, їжу і тварин – тематику, на яку Imagen 2 був досконало натренований.
Google стверджує, що живі зображення можуть фіксувати “різноманітні кути та рухи”, “підтримуючи послідовність”. Але поки що вони мають низьку роздільну здатність: 360×640, і в компанії пообіцяли, що в майбутньому це покращиться.
Щоб зменшити занепокоєння щодо можливості створення діпфейків, Google заявила, що Imagen 2 використовуватиме спеціальну технологію SynthID, розроблену Google DeepMind, для нанесення невидимих криптографічних водяних знаків на живі зображення. Вони стійкі до редагувань, включаючи стиснення, фільтри та налаштування колірного тону, але для їхнього виявлення потрібен окремий інструмент.
Також Google підкреслює, що генерація живих зображень “перевірятиметься з метою безпеки”. “Модель Imagen 2 у Vertex AI не зіткнулася з тими ж проблемами, що і застосунок Gemini. Ми продовжуємо активно тестувати та взаємодіяти з нашими клієнтами”, – зазначили представники компанії.
Читайте також: