Трохи більше ніж через рік після впровадження вбудованих інструментів для створення зображень OpenAI виводить цю технологію на якісно новий рівень за допомогою суттєвого оновлення.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
Компанія презентувала ChatGPT Images 2.0, позиціонуючи систему як фундаментальний прорив у методах генерації та редагування візуального контенту штучним інтелектом. Розробники прагнули трансформувати звичайний генератор у повноцінний інтерактивний інструмент для творчості. В OpenAI характеризують цей реліз як «ступеневий зсув» у розвитку графічних моделей, акцентуючи на покращеному дотриманні інструкцій, якісному відтворенні текстових написів та вдосконаленій композиції кадрів. Тепер модель здатна логічно обґрунтовувати виконання завдань, самостійно перевіряти отримані результати та залучати дані із зовнішніх джерел.

Система ChatGPT Images 2.0 пропонує два специфічні формати функціонування: «Миттєвий» (Instant) та «Вдумливий» (Thinking), кожен з яких орієнтований на окремі творчі потреби. Перший режим фокусується на оперативності – перед офіційним релізом OpenAI таємно випробувала його на платформі LMArena під кодовою назвою «duct tape». Він забезпечує швидке отримання результату за умови збереження високої візуальної якості.
Натомість «Вдумливий» режим працює повільніше та ґрунтовніше, оскільки система аналізує логіку побудови зображення перед його створенням. Це дає змогу забезпечити сталість зовнішнього вигляду персонажів у різних кадрах та формувати цілісні візуальні оповіді. Така функція відкриває широкі можливості для розробки манґи, створення розкадровок та багатосценного дизайну. Дане розмежування є критично важливим, адже попередні моделі часто мали проблеми з візуальною послідовністю, а новий підхід перетворює створення картинки на структурований процес, а не на випадковий одноразовий результат.

Найсуттєвіша трансформація відбулася у способі взаємодії людини із системою. В OpenAI більше не розглядають генерацію зображень як просту схему «запит – відповідь». Під час презентації розробники наголосили, що тепер користувач веде інтерактивний діалог із AI, на який той змістовно реагує. Користувачі отримали можливість вдосконалювати графіку безпосередньо в чаті: змінювати масштаб, коригувати окремі деталі або переробляти композицію без необхідності починати все з нуля. Модель зберігає контекст під час редагування, що сприяє ітераційному дизайну.

Наприклад, в одному з демонстраційних сценаріїв система запропонувала вісім різних варіантів літнього вбрання на основі одного завантаженого фото. В іншому випадку AI проаналізував відгуки користувачів у соціальних мережах, візуально структурував ці дані та згенерував QR-код для переходу в ChatGPT.
OpenAI також значно вдосконалила роботу з нелатинськими мовними системами. Тепер модель набагато краще відтворює текст японською, корейською, китайською мовами, а також хінді та бенгалі. Компанія заявляє і про вищу точність відтворення різноманітних художніх стилів та кращу відповідність специфічним візуальним мовам.
Такі оновлення роблять інструмент практичнішим для індустрії відеоігор та візуального сторітелінгу. З технічного боку Images 2.0 підтримує варіативні співвідношення сторін від 3:1 до 1:3, здатна видавати зображення у роздільній здатності до 2K та створювати до восьми варіантів за один цикл генерації.
Читайте також:
- YouTube посилює боротьбу з діпфейками: Як працює нова AI-функція
- AI-навчання від Google для 20000 українців: Відкрито реєстрацію на безкоштовну програму

Та куда вже піднімати. І так комплектуючі вже взлетіли, що новий комп мені лише сниться.