Apple не є одним з провідних гравців на ринку штучного інтелекту, але нова модель ШІ з відкритим вихідним кодом для редагування зображень, яку представив техногігант, показує, який внесок компанія могла б зробити в цю сферу.
Модель під назвою MLLM-Guided Image Editing (MGIE) використовує мультимодальні великі мовні моделі (MLLM) для інтерпретації текстових команд при обробці зображення. Іншими словами, за допомогою цього інструмента користувач має можливість редагувати фотографії на основі тексту, який він вводить. Хоча це не перший інструмент, який може це робити, “людські інструкції іноді занадто короткі, щоб сучасні методи могли їх зафіксувати та виконати”, – йдеться в документі проєкту.
Компанія розробила MGIE разом з дослідниками з Каліфорнійського університету. MLLM здатні перетворювати прості або неоднозначні текстові підказки на детальніші та зрозуміліші інструкції, яким може слідувати фоторедактор. Наприклад, якщо користувач хоче відредагувати фотографію піци з пепероні, щоб “зробити її здоровішою”, MLLM може інтерпретувати це як “додати овочеву начинку” і відредагувати фото відповідним чином.
На додаток до внесення основних змін до зображень, MGIE може також обрізати, змінювати розмір і обертати фотографії, а також покращувати їхню яскравість, контрастність і колірний баланс, і все це за допомогою текстових підказок. За допомогою інструмента можна також редагувати певні ділянки фотографії та, наприклад, змінювати волосся, очі та одяг людини на ній, або видаляти елементи на задньому плані.
Apple випустила модель через GitHub, але зацікавлені також можуть спробувати демо-версію, яка наразі розміщена на Hugging Face Spaces. У компанії ще не повідомили, чи планує вона використовувати те, що вона дізнається з цього проєкту, як інструмент або функцію, яку вона може включити в будь-який зі своїх продуктів.
Читайте також:
Leave a Reply