Root NationНовиниНовини ITMeta показала ШІ для створення відео за описом

Meta показала ШІ для створення відео за описом

Meta

Генератори перетворення тексту на зображення на основі штучного інтелекту (ШІ) останніми місяцями все частіше потрапляють в заголовки газет, але дослідники вже перейшли до наступного рубежу: генератори перетворення тексту у відео на основі ШІ. Дослідники Meta публічно представили такий новий генератор, повідомляє The Verge.

Команда інженерів з машинного навчання Meta представила нову систему під назвою Make-A-Video. Ця модель штучного інтелекту дає змогу користувачам вводити приблизний опис сцени, і вона генерує коротке відео, що відповідає їхньому тексту. Відеоролики явно штучні, з розмитими об’єктами і спотвореною анімацією, але все ж є значним досягненням у сфері генерації контенту штучного інтелекту.

Make-A-Video: AI

У своєму пості на Facebook гендиректор Meta Марк Цукерберг описав цю роботу як «дивовижний прогрес», додавши: «Створювати відео набагато складніше, ніж фотографії, тому що крім правильної генерації кожного пікселя, система також повинна передбачити, як вони будуть змінюватися з часом».

Make-A-Video: AI

Кліпи тривають не більше п’яти секунд і не містять звуку, але охоплюють величезний спектр підказок. Хоча зрозуміло, що відео згенеровано комп’ютером, якість таких моделей штучного інтелекту швидко покращиться в найближчому майбутньому. Усього за кілька років генератори зображень штучного інтелекту пройшли шлях від створення майже незрозумілих картинок до фотореалістичного контенту. І хоча прогрес у відео може бути повільнішим з огляду на майже безмежну складність предметної області, нагорода за безшовну генерацію відео мотивуватиме багато організацій і компаній вкладати значні ресурси в цей проєкт.

Компанія заявляє, що планує випустити демонстраційну версію системи, але не повідомляє, коли і як це буде реалізовано. У документі-описі моделі дослідники Meta зазначають, що Make-A-Video тренується на парах зображень і підписів, а також на немаркованих відеоматеріалах.

Навчальний контент було отримано з двох наборів даних, WebVid-10M і HD-VILA-100M, які разом містять мільйони відеороликів і охоплюють сотні тисяч годин відеозаписів. До слова, сюди входять стокові відеоматеріали.

Дослідники зазначають, що модель має багато технічних обмежень, окрім розмитих кадрів і розрізненої анімації. Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64×64 пікселі, які потім збільшуються в розмірі за допомогою окремої моделі штучного інтелекту до 768×768 пікселів.

Ви можете допомогти Україні боротися з російськими окупантами. Найкращий спосіб зробити це – пожертвувати кошти Збройним Силам України через Savelife або через офіційну сторінку НБУ.

Також цікаво:

Джерелоtheverge
Підписатися
Сповістити про
guest

0 Comments
Найновіше
НайстарішіНайбільше голосів
Соцмережі та підписка