Root NationНовиниНовини ITMeta показала ШІ для створення відео за описом

Meta показала ШІ для створення відео за описом

-

Генератори перетворення тексту на зображення на основі штучного інтелекту (ШІ) останніми місяцями все частіше потрапляють в заголовки газет, але дослідники вже перейшли до наступного рубежу: генератори перетворення тексту у відео на основі ШІ. Дослідники Meta публічно представили такий новий генератор, повідомляє The Verge.

Команда інженерів з машинного навчання Meta представила нову систему під назвою Make-A-Video. Ця модель штучного інтелекту дає змогу користувачам вводити приблизний опис сцени, і вона генерує коротке відео, що відповідає їхньому тексту. Відеоролики явно штучні, з розмитими об’єктами і спотвореною анімацією, але все ж є значним досягненням у сфері генерації контенту штучного інтелекту.

Make-A-Video: AI

У своєму пості на Facebook гендиректор Meta Марк Цукерберг описав цю роботу як «дивовижний прогрес», додавши: «Створювати відео набагато складніше, ніж фотографії, тому що крім правильної генерації кожного пікселя, система також повинна передбачити, як вони будуть змінюватися з часом».

Make-A-Video: AI

Кліпи тривають не більше п’яти секунд і не містять звуку, але охоплюють величезний спектр підказок. Хоча зрозуміло, що відео згенеровано комп’ютером, якість таких моделей штучного інтелекту швидко покращиться в найближчому майбутньому. Усього за кілька років генератори зображень штучного інтелекту пройшли шлях від створення майже незрозумілих картинок до фотореалістичного контенту. І хоча прогрес у відео може бути повільнішим з огляду на майже безмежну складність предметної області, нагорода за безшовну генерацію відео мотивуватиме багато організацій і компаній вкладати значні ресурси в цей проєкт.

Компанія заявляє, що планує випустити демонстраційну версію системи, але не повідомляє, коли і як це буде реалізовано. У документі-описі моделі дослідники Meta зазначають, що Make-A-Video тренується на парах зображень і підписів, а також на немаркованих відеоматеріалах.

Навчальний контент було отримано з двох наборів даних, WebVid-10M і HD-VILA-100M, які разом містять мільйони відеороликів і охоплюють сотні тисяч годин відеозаписів. До слова, сюди входять стокові відеоматеріали.

Дослідники зазначають, що модель має багато технічних обмежень, окрім розмитих кадрів і розрізненої анімації. Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64×64 пікселі, які потім збільшуються в розмірі за допомогою окремої моделі штучного інтелекту до 768×768 пікселів.

Ви можете допомогти Україні боротися з російськими окупантами. Найкращий спосіб зробити це – пожертвувати кошти Збройним Силам України через Savelife або через офіційну сторінку НБУ.

Також цікаво:

Джерелоtheverge
Subscribe
Notify of
guest

0 Comments
Newest
Oldest Most Voted
Inline Feedbacks
View all comments
Підписатися на оновлення