OpenAI анонсувала нову модель ШІ Sora, яка здатна генерувати відео високої чіткості тривалістю до однієї хвилини на основі текстових підказок. Sora, що в перекладі з японської означає “небо”, не буде доступна широкому загалу найближчим часом, але компанія передасть її невеликій групі науковців та дослідників, які оцінять шкоду та потенціал зловживань.
“Sora здатна генерувати складні сцени з кількома персонажами, специфічними типами руху і точними деталями об’єкта і фону, – йдеться на сайті компанії. – Модель розуміє не лише те, що користувач запитав у підказці, але й те, як ці речі існують у фізичному світі”.
Одне з відео, згенерованих Sora, показує пару, яка гуляє засніженим Токіо, а навколо них кружляють пелюстки вишні та сніжинки, а на іншому – реалістичні на вигляд шерстисті мамонти, що йдуть засніженим лугом на тлі засніжених гірських хребтів.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
OpenAI каже, що модель працює завдяки “глибокому розумінню мови”, що дозволяє їй інтерпретувати текстові підказки. Проте, як і практично всі ШІ-генератори зображень і відео, Sora не ідеальна. OpenAI також попереджає, що моделі можуть важко даватися причина і наслідки – наприклад, вона може згенерувати відео, на якому людина їсть печиво, але на ньому може не бути слідів від укусів.
Sora – не перша модель перетворення тексту у відео. Інші компанії, зокрема Meta, Google та Runway, або натякали на інструменти перетворення тексту на відео, або робили їх загальнодоступними. Проте жоден інший інструмент наразі не здатен генерувати відео тривалістю 60 секунд. Sora також генерує цілі відео одразу, а не збирає їх кадр за кадром, як інші моделі, тож об’єкти у відео залишаються незмінними, навіть коли вони тимчасово зникають з поля зору.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Поява інструментів для перетворення тексту у відео викликала занепокоєння щодо їхнього потенціалу для легшого створення реалістичних на вигляд фальшивих відеоматеріалів. А генеративний ШІ в ширшому сенсі викликав негативну реакцію з боку художників і творчих працівників, стурбованих тим, що ця технологія потенційно може їх замінити.
OpenAI заявила, що співпрацює з експертами в таких сферах, як дезінформація, ненависницький контент і упередженість, щоб протестувати інструмент перед тим, як зробити його доступним для громадськості. Компанія також розробляє інструменти, здатні виявляти відео, створені Sora, і включати метадані в створені відео для полегшення їх виявлення. Компанія відмовилася розповісти про те, як навчали Sora, але зазначила, що використовувала як “загальнодоступні відео”, так і відео, ліцензовані від правовласників.
Читайте також: