OpenAI анонсувала нову модель ШІ Sora, яка здатна генерувати відео високої чіткості тривалістю до однієї хвилини на основі текстових підказок. Sora, що в перекладі з японської означає “небо”, не буде доступна широкому загалу найближчим часом, але компанія передасть її невеликій групі науковців та дослідників, які оцінять шкоду та потенціал зловживань.
“Sora здатна генерувати складні сцени з кількома персонажами, специфічними типами руху і точними деталями об’єкта і фону, – йдеться на сайті компанії. – Модель розуміє не лише те, що користувач запитав у підказці, але й те, як ці речі існують у фізичному світі”.
Одне з відео, згенерованих Sora, показує пару, яка гуляє засніженим Токіо, а навколо них кружляють пелюстки вишні та сніжинки, а на іншому – реалістичні на вигляд шерстисті мамонти, що йдуть засніженим лугом на тлі засніжених гірських хребтів.
OpenAI каже, що модель працює завдяки “глибокому розумінню мови”, що дозволяє їй інтерпретувати текстові підказки. Проте, як і практично всі ШІ-генератори зображень і відео, Sora не ідеальна. OpenAI також попереджає, що моделі можуть важко даватися причина і наслідки – наприклад, вона може згенерувати відео, на якому людина їсть печиво, але на ньому може не бути слідів від укусів.
Sora – не перша модель перетворення тексту у відео. Інші компанії, зокрема Meta, Google та Runway, або натякали на інструменти перетворення тексту на відео, або робили їх загальнодоступними. Проте жоден інший інструмент наразі не здатен генерувати відео тривалістю 60 секунд. Sora також генерує цілі відео одразу, а не збирає їх кадр за кадром, як інші моделі, тож об’єкти у відео залишаються незмінними, навіть коли вони тимчасово зникають з поля зору.
Поява інструментів для перетворення тексту у відео викликала занепокоєння щодо їхнього потенціалу для легшого створення реалістичних на вигляд фальшивих відеоматеріалів. А генеративний ШІ в ширшому сенсі викликав негативну реакцію з боку художників і творчих працівників, стурбованих тим, що ця технологія потенційно може їх замінити.
OpenAI заявила, що співпрацює з експертами в таких сферах, як дезінформація, ненависницький контент і упередженість, щоб протестувати інструмент перед тим, як зробити його доступним для громадськості. Компанія також розробляє інструменти, здатні виявляти відео, створені Sora, і включати метадані в створені відео для полегшення їх виявлення. Компанія відмовилася розповісти про те, як навчали Sora, але зазначила, що використовувала як “загальнодоступні відео”, так і відео, ліцензовані від правовласників.
Читайте також:
Leave a Reply