Згенеровані штучним інтелектом зображення тепер може бути анімованими. Про це заявив розробник Stability AI, коли представив новий продукт під назвою Stable Video Diffusion. Це “найсучасніша генеративна відеомодель зі ШІ“, яка дозволяє створювати відео з одного зображення.
Новий інструмент був випущений у вигляді двох моделей перетворення зображення у відео, кожна з яких здатна генерувати від 14 до 25 кадрів зі швидкістю від 3 до 30 кадрів в секунду з роздільною здатністю 576×1024. Вона здатна синтезувати кілька варіантів з одного кадру з точним налаштуванням. “На момент випуску у своїй базовій формі, за результатами зовнішнього оцінювання, ми виявили, що ці моделі перевершують провідні закриті моделі у дослідженнях користувацьких уподобань”, – зазначає компанія після порівняння свого продукту з платформами перетворення тексту у відео Runway та Pika Labs.
Наразі Stable Video Diffusion доступна лише для дослідницьких цілей, а не для реального чи комерційного застосування. Як зазначає Stability AI, потенційні користувачі можуть зареєструватися, щоб потрапити в список очікування для доступу до “майбутнього вебдосвіду з інтерфейсом перетворення тексту у відео”. Інструмент демонструє високий потенціал для застосування в рекламі та освітніх або розважальних цілях.
Зразки мають непогану якість та не поступаються конкуруючим генеративним системам. Однак, як пише компанія, інструмент має обмеження – він генерує відео довжиною 4 секунди або навіть менше, йому бракує ідеального фотореалізму, він не може відтворювати рух камери, окрім повільних панорам, не має контролю над текстом, не може генерувати розбірливий текст і не здатен належним чином генерувати людей і обличчя.
Інструмент навчався на мільйонах відео, а потім допрацьовувався на меншому наборі даних, причому Stability AI заявляє, що для навчання використовувалося виключно загальнодоступне відео. Походження набору даних має важливе значення, якщо врахувати, що нещодавно компанія Getty Images подала на Stability AI до суду за використання її архівів зображень.
Відео є ключовою метою для генеративного ШІ через його потенціал для спрощення створення контенту. Однак це також інструмент з найбільшим потенціалом для зловживань. І на відміну від OpenAI та її ChatGPT, Stability ще не досягла більшого успіху в комерціалізації Stable Diffusion. Нещодавно віцепрезидент Stability AI з питань аудіо Ед Ньютон-Рекс подав у відставку через використання захищеного авторським правом контенту для навчання генеративних моделей ШІ.
Читайте також: