OpenAI anunció un nuevo modelo de IA , Sora, que es capaz de generar vídeos de alta definición de hasta un minuto basados en indicaciones de texto. Sora, que significa “cielo” en japonés, no estará disponible para el público en general en el corto plazo, pero la compañía lo entregará a un pequeño grupo de científicos e investigadores que evaluarán el daño y el potencial de abuso.
“Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del objeto y del fondo”, dice el sitio web de la empresa The Physical World.
Uno de los videos generados por Sora muestra a una pareja caminando por un Tokio nevado con flores de cerezo y copos de nieve arremolinándose a su alrededor, mientras que otro muestra mamuts lanudos de aspecto realista caminando por un prado cubierto de nieve con un telón de fondo de cadenas montañosas cubiertas de nieve.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
OpenAI dice que el modelo funciona con una “comprensión profunda del lenguaje” que le permite interpretar indicaciones de texto. Sin embargo, como casi todos los generadores de imágenes y vídeos de IA, Sora no es perfecto. OpenAI también advierte que puede ser difícil dar causa y efecto al modelo; por ejemplo, puede generar un video de una persona comiendo una galleta, pero puede que no tenga marcas de mordiscos.
Sora no es el primer modelo de conversión de texto a video. Otras empresas, incluidas Meta, Google y Runway, han insinuado herramientas de conversión de texto a vídeo o las han puesto a disposición del público. Sin embargo, actualmente ninguna otra herramienta es capaz de generar un vídeo de 60 segundos. Sora también genera vídeos completos a la vez, en lugar de recopilarlos fotograma a fotograma como otros modelos, por lo que los objetos del vídeo permanecen intactos incluso cuando desaparecen temporalmente de la vista.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
La llegada de las herramientas de conversión de texto a vídeo ha generado preocupación sobre su potencial para crear más fácilmente vídeos falsos de apariencia realista. Y la IA generativa en términos más generales ha provocado una reacción violenta por parte de artistas y trabajadores creativos, preocupados de que la tecnología pueda potencialmente reemplazarlos.
OpenAI dijo que está trabajando con expertos en áreas como desinformación, contenido de odio y prejuicios para probar la herramienta antes de ponerla a disposición del público. La empresa también está desarrollando herramientas que pueden detectar vídeos creados por Sora e incluir metadatos en los vídeos creados para que sean más fáciles de descubrir. La compañía se negó a decir cómo se entrenó a Sora, pero dijo que utilizó tanto “videos de dominio público” como videos con licencia de titulares de derechos.
Aquí te dejamos una lista de noticias que de seguro vas a querer leer: