“Sora”, el nuevo modelo de generación de vídeo a partir de prompts

Hace unos días, OpenAI volvía a centrar todas las miradas del sector tecnológico al anunciar Sora, un nuevo modelo de inteligencia artificial generativa capaz de crear vídeos a partir de comandos o descripciones de texto (prompts), lo que se denomina text-to-video.

OpenAI es el responsable, entre otros, de interfaces para IA generativa tan populares como ChatGPT, que descubrió al gran público la posibilidad de mantener conversaciones con un sistema de IA; así como de sistemas como DALL·E 3, que genera imágenes a partir de texto (text-to-image). Ahora, la compañía que dirige Sam Altman desde el pasado mes de noviembre da un paso más allá y presenta Sora como el germen de una nueva era en el desarrollo de la IA generativa.

Por el momento, Sora supone un nuevo modelo de IA generativa en fase de estudio y mejora. Se ha compartido con diversos especialistas para recibir su feedback, aunque se espera que esté disponible para el público general en este primer semestre de 2024.

Qué es Sora de OpenAI

Según la descripción que aparece en la web de Sora, se trata de un modelo de inteligencia artificial capaz de crear escenas imaginativas y realistas a partir de instrucciones de texto, lo que popularmente se conoce como ‘prompt’.

La intención de OpenAI al desarrollar Sora es enseñar a la inteligencia artificial a entender e imitar el movimiento del mundo físico. Su objetivo es entrenar modelos de IA que ayuden a resolver problemas en los que sea necesario interactuar con el mundo real, no con una reproducción animada del mismo.

Esta idea de generar vídeo a partir de texto con inteligencia artificial no es nueva. Ya a finales de 2022 aparecieron algunos intentos de compañías como Google o Meta, pero presentaban una calidad de imagen bastante baja. Existe también una startup llamada Runway que, en su modelo de 2ª generación, consigue producir vídeos con una calidad cercana a las animaciones de los grandes estudios, aunque estos clips apenas duran unos segundos.

Lo realmente novedoso de Sora es la impresionante calidad de los vídeos que genera, que pueden alcanzar un minuto de duración. Otro de los aciertos de Sora es la precisión con la que se consiguen plasmar las instrucciones introducidas en los prompts y mantenerla durante todo el vídeo. Se puede indicar el tipo de ambientación, los movimientos de cámara, detalles de todos los elementos que aparecen en la escena, etc.

Por ejemplo, en la lista de vídeos generados por Sora que OpenAI ha facilitado como avance, se encuentran descripciones como “primerísimo primer plano de un hombre canoso con barba de unos 60 años, que se encuentra absorto pensando en la historia del universo mientras está sentado en un café de París […] al final, sonríe sutilmente […] la luz es muy cinematográfica con el atardecer y las calles de París de fondo, profundidad de campo, cinematografía de película de 35 mm”. Y este es el resultado:

https://www.youtube.com/watch?v=HK6y8DAPN_0&t=425s

Introducing Sora — OpenAI’s text-to-video model (https://www.youtube.com/watch?v=HK6y8DAPN_0&t=425s)

Introducing Sora — OpenAI’s text-to-video model. Open AI.

Cómo funciona el modelo de generación de vídeo Sora

Puesto que este nuevo modelo de IA y su capacidad para generar vídeo a partir de prompts se presentan como un nuevo objeto de estudio, OpenAI ha acompañado esta presentación con un artículo que detalla las especificaciones técnicas del funcionamiento de Sora.

Básicamente, Sora funciona como otros modelos de IA generativa, solo que la base de datos del entrenamiento del modelo generativo está compuesta por una gran cantidad de vídeos. En concreto, se utilizan modelos de difusión condicional junto con imágenes y vídeos de distintas duraciones, formatos y resoluciones.

En un artículo titulado “How OpenAI’s Sora is Changing the Game: An Insight into Its Core Technologies”, el doctor Ryota Kiuchi, que describe Sora como una “obra de arte de las tecnologías más avanzadas”, recoge y explica algunas de las bases teóricas de las que surge este modelo generativo. Encontramos desde modelos para la arquitectura de redes neuronales de procesamiento natural del lenguaje (NLP) que han derivado en modelos para procesar imágenes y vídeos de manera natural, hasta modelos de difusión en los que se sustenta la IA generativa (por un proceso de eliminación de ruidos llamado ‘denoising’, se generan nuevos contenidos a partir de una semilla integrada en conjunto de puntos aleatorios que conforman el “ruido”).

Por qué Sora supone un nuevo hito para la evolución de la IA generativa

Sora consigue mantener un nivel de calidad y precisión en los vídeos generados por inteligencia artificial nunca visto hasta ahora y, además, puede mantener ese nivel no durante segundos, sino que se lanza con vídeos de un minuto. Este punto de partida de la generación de vídeo a partir de prompts es muy esperanzador para futuros desarrollos, ya que estamos viendo vídeos muy realistas, con múltiples posibilidades y detallismo.

Los avances que supone Sora podrían extrapolarse o afectar de algún modo al desarrollo de la IA generativa text-to-3D, es decir, para generar animaciones 3D muy realistas a partir de prompts, algo en lo que ya se está trabajando. Básicamente, se utiliza la información de fotogramas sucesivos para reconstruir un modelo 3D de lo que se está viendo en el vídeo. Esta técnica permite, por ejemplo, convertir cualquier vídeo en un contenido 3D fotorrealista. Sería una forma muy barata y efectiva de generar este tipo de contenidos con inteligencia artificial y parece que puede ser una aproximación mucho más efectiva a corto plazo que los modelos como Stable Zero 123.

Sora podría sumar a los avances en la generación 3D, con lo que no solo se conseguiría el objetivo de OpenAI de simular escenas del mundo real, sino también producir escenas realistas con alta calidad de imagen en entornos virtuales.

El éxito de Sora conlleva también su mayor peligro: que se haga un mal uso de este modelo. De hecho, si Sora no está disponible a nivel usuario todavía, es porque OpenAI, igual que ha hecho con las distintas versiones de DALL·E, quiere poner límites a la capacidad del modelo de generar vídeos violentos, pornográficos o que inciten al odio. Se espera que el lanzamiento al mercado de Sora se produzca una vez se hayan solventado este tipo de cuestiones.

Al fin y al cabo, lo importante de avances tecnológicos como Sora es cómo se utilice y en qué nos puede ayudar la IA generativa. En este sentido, en Many·Worlds contamos con años de experiencia dedicados a aprovechar las nuevas tecnologías de manera práctica. Si quieres saber cómo la inteligencia artificial te puede ayudar en tu proyecto o negocio, contacta con nuestro equipo y te ayudaremos a obtener la mejor versión de tu idea.

“Sora”, el nuevo modelo de generación de vídeo a partir de prompts

Qué es Sora de OpenAI

Cómo funciona el modelo de generación de vídeo Sora

Por qué Sora supone un nuevo hito para la evolución de la IA generativa

DESCARGA NUESTRO INFORME SOBRE LA SITUACIÓN DE LA RA/RV EN LA INDUSTRIA 4.0

Contacte con nosotros