OpenAI ahora crea videos fotorrealistas y animados de hasta un minuto de duración

OpenAI presentó oficialmente Sora, el que afirma es su modelo de Inteligencia Artificial (IA) Generativa más grande hasta la fecha, y que cuenta con la capacidad de crear videos de alta definición y un minuto de duración, con resultados que hasta el momento bien podrían hacernos cuestionar la realidad.

“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real”, señala la compañía en la presentación.

Sora es el nuevo modelo de IA Generativa de OpenAI, con la capacidad de generar videos de un minuto de duración a partir de un enunciado o texto. Según la compañía, el modelo se desarrolló con el objetivo de ofrecer imágenes de alta resolución y adherirse a las instrucciones del usuario.

Por ahora, explica que Sora estará a disposición de los equipos rojos para evaluar las áreas críticas en busca de daños o riesgos. El modelo también estará disponible para algunos artistas visuales, diseñadores y cineastas para obtener opiniones de este segmento y que el modelo sirva mejor para profesionales creativos.

OpenAI subió una serie de videos como ejemplo de las capacidades del modelo. Sam Altman, CEO y fundador de la compañía, pidió a usuarios en X a proponer textos para la generación de videos.

No queda más que reconocer que los resultados hasta el momento son prometedores y se podría decir que incluso impresionantes, con ejemplos fotorrealistas como una mujer en el centro de Tokio, hasta imágenes de mamuts lanudos en la era glacial.

Y aunque existen ejemplos de videos ridículos como “una criatura medio pato medio dragón que vuela a través de una hermosa puesta de sol con un hámster vestido con ropa de aventura en su espalda”, hay otros como una grabación de dron de un acantilado con un faro en el medio, que aparece bastante convincente, muy similar a los que encontramos reproduciéndose en televisores en tiendas de electrónica, y que podría hacer dudar a más de uno cuál es el origen del video.

Y aunque existen ejemplos de videos ridículos como “una criatura medio pato medio dragón que vuela a través de una hermosa puesta de sol con un hámster vestido con ropa de aventura en su espalda”, hay otros como una grabación de dron de un acantilado con un faro en el medio, que aparece bastante convincente, muy similar a los que encontramos reproduciéndose en televisores en tiendas de electrónica, y que podría hacer dudar a más de uno cuál es el origen del video.

De hecho, el documento técnico de OpenAI afirma que la investigación realizada hasta el momento alrededor de Sora sugiere “que la ampliación de los modelos de generación de video es un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico”.

Esto no significa que sea perfecto, ya que otros ejemplos, como el de “un hombre viejo vistiendo un mono morado y botas vaqueras dando un agradable paseo por Johannesburgo, Sudáfrica, durante un hermoso atardecer”, muestra las limitaciones del modelo, con inconsistencias que parecen similares a otros modelos de generación de imágenes. En este caso, la superposición de las piernas al caminar desde un punto de vista de perfil del sujeto.

OpenAI advierte que “actualmente, Sora presenta numerosas limitaciones como simulador. Por ejemplo, no modela con precisión la física de muchas interacciones básicas, como la rotura de cristales. Otras interacciones, como comer alimentos, no siempre producen cambios correctos en el estado de los objetos”.

El documento técnico ofrece también detalles sobre las técnicas y métodos utilizados para lograr la resolución ofrecida por Sora. Aunque ya existían modelos de IA para generación de video, algunos de estos basaban sus datos en videos de baja resolución (256×256) y corta duración (4 segundos). OpenAI señala que su enfoque se basa en muestrear videos panorámicos de 1920x1080p, videos verticales de 1080×1920 y todo lo intermedio.

“Esto permite a Sora crear contenidos para diferentes dispositivos directamente en sus relaciones de aspecto nativas. También nos permite crear rápidamente prototipos de contenidos a tamaños inferiores antes de generarlos a resolución completa, todo ello con el mismo modelo”, explica.

Este mismo enfoque, le permite al modelo generar videos con mejor encuadre y composición, lo que ayuda a adherirse al requerimiento de los usuarios.

Sora puede también se puede alimentar a través de otros videos o imágenes, ya sea animar videos a través de imágenes generadas por DALL-E 2 y DALL-E 3; extender las secuencias de otros videos, ya sea hacia atrás o hacia adelante; cambiar el fondo o detalles como del atardecer al anochecer, de un bosque a un desierto; o conectar videos para generar una única secuencia de imágenes.

En este momento, surge nuevamente la pregunta sobre el posible impacto de la IA en ciertos sectores susceptibles de ser reemplazados por automatización. Esto incluye no solamente videos de animación, sino incluso videos básicos sin la necesidad de grabarlos en el mundo real, con propósitos generales como servir de fondo en exposiciones o presentaciones, o hasta videos instructivos para dar la bienvenida a nuevos empleados en una empresa.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies