El nuevo modelo de ByteDance para crear video con IA impacta por su hiperrealismo y capacidades cinemáticas

ByteDance, compañía china detrás de la popular red social TikTok, presentó una vista previa de Seedance 2.0, su nuevo modelo multimodal de Inteligencia Artificial (IA) para la generación de video a partir de texto o imágenes. El servicio ha causado revuelo en redes sociales al presentar videos hiperrealistas que abren nuevamente el debate sobre el impacto de la tecnología en trabajos creativos.

Disponible como versión beta en la plataforma de video Jimeng AI, pareciera que el nuevo modelo busca enfocarse en la creación de contenido cinematográfico al contar con nuevas características que permiten al usuario desde tener una calidad hiperrealista hasta el control de cámara natural o el manejo de múltiples puntos de vista, al tiempo que promete consistencia entre personajes y escenas.

Desde el primer video de Will Smith comiendo spaghetti presentado en 2023, el segmento de creación de contenido de video con Inteligencia Artificial ha registrado relevantes saltos tanto en calidad y consistencia, adelgazando cada vez más la línea que separa a la realidad del contenido ficticio. Si bien acerca la creación de contenido para cualquier usuario, al mismo tiempo crea nuevos cuestionamientos sobre el impacto de la tecnología en aspectos como la desinformación, el empleo en industrias creativas o la inundación de Internet con contenido de baja calidad.

A diferencia de otros modelos que usualmente pueden crear clips cortos y con un solo punto de vista, la principal característica de Seedance 2.0 es que puede producir video y sonido de forma conjunta, así como una única secuencia de múltiples tomas llamada por la empresa como “narración multi-lente”.

La empresa explica que esto se logra a partir de lo que describe como una estructura de transformador de difusión de doble rama, según cita CNBC. El modelo promete generar video 2K a un ritmo 30% más rápido que otros competidores. Además, permite la creación de contenido multimodal, es decir, el promtp puede incluir texto, imágenes fijas, videos cortos o audio para la creación de una secuencia única.

Uno de los primeros videos creados con Seedance recrea una escena del popular anime Dragon Ball, que hace referencia a una pelea entre Goku y Ten Shin Han, bajo un estilo de película clásica de artes marciales, incluyendo guiños reconocibles por los fans de la serie como el tercer ojo de Ten o la técnica que le permite obtener un nuevo par de brazos (Shiyōken). Tras ver el video, hay que admitir que se acerca más a lo que han demandado los fans por años para un live action de la serie que cualquier intento previo de Hollywood.

El lanzamiento de Seedance se enmarcaría dentro del objetivo de Jimeng que busca impulsar la creación de contenido en chino. Según el sitio, la plataforma está optimizada para la creación de video a partir de indicaciones en chino, con mejores capacidades de comprensión semántica.

Medios locales reportan que tras la presentación del modelo, los inversionistas reaccionaron con interés sobre empresas chinas de medios de comunicación y aplicaciones de IA, las cuales podrían aprovechar este tipo de tecnologías para acelerar la creación de contenido y ser más competitivas a nivel global. Las acciones del estudio Huace Media y del desarrollador de videojuegos Perfect World subieron alrededor de 7% y 10%, respectivamente, mientras que las de la editorial COL Group se elevaron 20%.

Pese a las expectativas tanto de compañías de IA como de empresas de contenido por el uso de IA en la industria creativa, hasta el momento los primeros experimentos llevados al mercado han sido recibidos por los usuarios con poco entusiasmo y mucha controversia.

A finales del año pasado, Coca-Cola, cuyos comerciales han marcado historia en la publicidad audiovisual, presentó uno hecho con IA relacionado con la Navidad que causó controversia entre el público. Más allá de haber logrado su objetivo de relacionar a la marca de refrescos con una época de paz y alegría, el comercial provocó el rechazo entre los usuarios que lo calificaron de ser contenido “sin alma” y “sin creatividad”.

Asimismo, pese a las promesas de las empresas desarrolladoras respecto a los ahorros en tiempo y costos, en su momento el Wall Street Journal reportó que el comercial requirió el trabajo de 100 personas y la mezcla manual de al menos 70,000 clips generados con IA. Esto sin contar con inconsistencias del contenido como camiones más largos de lo que existen en la realidad y que hasta varían en su número de ejes entre escena y escena.

Modelos de IA para video de reciente lanzamiento, como Seedance 2.0, buscan superar estas  limitaciones al habilitar la creación de contenido más consistente e hiperrealista. El objetivo es permitir la generación de videos de mayor duración con potencial de uso en industrias creativas como el cine y los videojuegos, llegando incluso a borrar las diferencias entre lo que es real y lo que es artificial.