Gen de la pista - Cámara de vídeo Co., Ltd de Chengdu

En una entrevista de panel reciente con Collider, Joe Russo, el director de películas taquilleras de Marvel como "Avengers: Endgame", predijo que, dentro de dos años, la IA podrá crear una película completa.

Diría que es una línea de tiempo bastante optimista. Pero nos estamos acercando.

Esta semana, Runway, una startup de IA respaldada por Google que ayudó a desarrollar el generador de imágenes de IA Stable Diffusion, lanzó Gen-2, un modelo que genera videos a partir de indicaciones de texto o una imagen existente. (Gen-2 anteriormente tenía acceso limitado y en lista de espera). El seguimiento del modelo Gen-1 de Runway lanzado en febrero, Gen-2 es uno de los primeros modelos de texto a video disponibles comercialmente.

"Disponible comercialmente" es una distinción importante. El texto a video, siendo la siguiente frontera lógica en la IA generativa después de las imágenes y el texto, se está convirtiendo en un área de enfoque más grande, particularmente entre los gigantes tecnológicos, varios de los cuales han realizado demostraciones de modelos de texto a video durante el último año. Pero esos modelos permanecen firmemente en las etapas de investigación, inaccesibles para todos, excepto para unos pocos científicos e ingenieros de datos seleccionados.

Por supuesto, primero no es necesariamente mejor.

Por curiosidad personal y servicio a ustedes, queridos lectores, realicé algunas indicaciones a través de Gen-2 para tener una idea de lo que el modelo puede y no puede lograr. (Actualmente, Runway proporciona alrededor de 100 segundos de generación de video gratis). No había mucho método para mi locura, pero traté de capturar una variedad de ángulos, géneros y estilos que a un director, profesional o sillón, le gustaría ver. en la pantalla plateada, o una computadora portátil, según sea el caso.

Una limitación de Gen-2 que se hizo evidente de inmediato es la velocidad de fotogramas de los videos de cuatro segundos de duración que genera el modelo. Es bastante bajo y notablemente, hasta el punto en que es casi como una presentación de diapositivas en algunos lugares.

Créditos de imagen:Pista

Lo que no está claro es si se trata de un problema con la tecnología o de un intento de Runway de ahorrar en costos informáticos. En cualquier caso, hace que Gen-2 sea una propuesta bastante poco atractiva para los editores que esperan evitar el trabajo de posproducción.

Más allá del problema de la velocidad de fotogramas, descubrí que los clips generados por Gen-2 tienden a compartir cierta granulosidad o borrosidad en común, como si se les hubiera aplicado algún tipo de filtro de Instagram antiguo. También se producen otros artefactos en algunos lugares, como la pixelación alrededor de los objetos cuando la "cámara" (a falta de una palabra mejor) los rodea o se acerca rápidamente a ellos.

Al igual que con muchos modelos generativos, Gen-2 tampoco es particularmente consistente con respecto a la física o la anatomía. Como algo evocado por un surrealista, los brazos y las piernas de las personas en los videos producidos por Gen-2 se fusionan y se separan nuevamente mientras los objetos se derriten en el piso y desaparecen, sus reflejos se deforman y distorsionan. Y, dependiendo del mensaje, las caras pueden parecer muñecas, con ojos brillantes y sin emociones y una piel pálida que evoca un plástico barato.

Créditos de imagen:Pista

Para colmo, está el tema del contenido. Gen-2 parece tener dificultades para comprender los matices, aferrándose a descriptores particulares en las indicaciones mientras ignora a otros, aparentemente al azar.

Créditos de imagen:Pista

Una de las indicaciones que probé, "Un video de una utopía submarina, filmado con una cámara vieja, al estilo de una película de 'metraje encontrado', no produjo tal utopía, solo lo que parecía una inmersión en primera persona a través de un arrecife de coral anónimo Gen-2 también tuvo problemas con mis otros mensajes, no pudo generar una toma de acercamiento para un mensaje que pedía específicamente un "zoom lento" y no lograba el aspecto de su astronauta promedio.

¿Podrían los problemas estar relacionados con el conjunto de datos de entrenamiento de Gen-2? Tal vez.

Gen-2, como Stable Diffusion, es un modelo de difusión, lo que significa que aprende a restar gradualmente el ruido de una imagen inicial hecha completamente de ruido para acercarla, paso a paso, al indicador. Los modelos de difusión aprenden a través del entrenamiento en millones o miles de millones de ejemplos; en un artículo académico que detalla la arquitectura de Gen-2, Runway dice que el modelo fue entrenado en un conjunto de datos internos de 240 millones de imágenes y 6,4 millones de videoclips.

La diversidad en los ejemplos es clave. Si el conjunto de datos no contiene mucho metraje de, por ejemplo, animación, el modelo, al carecer de puntos de referencia, no podrá generar animaciones de calidad razonable. (Por supuesto, la animación es un campo amplio, incluso si el conjunto de datos tuviera clips de anime o animación dibujada a mano, el modelo no necesariamente se generalizaría bien a todos los tipos de animación).

Créditos de imagen:Pista

En el lado positivo, Gen-2 pasa una prueba de sesgo a nivel de superficie. Si bien se ha descubierto que los modelos generativos de IA como DALL-E 2 refuerzan los sesgos sociales, generando imágenes de puestos de autoridad, como "CEO o "director", que representan en su mayoría a hombres blancos, Gen-2 fue un poquito más diverso en el contenido. generó, al menos en mis pruebas.

Créditos de imagen:Pista

Alimentado con el aviso "Un video de un CEO entrando a una sala de conferencias", Gen-2 generó un video de hombres y mujeres (aunque más hombres que mujeres) sentados alrededor de algo así como una mesa de conferencias. Mientras tanto, el resultado del mensaje "Un video de un médico trabajando en una oficina" muestra a una doctora de apariencia vagamente asiática detrás de un escritorio.

Sin embargo, los resultados de cualquier indicación que contuviera la palabra "enfermera" fueron menos prometedores y mostraron constantemente mujeres blancas jóvenes. Lo mismo ocurre con la frase "una persona que sirve mesas". Evidentemente, hay trabajo por hacer.

La conclusión de todo esto, para mí, es que Gen-2 es más una novedad o un juguete que una herramienta realmente útil en cualquier flujo de trabajo de video. ¿Se podrían editar los resultados en algo más coherente? Tal vez. Pero dependiendo del video, requeriría potencialmente más trabajo que filmar imágenes en primer lugar.

Eso no es ser demasiado desdeñoso con la tecnología. Es impresionante lo que Runway ha hecho aquí, venciendo efectivamente a los gigantes tecnológicos en el golpe de texto a video. Y estoy seguro de que algunos usuarios encontrarán usos para Gen-2 que no requieren fotorrealismo, o mucha personalización. (El CEO de Runway, Cristóbal Valenzuela, le dijo recientemente a Bloomberg que ve a Gen-2 como una forma de ofrecer a los artistas y diseñadores una herramienta que puede ayudarlos con sus procesos creativos).

Créditos de imagen:Pista

yo mismo lo hice De hecho, Gen-2 puede comprender una variedad de estilos, como anime y plastilina, que se prestan a la velocidad de fotogramas más baja. Con un poco de trabajo de manipulación y edición, no sería imposible unir algunos clips para crear una pieza narrativa.

Para que no le preocupe el potencial de las falsificaciones profundas, Runway dice que está utilizando una combinación de inteligencia artificial y moderación humana para evitar que los usuarios generen videos que incluyan pornografía, contenido violento o que violen los derechos de autor. Puedo confirmar que hay un filtro de contenido, uno demasiado entusiasta de hecho. Pero, por supuesto, esos no son métodos infalibles, por lo que tendremos que ver qué tan bien funcionan en la práctica.

Créditos de imagen:Pista

Pero al menos por ahora, los cineastas, animadores y artistas CGI y especialistas en ética pueden estar tranquilos. Pasarán al menos un par de iteraciones más adelante antes de que la tecnología de Runway se acerque a generar imágenes con calidad de película, suponiendo que alguna vez llegue allí.

Créditos de imagen: Créditos de imagen: Créditos de imagen: Créditos de imagen: Créditos de imagen: Créditos de imagen: Créditos de imagen: