¿Cómo sería una vistazo detrás de espectáculo a un video generado por un maniquí de inteligencia industrial? Puede pensar que el proceso es similar a la animación stop-motion, donde se crean y cosen muchas imágenes, pero ese no es el caso de los «modelos de difusión» como Sora de Openal y VEO 2 de Google.
En zona de producir un video ámbito por ámbito (o «autorregresivo»), estos sistemas procesan toda la secuencia a la vez. El clip resultante a menudo es fotorrealista, pero el proceso es sosegado y no permite cambios en la marcha.
Los científicos del Laboratorio de Informática e Inteligencia Fabricado del MIT (CSAIL) y Adobe Research han desarrollado un enfoque híbrido, llamado «CausVid», para crear videos en segundos. Al igual que un estudiante de ingenio rápido que aprende de un pedagogo correctamente versado, un maniquí de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el ulterior cuadro al tiempo que garantiza una suscripción calidad y consistencia. El maniquí de estudiante de CausVid puede ocasionar clips a partir de un mensaje de texto simple, convirtiendo una foto en una espectáculo móvil, extendiendo un video o alterando sus creaciones con nuevas entradas a fracción de la vivientes.
Esta aparejo dinámica permite la creación rápida de contenido interactivo, reduciendo un proceso de 50 pasos en solo unas pocas acciones. Puede crear muchas escenas imaginativas y artísticas, como un avión de papel que se transforma en un cisne, mamuts lanudos que se aventuran a través de la cocaína o un escuincle que salta en un charco. Los usuarios incluso pueden hacer un aviso auténtico, como «Crear a un hombre cruzando la calle» y luego hacer entradas de seguimiento para añadir nuevos fundamentos a la espectáculo, como «escribe en su cuaderno cuando llega a la orilla opuesta».
Un video producido por CausVid ilustra su capacidad para crear contenido suave y de suscripción calidad.
Animación generada por IA cortesía de los investigadores.
Los investigadores de CSAIL dicen que el maniquí podría estar de moda para diferentes tareas de estampación de video, como ayudar a los espectadores a comprender una transmisión en vivo en un habla diferente al ocasionar un video que se sincroniza con una traducción de audio. Incluso podría ayudar a representar contenido nuevo en un videojuego o producir rápidamente simulaciones de entrenamiento para enseñar a los robots nuevas tareas.
Tianwei Yin SM ’25, PhD ’25, un estudiante recientemente titulado en ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la fuerza del maniquí a su enfoque fósforo.
«CausVid combina un maniquí basado en difusión previamente capacitado con una edificación autorregresiva que se encuentra típicamente en los modelos de vivientes de texto», dice Yin, co-líder de un nuevo papel sobre la aparejo. «Este maniquí de pedagogo impulsado por IA puede imaginar pasos futuros para capacitar a un sistema de cuadro por cuadro para evitar cometer errores de renderizado».
El co-líder de Yin, Qiang Zhang, es un comprobado investigador de XAI y un ex investigador visitante de CSAIL. Trabajaron en el plan con los científicos de investigación de Adobe Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Bill Freeman y Frédo Durand.
Causa (vid) y intención
Muchos modelos autorregresivos pueden crear un video que inicialmente es suave, pero la calidad tiende a caer más delante en la secuencia. Un clip de una persona que se ejecuta puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones antinaturales, lo que indica inconsistencias de ámbito a ámbito (incluso llamadas «acumulación de errores»).
La vivientes de video propensa a errores fue global en los enfoques causales anteriores, que aprendieron a predecir los marcos uno por uno por su cuenta. En su zona, CausVid utiliza un maniquí de difusión de suscripción potencia para enseñar a un sistema más simple su experiencia en video caudillo, lo que le permite crear imágenes suaves, pero mucho más rápido.
CausVid permite una creación de video rápida e interactiva, cortando un proceso de 50 pasos en solo unas pocas acciones.
Video cortesía de los investigadores.
CausVid mostró su aptitud en video cuando los investigadores probaron su capacidad para hacer videos de suscripción resolución de 10 segundos de generoso. Superó a las líneas de almohadilla como «Opensora» y «Cine«Trabajando hasta 100 veces más rápido que su competencia mientras producía los clips más estables y de suscripción calidad.
Luego, Yin y sus colegas probaron la capacidad de CausVid para divulgar videos estables de 30 segundos, donde incluso encabezó modelos comparables en calidad y consistencia. Estos resultados indican que CausVid puede eventualmente producir videos estables, horas, o incluso una duración indefinida.
Un estudio posterior reveló que los usuarios prefirieron los videos generados por el maniquí de estudiante de CausVid sobre su pedagogo basado en la difusión.
«La velocidad del maniquí autorregresivo verdaderamente marca la diferencia», dice Yin. «Sus videos se ven tan correctamente como los del pedagogo, pero con menos tiempo para producir, la compensación es que sus imágenes son menos diversas».
CausVid incluso se destacó cuando se probó en más de 900 indicaciones utilizando un conjunto de datos de texto a video, recibiendo el puntaje caudillo superior de 84.27. Jactaba las mejores métricas en categorías como la calidad de las imágenes y las acciones humanas realistas, eclipsando modelos de vivientes de videos de última vivientes como «Vchitect» y «Gen-3.«
Si correctamente un paso válido en la vivientes de videos de IA, CausVid pronto puede diseñar imágenes incluso más rápido, tal vez al instante, con una edificación causal más pequeña. Yin dice que si el maniquí está entrenado en conjuntos de datos específicos de dominio, es probable que cree clips de longevo calidad para robótica y juegos.
Los expertos dicen que este sistema híbrido es una aggiornamento prometedora de los modelos de difusión, que actualmente están empantanados por las velocidades de procesamiento. «(Los modelos de difusión) son mucho más lentos que las LLM (modelos de idiomas grandes) o los modelos de imágenes generativas», dice el profesor asistente de la Universidad de Carnegie Mellon, Jun-Yan Zhu, quien no participó en el documento. «Este nuevo trabajo cambia que, haciendo que la vivientes de videos sea mucho más válido. Eso significa una mejor velocidad de transmisión, aplicaciones más interactivas y huellas de carbono más bajas».
El trabajo del equipo fue apoyado, en parte, por el Amazon Science Hub, el Instituto de Ciencia y Tecnología Gwangju, Adobe, Google, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU., Y el Acelerador de Inteligencia Fabricado de la Fuerza Aérea de los Estados Unidos. CausVid se presentará en la conferencia sobre visión por computadora y registro de patrones en junio.