Cómo el DreamActor-M1 de Bytedance convierte las fotos en videos

Imagine que tiene una sola fotografía de una persona y desea verlos cobrar vida en un video, moverse y expresar emociones lógicamente. El postrero maniquí de IA de Bytedance, DreamActor-M1, hace esto posible transformando imágenes estáticas en animaciones dinámicas y realistas. Este artículo explora cómo funciona DreamActor-M1, su diseño técnico y las importantes consideraciones éticas que vienen con una tecnología tan poderosa.

¿Cómo funciona DreamActor-M1?

Piense en Dreamactor-M1 como un animador digital. Utiliza tecnología inteligente para comprender los detalles en una foto, como su cara y su cuerpo. Luego, mira un video de otra persona que se mueve (esto se pira el «video de conducción») y aprende cómo hacer que la persona en la foto se mueva de la misma forma. Esto significa que puede hacer que la persona en la imagen camine, salude o incluso bailable, todo mientras mantiene su aspecto y expresiones únicas.

Dreamactor-M1 se centra en tres grandes problemas con los que los modelos de animación más antiguos lucharon:

Tacto de control holístico: La animación debe capturar cada parte de la persona, desde expresiones faciales hasta movimiento de cuerpo completo.
Adaptabilidad multiescala: Debería funcionar perfectamente si la foto es un primer plano de la cara o una toma de cuerpo completo.
Consistencia a extenso plazo: El video no debe «ver» de ámbito a otro. Los movimientos deben encontrarse suaves y creíbles con el tiempo.

Características principales de DreamActor-M1

Hay 3 técnicas avanzadas que DreamActor-M1 pone en uso:

Sistema de orientación híbrida

DreamActor-M1 combina múltiples señales para habilitar la animación precisa y expresiva:

Las representaciones faciales sutiles capturan microexpresiones y movimiento facial.
La persona 3D esferas maniquí orientación y movimiento en la persona en 3 dimensiones.
Los esqueletos del cuerpo 3D proporcionan orientación de pose de cuerpo completo.

Estos se extraen del video de conducción y se usan como entradas de acondicionamiento para controlar la salida animada, lo que permite resultados realistas.

Adaptabilidad multiescala

Para respaldar la universalización en diferentes tamaños de imagen y escalas corporales:

El maniquí está entrenado utilizando un conjunto diverso de entradas, incluidos los datos de video centrados en la cara y del cuerpo completo.
Una logística de entrenamiento progresiva permite la amoldamiento al movimiento gordinflas y fino, manteniendo la consistencia de la apariencia.

Coherencia temporal a extenso plazo

Perseverar una apariencia constante con el tiempo es uno de los principales desafíos en Coexistentes de videos. Dreamactor-M1 aborda esto por:

Aprovechando los marcos de relato conscientes del movimiento y las características visuales complementarias.
Predecir no solo los marcos individuales sino asimismo las secuencias con la conciencia temporal completo para evitar parpadeos o fluctuar.

Veamos algunos ejemplos

Estos videos muestran un maniquí de persona parlante generada por IA, capaz de producir animaciones faciales enormemente realistas, sincronización de labios precisa y mapeo de emociones naturales. Utilizando técnicas generativas avanzadas y datos de movimiento, es ideal para personas influyentes virtuales, avatares digitales, chatbots interactivos, juegos y aplicaciones de películas, proporcionando expresiones suaves y convincentes de tipo humano.

Ejemplo 1

Ejemplo 2

Encuentra más ejemplos aquí.

Bloque DreamActor-M1

Dreamactor-M1 utiliza cinco partes principales que funcionan juntas para convertir una sola foto en un video en movimiento y realista. Estas partes se dividen en tres grupos en función de lo que hacen:

1. Partes que entienden el movimiento

Rama de movimiento de la cara: Esta parte mira el video que desea copiar (llamado el Video de conducción) y descubra cómo las expresiones faciales como sonreír, parpadear o murmurar. Convierte estas expresiones en pequeñas piezas de información que el maniquí puede usar para animar la cara.
Pose Branch: Este rastrea cómo el cuerpo y la persona se mueven en 3D, como rotar la persona, traquetear los brazos o caminar. Rompe estos movimientos en puntos y ángulos para que la IA sepa cómo mover el cuerpo de la persona en el nuevo video.

2. Parte que entiende la apariencia

ReferenceNet: Esta parte estudia la foto de entrada que desea animar. Descubre cómo se ve la persona: su ropa, peinadoy detalles faciales. Mantiene esta información segura para que la persona siempre se ve igual en cada cuadro del video.

3. Partes que construyen el video

Procreador de video (transformador de difusión): Este es el motor principal que construye el video. Toma el movimiento facial, la pose del cuerpo y la apariencia fotográfica y reúne todo para crear marcos de video suaves y de aspecto realista. Utiliza un sistema singular que funciona paso a paso, haciendo pequeños cambios hasta que la imagen final se vea actual.
Unlo de desaparecido resolución (utilizado durante el entrenamiento): El sistema usa este ayudante solo durante la grado de enseñanza del maniquí. Ayuda a la experiencia de la IA trabajando en pequeñas imágenes de último calidad al principio. Una vez que el maniquí termina el entrenamiento, ya no necesita esta parte.

Lea asimismo: Goku AI: ¿Es este el futuro del video generado por IA?

¿Por qué es esto emocionante?

Esta tecnología es como la atractivo para crear películas o videos divertidos. Imagine a los cineastas que lo usan para crear escenas sin carencia de actores para realizar cada argumento. Los investigadores han probado DreamActor-M1 en varios puntos de relato, y supera a los métodos existentes en casi todas las categorías:

Calidad de la imagen: Produce imágenes más claras y detalladas, anotando mejor en FID, SSIM y PSNR (métricas que miden el realismo y la precisión).
Sincronización de labios: Sus bocas animadas coinciden con el discurso mejor que los modelos anteriores.
Estabilidad: Mantiene las apariencias consistentes en los cuadros sin parpadear o movimientos extraños.

Dreamactor-M1 vs otros generadores de videos

Al igual que Dreamactor-M1, Meta’s Moca es otro maniquí de reproducción de imagen a video que ha hato mucha tracción al flamante. Uno y otro modelos toman una sola imagen de entrada y la dan vida utilizando una señal de conducción, como un video o características de movimiento. Su objetivo global es animar los retratos aún de maneras que se sienten naturales y creíbles, haciéndolos directamente comparables. El futuro es una comparación de banda a banda entre los dos modelos:

Característica	Dreamactor-M1	Moca
Objetivo principal	Animación de cuerpo completo y cara de una sola imagen	Recreo facial de ingreso precisión
Tipo de entrada	Imagen simple + Video de conducción	Imagen simple + señales de movimiento o video de conducción
Calidad de animación facial	Suspensión realismo con sincronización de labios suave y mapeo de emociones	Movimiento facial enormemente detallado, especialmente cerca de de los luceros y la boca
Soporte de cuerpo completo	Sí – Incluye la persona, los brazos y la pose del cuerpo	No – centrado principalmente en la región facial solo
Poseer robustez	Maneja perfectamente los grandes cambios de pose y las oclusiones	Sensible a grandes movimientos o vistas laterales
Método de control de movimiento	Ramas de movimiento dual (expresión facial + pose del cuerpo 3D)	Representación de la cara 3D con codificación consciente de movimiento
Estilo de renderizado	Representación basada en difusión con consistencia completo	Representación de ingreso detonancia centrada en las regiones de la cara
Mejor caso de uso	Avatares digitales que hablan, película, animación de personajes	Swaps de cara, recreo, clonación de emociones

Mientras DreamActor-M1 y Mocha se destacan en áreas sutilmente diferentes, entreambos representan fuertes avances en la reproducción de videos personalizados. Modelos como Sadtalker y Emo asimismo forman parte de este espacio, pero se centran en gran medida en las expresiones faciales, a veces a costa de la fluidez de movimiento. Holotalk es otro maniquí emergente con una resistente precisión de sincronización de labios, pero no ofrece un control de cuerpo completo como DreamActor-M1. Por el contrario, DreamActor-M1 reúne el realismo facial, el movimiento del cuerpo y la adaptabilidad de la planta, lo que lo convierte en una de las soluciones más completas disponibles actualmente.

Consideraciones éticas mientras usa DreamActor-M1

Tan emocionante como DreamActor-M1 es, plantea serias preguntas éticas porque hace videos realistas de una sola foto. Aquí hay algunas preocupaciones esencia:

Consentimiento y mal uso de identidad: Dreamactor-M1 se puede usar para crear videos de personas sin su conocimiento o permiso. Algún podría animar a un amigo, figura pública o celebridad en un video que nunca han huecograbado.
Riesgos de Deepfake: El realismo de las futuro de DreamActor-M1 hace que sea difícil diferenciar entre videos generados por IA de imágenes reales. Esta tecnología podría crear dañino fallas (videos falsos) diseñados para engañar o engañar a las personas.
Escazes de transparencia: Cualquier uso de video generado por IA debe divulgarse claramente al espectador. Esto incluye añadir marcas de agua, renuncias o metadatos digitales que identifican el contenido como sintético. Sin tal transparencia, el conocido puede encargarse erróneamente que el video es auténtico, lo que lleva a la pérdida de confianza.
Uso responsable en los medios: Las industrias creativas como el cine, los juegos y la animación deben usar la tecnología de forma responsable. Los creadores de contenido, los estudios y las plataformas deben adoptar las mejores prácticas y salvaguardas para evitar el mal uso de la tecnología.

Lea asimismo: ¡Bytedance acaba de hacer videos de IA alucinantes!

Conclusión

Dreamactor-M1 es un gran avance en la animación de IA, y proporciona otro avance en un ya en auge Genai dominio. Combina transformadores de modelado y difusión de movimiento complejos con su rica comprensión visual, para convertir las fotos fijas en videos expresivos y dinámicos. Si perfectamente tiene un potencial creativo, debe estilarse con conciencia y responsabilidad. A medida que la investigación continúa evolucionando, DreamActor-M1 es un resistente ejemplo de cómo la IA puede cerrar el realismo y la creatividad en la producción de medios de próxima reproducción.

Me especializo en revisar y refinar la investigación impulsada por la IA, la documentación técnica y el contenido relacionado con las tecnologías de IA emergentes. Mi experiencia zapatilla la capacitación del maniquí de IA, el disección de datos y la recuperación de información, lo que me permite crear contenido que es técnicamente preciso y accesible.

Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.

Etiquetado ByteDance, Cómo, convierte, DreamActorM1, fotos, las, videos