Imagine que tiene una sola fotografía de una persona y desea verlos cobrar vida en un video, moverse y expresar emociones lógicamente. El postrero maniquí de IA de Bytedance, DreamActor-M1, hace esto posible transformando imágenes estáticas en animaciones dinámicas y realistas. Este artículo explora cómo funciona DreamActor-M1, su diseño técnico y las importantes consideraciones éticas que vienen con una tecnología tan poderosa.
¿Cómo funciona DreamActor-M1?
Piense en Dreamactor-M1 como un animador digital. Utiliza tecnología inteligente para comprender los detalles en una foto, como su cara y su cuerpo. Luego, mira un video de otra persona que se mueve (esto se pira el «video de conducción») y aprende cómo hacer que la persona en la foto se mueva de la misma forma. Esto significa que puede hacer que la persona en la imagen camine, salude o incluso bailable, todo mientras mantiene su aspecto y expresiones únicas.
Dreamactor-M1 se centra en tres grandes problemas con los que los modelos de animación más antiguos lucharon:
- Tacto de control holístico: La animación debe capturar cada parte de la persona, desde expresiones faciales hasta movimiento de cuerpo completo.
- Adaptabilidad multiescala: Debería funcionar perfectamente si la foto es un primer plano de la cara o una toma de cuerpo completo.
- Consistencia a extenso plazo: El video no debe «ver» de ámbito a otro. Los movimientos deben encontrarse suaves y creíbles con el tiempo.
Características principales de DreamActor-M1
Hay 3 técnicas avanzadas que DreamActor-M1 pone en uso:
Sistema de orientación híbrida
DreamActor-M1 combina múltiples señales para habilitar la animación precisa y expresiva:
- Las representaciones faciales sutiles capturan microexpresiones y movimiento facial.
- La persona 3D esferas maniquí orientación y movimiento en la persona en 3 dimensiones.
- Los esqueletos del cuerpo 3D proporcionan orientación de pose de cuerpo completo.
Estos se extraen del video de conducción y se usan como entradas de acondicionamiento para controlar la salida animada, lo que permite resultados realistas.
Adaptabilidad multiescala
Para respaldar la universalización en diferentes tamaños de imagen y escalas corporales:
- El maniquí está entrenado utilizando un conjunto diverso de entradas, incluidos los datos de video centrados en la cara y del cuerpo completo.
- Una logística de entrenamiento progresiva permite la amoldamiento al movimiento gordinflas y fino, manteniendo la consistencia de la apariencia.
Coherencia temporal a extenso plazo
Perseverar una apariencia constante con el tiempo es uno de los principales desafíos en Coexistentes de videos. Dreamactor-M1 aborda esto por:
- Aprovechando los marcos de relato conscientes del movimiento y las características visuales complementarias.
- Predecir no solo los marcos individuales sino asimismo las secuencias con la conciencia temporal completo para evitar parpadeos o fluctuar.
Veamos algunos ejemplos
Estos videos muestran un maniquí de persona parlante generada por IA, capaz de producir animaciones faciales enormemente realistas, sincronización de labios precisa y mapeo de emociones naturales. Utilizando técnicas generativas avanzadas y datos de movimiento, es ideal para personas influyentes virtuales, avatares digitales, chatbots interactivos, juegos y aplicaciones de películas, proporcionando expresiones suaves y convincentes de tipo humano.
Ejemplo 1
Ejemplo 2
Bloque DreamActor-M1
Dreamactor-M1 utiliza cinco partes principales que funcionan juntas para convertir una sola foto en un video en movimiento y realista. Estas partes se dividen en tres grupos en función de lo que hacen:
1. Partes que entienden el movimiento
- Rama de movimiento de la cara: Esta parte mira el video que desea copiar (llamado el Video de conducción) y descubra cómo las expresiones faciales como sonreír, parpadear o murmurar. Convierte estas expresiones en pequeñas piezas de información que el maniquí puede usar para animar la cara.
- Pose Branch: Este rastrea cómo el cuerpo y la persona se mueven en 3D, como rotar la persona, traquetear los brazos o caminar. Rompe estos movimientos en puntos y ángulos para que la IA sepa cómo mover el cuerpo de la persona en el nuevo video.
2. Parte que entiende la apariencia
- ReferenceNet: Esta parte estudia la foto de entrada que desea animar. Descubre cómo se ve la persona: su ropa, peinadoy detalles faciales. Mantiene esta información segura para que la persona siempre se ve igual en cada cuadro del video.
3. Partes que construyen el video
- Procreador de video (transformador de difusión): Este es el motor principal que construye el video. Toma el movimiento facial, la pose del cuerpo y la apariencia fotográfica y reúne todo para crear marcos de video suaves y de aspecto realista. Utiliza un sistema singular que funciona paso a paso, haciendo pequeños cambios hasta que la imagen final se vea actual.
- Unlo de desaparecido resolución (utilizado durante el entrenamiento): El sistema usa este ayudante solo durante la grado de enseñanza del maniquí. Ayuda a la experiencia de la IA trabajando en pequeñas imágenes de último calidad al principio. Una vez que el maniquí termina el entrenamiento, ya no necesita esta parte.
Lea asimismo: Goku AI: ¿Es este el futuro del video generado por IA?
¿Por qué es esto emocionante?
Esta tecnología es como la atractivo para crear películas o videos divertidos. Imagine a los cineastas que lo usan para crear escenas sin carencia de actores para realizar cada argumento. Los investigadores han probado DreamActor-M1 en varios puntos de relato, y supera a los métodos existentes en casi todas las categorías:
- Calidad de la imagen: Produce imágenes más claras y detalladas, anotando mejor en FID, SSIM y PSNR (métricas que miden el realismo y la precisión).
- Sincronización de labios: Sus bocas animadas coinciden con el discurso mejor que los modelos anteriores.
- Estabilidad: Mantiene las apariencias consistentes en los cuadros sin parpadear o movimientos extraños.
Dreamactor-M1 vs otros generadores de videos
Al igual que Dreamactor-M1, Meta’s Moca es otro maniquí de reproducción de imagen a video que ha hato mucha tracción al flamante. Uno y otro modelos toman una sola imagen de entrada y la dan vida utilizando una señal de conducción, como un video o características de movimiento. Su objetivo global es animar los retratos aún de maneras que se sienten naturales y creíbles, haciéndolos directamente comparables. El futuro es una comparación de banda a banda entre los dos modelos:
Característica | Dreamactor-M1 | Moca |
Objetivo principal | Animación de cuerpo completo y cara de una sola imagen | Recreo facial de ingreso precisión |
Tipo de entrada | Imagen simple + Video de conducción | Imagen simple + señales de movimiento o video de conducción |
Calidad de animación facial | Suspensión realismo con sincronización de labios suave y mapeo de emociones | Movimiento facial enormemente detallado, especialmente cerca de de los luceros y la boca |
Soporte de cuerpo completo | Sí – Incluye la persona, los brazos y la pose del cuerpo | No – centrado principalmente en la región facial solo |
Poseer robustez | Maneja perfectamente los grandes cambios de pose y las oclusiones | Sensible a grandes movimientos o vistas laterales |
Método de control de movimiento | Ramas de movimiento dual (expresión facial + pose del cuerpo 3D) | Representación de la cara 3D con codificación consciente de movimiento |
Estilo de renderizado | Representación basada en difusión con consistencia completo | Representación de ingreso detonancia centrada en las regiones de la cara |
Mejor caso de uso | Avatares digitales que hablan, película, animación de personajes | Swaps de cara, recreo, clonación de emociones |
Mientras DreamActor-M1 y Mocha se destacan en áreas sutilmente diferentes, entreambos representan fuertes avances en la reproducción de videos personalizados. Modelos como Sadtalker y Emo asimismo forman parte de este espacio, pero se centran en gran medida en las expresiones faciales, a veces a costa de la fluidez de movimiento. Holotalk es otro maniquí emergente con una resistente precisión de sincronización de labios, pero no ofrece un control de cuerpo completo como DreamActor-M1. Por el contrario, DreamActor-M1 reúne el realismo facial, el movimiento del cuerpo y la adaptabilidad de la planta, lo que lo convierte en una de las soluciones más completas disponibles actualmente.
Consideraciones éticas mientras usa DreamActor-M1
Tan emocionante como DreamActor-M1 es, plantea serias preguntas éticas porque hace videos realistas de una sola foto. Aquí hay algunas preocupaciones esencia:
- Consentimiento y mal uso de identidad: Dreamactor-M1 se puede usar para crear videos de personas sin su conocimiento o permiso. Algún podría animar a un amigo, figura pública o celebridad en un video que nunca han huecograbado.
- Riesgos de Deepfake: El realismo de las futuro de DreamActor-M1 hace que sea difícil diferenciar entre videos generados por IA de imágenes reales. Esta tecnología podría crear dañino fallas (videos falsos) diseñados para engañar o engañar a las personas.
- Escazes de transparencia: Cualquier uso de video generado por IA debe divulgarse claramente al espectador. Esto incluye añadir marcas de agua, renuncias o metadatos digitales que identifican el contenido como sintético. Sin tal transparencia, el conocido puede encargarse erróneamente que el video es auténtico, lo que lleva a la pérdida de confianza.
- Uso responsable en los medios: Las industrias creativas como el cine, los juegos y la animación deben usar la tecnología de forma responsable. Los creadores de contenido, los estudios y las plataformas deben adoptar las mejores prácticas y salvaguardas para evitar el mal uso de la tecnología.
Lea asimismo: ¡Bytedance acaba de hacer videos de IA alucinantes!
Conclusión
Dreamactor-M1 es un gran avance en la animación de IA, y proporciona otro avance en un ya en auge Genai dominio. Combina transformadores de modelado y difusión de movimiento complejos con su rica comprensión visual, para convertir las fotos fijas en videos expresivos y dinámicos. Si perfectamente tiene un potencial creativo, debe estilarse con conciencia y responsabilidad. A medida que la investigación continúa evolucionando, DreamActor-M1 es un resistente ejemplo de cómo la IA puede cerrar el realismo y la creatividad en la producción de medios de próxima reproducción.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.