La IA multimodal evoluciona rápidamente para crear sistemas que puedan comprender, crear y replicar utilizando múltiples tipos de datos en el interior de una sola conversación o tarea, como texto, imágenes e incluso video o audio. Se aplazamiento que estos sistemas funcionen a través de diversos formatos de interacción, lo que permite una comunicación más perfecta de Human-AI. Con los usuarios cada vez más atractivos de IA para tareas como el subtítulos de imágenes, la publicación de fotos basadas en texto y las transferencias de estilo, se ha vuelto importante que estos modelos procesen entradas e interactúen a través de modalidades en tiempo efectivo. La frontera de la investigación en este dominio se centra en fusionar capacidades una vez manejadas por modelos separados en sistemas unificados que pueden funcionar con fluidez y precisión.
Un obstáculo importante en esta dominio proviene de la desalineación entre la comprensión semántica basada en el habla y la fidelidad visual requerida en la síntesis o publicación de imágenes. Cuando los modelos separados manejan diferentes modalidades, las expectativas a menudo se vuelven inconsistentes, lo que lleva a una mala coherencia o inexactitudes en tareas que requieren interpretación y procreación. El maniquí visual puede sobresalir en la reproducción de una imagen, pero no puede comprender las instrucciones matizadas detrás de ella. En contraste, el maniquí de idioma podría entender el aviso pero no puede dar forma visualmente. Asimismo existe una preocupación de escalabilidad cuando los modelos están entrenados de forma aislada; Este enfoque exige medios de calcular significativos y esfuerzos de reentrenamiento para cada dominio. La incapacidad de vincular sin problemas la visión y el habla en una experiencia coherente e interactiva sigue siendo uno de los problemas fundamentales para avanzar en los sistemas inteligentes.
En los recientes intentos de cerrar esta brecha, los investigadores han combinado arquitecturas con codificadores visuales fijos y decodificadores separados que funcionan a través de técnicas basadas en difusión. Herramientas como TokenFlow y Janus integran modelos de habla basados en tokens con backends de procreación de imágenes, pero generalmente enfatizan la precisión de los píxeles en la profundidad semántica. Estos enfoques pueden producir contenido visualmente rico, pero a menudo se pierden los matices contextuales de la entrada del afortunado. Otros, como GPT-4O, se han movido en torno a las capacidades nativas de procreación de imágenes, pero aún operan con limitaciones en una comprensión profundamente integrada. La fricción radica en traducir el texto indefinido provoca en imágenes significativas y conscientes del contexto en una interacción fluida sin dividir la tubería en partes desarticuladas.
Investigadores de la IA de inclusión, Ant Group introdujo Ming-lite-uniun situación de código franco diseñado para uniformar el texto y la visión a través de una estructura multimodal autorregresiva. El sistema presenta un maniquí autorregresivo nativo construido sobre un maniquí de habla ínclito fijo y un turbina de imagen de difusión ajustada. Este diseño se fundamento en dos marcos centrales: metaquerías y M2-OMNI. Ming-Lite-UNI presenta un componente progresista de tokens de enseñanza a escalera múltiple, que actúan como unidades visuales interpretables, y una logística de adscripción multiescala correspondiente para perdurar la coherencia entre varias escalas de imagen. Los investigadores proporcionaron todos los pesos e implementación del maniquí abiertamente para apoyar la investigación de la comunidad, posicionando a Ming-Lite-Uni como un prototipo que se mueve en torno a la inteligencia industrial universal.
El mecanismo central detrás del maniquí implica comprimir entradas visuales en secuencias de token estructuradas a través de múltiples escalas, como 4 × 4, 8 × 8 y 16 × 16 parches de imagen, cada uno que representan diferentes niveles de detalle, desde el diseño hasta las texturas. Estos tokens se procesan pegado con los tokens de texto utilizando un transformador autorregresivo ínclito. Cada nivel de resolución está impresionado con tokens de inicio y finalización únicos y codificaciones posicionales personalizadas asignadas. El maniquí emplea una logística de adscripción de representación a múltiples escalera que alinea las características intermedias y de salida a través de una pérdida media de error al cuadrado, lo que garantiza la consistencia entre las capas. Esta técnica aumenta la calidad de la reconstrucción de imágenes en más de 2 dB en PSNR y prosperidad las puntuaciones de evaluación de procreación (Gineval) en un 1,5%. A diferencia de otros sistemas que se vuelven a entrenar todos los componentes, Ming-Lite-Uni mantiene el maniquí de habla congelado y solo ajusta el turbina de imágenes, lo que permite actualizaciones más rápidas y una escalera más válido.
El sistema se probó en varias tareas multimodales, incluida la procreación de texto a imagen, la transferencia de estilo y la publicación detallada de imágenes utilizando instrucciones como «hacer que las ovejas usen quevedos de sol pequeñas» o «eliminar dos de las flores en la imagen». El maniquí manejó estas tareas con ingreso fidelidad y fluidez contextual. Mantuvo una cachas calidad visual incluso cuando se les dio indicaciones abstractas o estilísticas, como el «estilo de Hayao Miyazaki» o «Maravilloso 3D». El conjunto de entrenamiento abarcó más de 2,25 mil millones de muestras, combinando laion-5b (1.55b), Coyo (62m) y cero (151m), suplementado con muestras filtradas de Midjourney (5.4m), Wukong (35m) y otras fuentes web (441m). Adicionalmente, incorporó conjuntos de datos de forúnculo fino para la evaluación estética, incluidas AVA (255k muestras), TAD66K (66K), AESMMIT (21.9K) y APDD (10K), lo que mejoró la capacidad del maniquí para crear resultados visualmente atractivos de acuerdo con las normas estéticas humanas.
El maniquí combina robustez semántica con procreación de imágenes de ingreso resolución en una sola pasada. Logra esto alineando las representaciones de imagen y texto a nivel de token a través de escalas, en emplazamiento de obedecer de una división fija del codificador del codificador. El enfoque permite que los modelos autorregresivos realicen tareas de publicación complejas con orientación contextual, que anteriormente era difícil de obtener. La pérdida de flujo y los marcadores linde específicos de escalera admiten una mejor interacción entre el transformador y las capas de difusión. En universal, el maniquí tiene un raro inmovilidad entre la comprensión del habla y la salida visual, posicionándolo como un paso significativo en torno a los sistemas de IA multimodales prácticos.
Varias conclusiones secreto de la investigación sobre Ming-Lite-Uni:
- Ming-Lite-Uni introdujo una edificio unificada para tareas de visión y habla utilizando modelado autorregresivo.
- Las entradas visuales se codifican utilizando tokens de enseñanza a escalera múltiple (4 × 4, 8 × 8, 16 × 16 resoluciones).
- El sistema mantiene un maniquí de habla congelado y entrena un turbina de imágenes basado en difusión separado.
- Una adscripción de representación a múltiples escalera prosperidad la coherencia, produciendo una prosperidad de más de 2 dB en PSNR y un aumento del 1.5% en Gineval.
- Los datos de capacitación incluyen más de 2.25 mil millones de muestras de fuentes públicas y seleccionadas.
- Las tareas manejadas incluyen procreación de texto a imagen, publicación de imágenes y preguntas y respuestas visuales, todas procesadas con una cachas fluidez contextual.
- La integración de datos de puntuación estética ayuda a crear resultados visualmente agradables consistentes con las preferencias humanas.
- Los pesos e implementación del maniquí son de origen franco, fomentando la replicación y la extensión por parte de la comunidad.
Mira el Papel, Maniquí en la cara abrazada y Página de Github. Adicionalmente, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble jerarquía en IIT Madras, le apasiona aplicar tecnología e IA para asaltar los desafíos del mundo efectivo. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida efectivo.