Athrun Data Intelligence


Este artículo presenta Present-o, un modelo de transformador unificado que integra capacidades de comprensión y generación multimodal dentro de una única arquitectura. A medida que avanza la inteligencia synthetic, ha habido un progreso significativo en la comprensión multimodal (por ejemplo, la respuesta a preguntas visuales) y la generación (por ejemplo, la síntesis de texto a imagen) por separado. Sin embargo, unificar estas capacidades en un modelo sigue siendo un desafío. Present-o aborda este problema combinando de manera innovadora técnicas de modelado de difusión discreta y autorregresiva, lo que le permite manejar modalidades de texto e imagen de manera efectiva.

Los enfoques actuales de la IA multimodal suelen implicar modelos separados para las tareas de comprensión y generación. Por ejemplo, modelos como LLaVA destacan en la comprensión multimodal, mientras que los modelos de difusión como Steady Diffusion se centran en la generación de imágenes. Algunos intentos recientes de unificación, como NExT-GPT, utilizan componentes separados para diferentes tareas. En cambio, los investigadores proponen Present-o, un único transformador que unifica ambas capacidades. Present-o se basa en un modelo de lenguaje grande (LLM) previamente entrenado e incorpora modelado de texto autorregresivo y difusión discreta de eliminación de ruido para imágenes. Esto le permite manejar diversos tipos de entrada y generar varias salidas, incluidas respuestas de texto, fotos y contenido de modalidad mixta.

La arquitectura de Present-o se basa en los LLM existentes, pero incorpora una operación QK-Norm en cada capa de atención. Utiliza una estrategia de solicitud unificada para dar formato a varios tipos de entrada, lo que permite un manejo sin problemas de datos multimodales. El modelo emplea un mecanismo de «atención omnipresente» que aplica atención causal a los tokens de texto y atención complete a los tokens de imagen, lo que permite un procesamiento eficiente de ambas modalidades. El proceso de entrenamiento de Present-o consta de tres etapas. Inicialmente, el modelo aprende las incrustaciones de tokens de imagen y las dependencias de píxeles. A esto le sigue la alineación de imágenes y texto para tareas de comprensión y generación. Finalmente, el modelo se somete a un ajuste fino con datos de alta calidad para mejorar su rendimiento.

Present-o demuestra un rendimiento impresionante en varios puntos de referencia. Las tareas de comprensión multimodal logran resultados comparables o superiores a los de los modelos especializados a pesar de tener menos parámetros. Por ejemplo, en el punto de referencia VQAv2, Present-o supera a los modelos unificados más grandes como NExT-GPT y Chameleon. En la generación de imágenes, el modelo logra una puntuación FID competitiva de 9,24 en el conjunto de datos MSCOCO 30K, superando a algunos modelos más grandes entrenados en conjuntos de datos más extensos. A pesar de su menor tamaño, el punto de referencia GenEval para la generación de texto a imagen tiene un rendimiento comparable o mejor que los modelos especializados como SDXL y SD3. Además, exhibe capacidades en tareas posteriores como la extrapolación y la inserción de imágenes guiadas por texto sin necesidad de realizar ajustes finos. También muestra potencial para la generación de modalidades mixtas, como la creación de fotogramas clave de vídeo con las descripciones de texto correspondientes.

Present-o representa un avance significativo en la IA multimodal al unificar las capacidades de comprensión y generación dentro de una única y eficiente arquitectura de transformador. A pesar de su tamaño relativamente pequeño, su capacidad para lograr un rendimiento comparable o superior al de los modelos especializados en diversas tareas resalta su potencial como modelo de base versátil para aplicaciones de IA multimodal. La integración de técnicas de modelado de difusión discreta y autorregresiva permite a Present-o manejar diferentes modalidades de manera distinta pero cohesiva. Este enfoque simplifica la arquitectura del modelo y permite nuevas posibilidades en tareas de modalidad mixta y aplicaciones posteriores eficientes.

Si bien aún existen áreas de mejora, como el reconocimiento de texto y el conteo de objetos, el rendimiento y la versatilidad de Present-o lo convierten en un paso prometedor hacia sistemas de IA más integrados y capaces. A medida que continúe la investigación en esta dirección, es posible que veamos modelos unificados aún más potentes que puedan comprender y generar sin problemas en múltiples modalidades, lo que podría revolucionar varios campos de aplicación de la IA.


Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario internet muy recomendado por nuestro patrocinador: ‘Desbloquee el poder de sus datos de Snowflake con LLM’


Shreya Maji es pasante de consultoría en MarktechPost. Estudió su licenciatura en el Instituto Indio de Tecnología (IIT) en Bhubaneswar. Es una entusiasta de la inteligencia synthetic y le gusta mantenerse al día de los últimos avances. Shreya está particularmente interesada en las aplicaciones reales de la tecnología de vanguardia, especialmente en el campo de la ciencia de datos.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *