El incremento de modelos de lenguajes grandes multimodales (MLLM) ha brindado nuevas oportunidades en inteligencia químico. Sin secuestro, persisten desafíos importantes en la integración de las modalidades visual, gramática y del acento. Si adecuadamente muchos MLLM funcionan adecuadamente con la visión y el texto, la incorporación del acento sigue siendo un obstáculo. El acento, un medio natural para la interacción humana, juega un papel esencial en los sistemas de diálogo, sin secuestro, las diferencias entre las modalidades (representaciones de datos espaciales contra temporales) crean conflictos durante el entrenamiento. Los sistemas tradicionales que dependen de módulos separados de inspección forzoso de voz (ASR) y de texto a voz (TTS) suelen ser lentos y poco prácticos para aplicaciones en tiempo verdadero.
Investigadores de NJU, Tencent Youtu Lab, XMU y CASIA han presentado VITA-1.5, un maniquí multimodal de jerigonza sobresaliente que integra visión, jerigonza y acento a través de una metodología de entrenamiento de tres etapas cuidadosamente diseñada. A diferencia de su predecesor, VITA-1.0, que dependía de módulos TTS externos, VITA-1.5 emplea un situación de trabajo de extremo a extremo, lo que reduce la latencia y agiliza la interacción. El maniquí incorpora codificadores de visión y voz adjunto con un decodificador de voz, lo que permite interacciones casi en tiempo verdadero. A través de un entrenamiento multimodal progresivo, aborda los conflictos entre modalidades manteniendo el rendimiento. Los investigadores incluso han puesto a disposición del notorio el código de formación e inferencia, fomentando la innovación en el campo.
Detalles técnicos y beneficios
VITA-1.5 está diseñado para equilibrar eficiencia y capacidad. Utiliza codificadores de visión y audio, empleando parches dinámicos para entradas de imágenes y técnicas de reducción de resolución para audio. El decodificador de voz combina métodos no autorregresivos (NAR) y autorregresivos (AR) para certificar una concepción de voz fluida y de adhesión calidad. El proceso de formación se divide en tres etapas:
- Entrenamiento Visión-Idioma: Esta etapa se centra en la vinculación y la comprensión de la visión, utilizando subtítulos descriptivos y tareas de respuesta visual a preguntas (QA) para establecer una conexión entre las modalidades visuales y lingüísticas.
- Sintonización de entrada de audio: El codificador de audio está en formación con el maniquí de jerigonza utilizando datos de transcripción de voz, lo que permite un procesamiento de entrada de audio efectivo.
- Sintonización de salida de audio: El decodificador de voz está entrenado con datos emparejados texto-voz, lo que permite panorama de voz coherentes e interacciones fluidas de voz a voz.

Estas estrategias abordan eficazmente los conflictos de modalidad, lo que permite a VITA-1.5 manejar datos de imágenes, videos y voz sin problemas. El enfoque integrado mejoramiento su usabilidad en tiempo verdadero, eliminando cuellos de botella comunes en los sistemas tradicionales.
Resultados y conocimientos
Las evaluaciones de VITA-1.5 en varios puntos de narración demuestran sus sólidas capacidades. El maniquí se desempeña de guisa competitiva en tareas de comprensión de imágenes y videos, logrando resultados comparables a los principales modelos de código libre. Por ejemplo, en puntos de narración como MMBench y MMStar, las capacidades de visión y jerigonza de VITA-1.5 están a la par de modelos propietarios como GPT-4V. Adicionalmente, destaca en tareas de acento, logrando bajas tasas de error de caracteres (CER) en mandarín y tasas de error de palabras (WER) en inglés. Es importante destacar que la inclusión del procesamiento de audio no compromete sus capacidades de razonamiento visual. El desempeño consistente del maniquí en todas las modalidades resalta su potencial para aplicaciones prácticas.

Conclusión
VITA-1.5 representa un enfoque juicioso para resolver los desafíos de la integración multimodal. Al invadir los conflictos entre la visión, el jerigonza y las modalidades del acento, ofrece una alternativa coherente y eficaz para interacciones en tiempo verdadero. Su disponibilidad de código libre garantiza que los investigadores y desarrolladores puedan usar sus bases, avanzando en el campo de la IA multimodal. VITA-1.5 no sólo mejoramiento las capacidades actuales sino que incluso apunta alrededor de un futuro más integrado e interactivo para los sistemas de IA.
Comprobar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este esquema. Adicionalmente, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información ejercicio para mejorar el rendimiento y la precisión del maniquí LLM y, al mismo tiempo, proteger la privacidad de los datos..
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el educación forzoso, y aporta una sólida formación académica y experiencia ejercicio en la resolución de desafíos interdisciplinarios de la vida verdadero.