La inteligencia fabricado ha hecho avances significativos en los últimos primaveras, pero integrar la interacción del deje en tiempo auténtico con el contenido visual sigue siendo un desafío enrevesado. Los sistemas tradicionales a menudo dependen de componentes separados para la detección de actividades de voz, registro de voz, diálogo textual y síntesis de texto a voz. Este enfoque segmentado puede introducir demoras y no capturar los matices de la conversación humana, como emociones o sonidos sin voz. Estas limitaciones son particularmente evidentes en las aplicaciones diseñadas para ayudar a las personas con discapacidad visual, donde las descripciones oportunas y precisas de las escenas visuales son esenciales.
Invadir estos desafíos, Kyutai ha introducido Moshivis, un maniquí de discurso de visión de código franco (VSM) que permite interacciones naturales en el deje en tiempo auténtico sobre imágenes. Sobre la cojín de su trabajo preparatorio con Moshi, un maniquí de cojín de texto de voz diseñado para el diálogo en tiempo auténtico, Moshivis extiende estas capacidades para incluir entradas visuales. Esta mejoramiento permite a los usuarios participar en conversaciones fluidas sobre contenido visual, marcando un avance importante en el incremento de la IA.
Técnicamente, Moshivis aumenta Moshi al integrar módulos de atención cruzada livianas que infunden información visual de un codificador visual existente en la corriente de token de voz de Moshi. Este diseño asegura que las habilidades de conversación originales de Moshi permanezcan intactas al introducir la capacidad de procesar y discutir las entradas visuales. Un mecanismo de activación interiormente de los módulos de atención cruzada permite que el maniquí se involucre selectivamente con los datos visuales, manteniendo la eficiencia y la capacidad de respuesta. En particular, Moshivis agrega aproximadamente 7 milisegundos de latencia por paso de inferencia en dispositivos de jerarquía de consumo, como un Mac Mini con un chip M4 Pro, lo que resulta en un total de 55 milisegundos por paso de inferencia. Esta diligencia se mantiene muy por debajo del principio de 80 milisegundos para la latencia en tiempo auténtico, asegurando interacciones suaves y naturales.

En aplicaciones prácticas, Moshivis demuestra su capacidad para proporcionar descripciones detalladas de escenas visuales a través del deje natural. Por ejemplo, cuando se presenta una imagen que representa estructuras de metales verdes rodeadas de árboles y un edificio con un exógeno cobrizo claro, Moshivis articula:
«Veo dos estructuras de metal verde con una tapa de malla, y están rodeadas de grandes árboles. En el fondo, puedes ver un edificio con un exógeno cobrizo claro y un techo sombrío, que parece estar hecho de piedra».
Esta capacidad abre nuevas vías para aplicaciones, como proporcionar descripciones de audio para la accesibilidad con discapacidad visual, mejorar la accesibilidad y permitir interacciones más naturales con información visual. Al anunciar Moshivis como un tesina de código franco, Kyutai invita a la comunidad de investigación y a los desarrolladores a explorar y expandir esta tecnología, fomentando la innovación en los modelos de voz de visión. La disponibilidad de los pesos del maniquí, el código de inferencia y los puntos de remisión de voz visual respaldan aún más los esfuerzos de colaboración para refinar y diversificar las aplicaciones de Moshivis.
En conclusión, Moshivis representa un avance significativo en la IA, fusionando la comprensión visual con la interacción del deje en tiempo auténtico. Su naturaleza de código franco fomenta la admisión y el incremento generalizado, allanando el camino para interacciones más accesibles y naturales con la tecnología. A medida que AI continúa evolucionando, las innovaciones como Moshivis nos acercan a la integración perfecta de la comprensión multimodal, mejorando las experiencias de los usuarios en varios dominios.
Efectuar el Detalle técnico y Pruébalo aquí. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, siéntete dispensado de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero iluminado, ASIF se compromete a exprimir el potencial de la inteligencia fabricado para el aceptablemente social. Su esfuerzo más nuevo es el divulgación de una plataforma de medios de inteligencia fabricado, MarktechPost, que se destaca por su cobertura profunda de telediario de estudios mecánico y de estudios profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el conocido.