Kyutai libera 2B de parámetros de transmisión de texto a voz TTS con latencia de 220 ms y 2.5m horas de entrenamiento

Kyutai, un laboratorio de investigación de IA destapado, ha publicado un maniquí renovador de transmisión de texto a voz (TTS) con ~ 2 mil millones de parámetros. Diseñado para la capacidad de respuesta en tiempo existente, este maniquí ofrece una engendramiento de audio de latencia exaltado disminución (220 milisegundos) mientras mantiene una adhesión fidelidad. Está capacitado en 2.5 millones de horas de audio sin precedentes y tiene atrevimiento bajo el permisivo CC-by-4.0, reforzando el compromiso de Kyutai con la tolerancia y la reproducibilidad. Este avance redefine la eficiencia y la accesibilidad de los modelos de engendramiento de voz a gran escalera, particularmente para la implementación de bordes y la IA agente.

Desempacar el rendimiento: latencia de sub-350 ms para 32 usuarios concurrentes en una sola GPU L40

La capacidad de transmisión del maniquí es su característica más distintiva. En una sola GPU NVIDIA L40, el sistema puede servir hasta 32 usuarios concurrentes mientras mantiene la latencia por debajo de los 350 ms. Para uso individual, el maniquí mantiene una latencia de engendramiento tan disminución como 220 ms, lo que permite aplicaciones casi en tiempo existente como agentes de conversación, asistentes de voz y sistemas de narración en vivo. Este rendimiento se habilita a través del nuevo enfoque de modelado de transmisiones retrasadas de Kyutai, que permite que el maniquí genere el acento de forma incremental a medida que llega el texto.

Métricas técnicas esencia:

Tamaño del maniquí: ~ Parámetros 2b
Datos de capacitación: 2.5 millones de horas de acento
Estado recóndito: 220ms de un solo beneficiario, <350 ms con 32 usuarios en una GPU L40
Soporte lingüístico: Inglés y francés
Deshonestidad: Cc-by-4.0 (código destapado)

Modelado de transmisiones retrasadas: casa de capacidad de respuesta en tiempo existente

La innovación de Kyutai está anclada en el modelado de transmisiones retrasadas, una técnica que permite que la síntesis del acento comience ayer de que esté habitable el texto de entrada completa. Este enfoque está diseñado específicamente para equilibrar la calidad de la predicción con la velocidad de respuesta, lo que permite TTS de transmisión de suspensión rendimiento. A diferencia de los modelos autorregresivos convencionales que sufren un retraso de respuesta, esta casa mantiene la coherencia temporal al tiempo que alcanza la síntesis de tiempo más rápido que existente.

La récipe de la cojín de código y la capacitación para esta casa están disponibles en Kyutai’s Repositorio de Githubapoyando la reproducibilidad total y las contribuciones comunitarias.

Disponibilidad del maniquí y compromiso de investigación abierta

Kyutai ha emprendedor los scripts de mancuerna e inferencias de modelos en Cara abrazadahaciéndolo accesible para investigadores, desarrolladores y equipos comerciales. La atrevimiento permisiva de CC-by-4.0 fomenta la acondicionamiento e integración sin restricciones en las aplicaciones, siempre que se mantenga la atribución adecuada.

Este tiro admite la inferencia de lotes y transmisión, por lo que es una cojín versátil para la clonación de voz, chatbots en tiempo existente, herramientas de accesibilidad y más. Con modelos previos a la petróleo tanto en inglés como en francés, Kyutai prepara el escena para las tuberías multilingües de TTS.

Implicaciones para aplicaciones de IA en tiempo existente

Al sujetar la latencia de la engendramiento de discursos al rango de 200 ms, el maniquí de Kyutai reduce el retraso de la intención y el acento humana, lo que lo hace viable para:

IA conversacional: Interfaces de voz de tipo humano con bajo cambio
Tecnología de presencia: Lectores de pantalla más rápidos y sistemas de feedback de voz
Producción de medios: Offes de voz en off con ciclos de iteración rápidos
Dispositivos de borde: Inferencia optimizada para entornos de disminución potencia o en disposición

La capacidad de atender a 32 usuarios en una sola GPU L40 sin degradación de calidad todavía lo hace atractivo para prosperar los servicios de voz de guisa eficaz en entornos en la cirro.

Conclusión: Despejado, rápido y pronto para la implementación

El tiro de la transmisión de TTS de Kyutai es un hito en el discurso ai. Con síntesis de adhesión calidad, latencia en tiempo existente y licencias generosas, aborda las deposición críticas tanto para los investigadores como para los equipos de productos del mundo existente. La reproducibilidad del maniquí, el soporte multilingüe y el rendimiento escalable lo convierten en una alternativa destacada a las soluciones propietarias.

Para más detalles, puede explorar la maleable maniquí oficial en Cara abrazadaexplicación técnica en Sitio de Kyutaiy detalles de implementación en Github.

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble naturaleza en IIT Madras, le apasiona aplicar tecnología e IA para asaltar los desafíos del mundo existente. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida existente.

Etiquetado 2.5m, con, entrenamiento, horas, Kyutai, latencia, libera, parámetros, texto, Transmisión, TTS, voz