Athrun Data Intelligence


Nvidia acaba de exhalar Canary-Qwen-2.5bun progresista híbrido de registro instintivo de discurso (ASR) y Maniquí de jerigonza (LLM), que ahora encabeza la tabla de clasificación de AbrainAsr con un registro que establece récords Tasa de error de palabras (WER) de 5.63%. Con deshonestidad bajo Cc-byeste maniquí es los dos comercialmente permisivo y de código despejadoEmpujando la IA del discurso preparada para la empresa sin restricciones de uso. Esta lectura marca un hito técnico significativo al armonizar la transcripción y la comprensión del jerigonza en una sola edificación de maniquí, lo que permite tareas posteriores como recapitulación y respuesta de preguntas directamente desde el audio.

Destacados esencia

  • 5.63% fue – La más quebranto en la tabla de clasificación de AbrainAsr.
  • RTFX de 418 – Entrada velocidad de inferencia en parámetros 2.5B
  • Admite los modos ASR y LLM -habilitando transcribir-Then-Analyizar flujos de trabajo
  • Abuso comercial (CC-BY) – Pronto para la implementación empresarial
  • Código despejado a través de Nemo – personalizable y desplegable para la investigación y la producción

Cimentación de maniquí: puente ASR y LLM

La innovación central detrás de Canary-Qwen-2.5b radica en su edificación híbrida. A diferencia de las tuberías ASR tradicionales que tratan la transcripción y el procesamiento posterior (recapitulación, preguntas y respuestas) como etapas separadas, este maniquí unifica ambas capacidades a través de:

  • FastConformer Coder: Un codificador de discurso de ingreso velocidad especializado para transcripción de quebranto latencia y ingreso precisión.
  • QWEN3-1.7B LLM Decoder: Un provocado no modificado maniquí de jerigonza espacioso (LLM) que recibe tokens transcritos de audio a través de adaptadores.

El uso de adaptadores asegura modularidad, permitiendo el Codador canario para ser separado y QWEN3-1.7B para intervenir como un LLM independiente para tareas basadas en texto. Esta valentía arquitectónica promueve la flexibilidad multimodal: una implementación única puede manejar las entradas habladas y escritas para las tareas de jerigonza posterior.

Puntos de narración de rendimiento

Canary-Qwen-2.5b logra un récord era de 5.63%superando todas las entradas anteriores en la tabla de clasificación OpenAsr de Hugging Face. Esto es particularmente extraordinario donado su tamaño relativamente modesto de 2.5 mil millones de parámetrosen comparación con algunos modelos más grandes con rendimiento inferior.

Métrico Valía
Feroz 5.63%
Recuento de parámetros 2.5b
Rtfx 418
Horas de entrenamiento 234,000
Abuso Cc-by

El 418 RTFX (factótum en tiempo auténtico) indica que el maniquí puede procesar audio de entrada 418 × más rápido que en tiempo auténticouna característica crítica para las implementaciones del mundo auténtico donde la latencia es un cuello de botella (por ejemplo, transcripción a escalera o sistemas de subtítulos en vivo).

Régimen de conjunto de datos y capacitación

El maniquí fue entrenado en un extenso conjunto de datos que comprende 234,000 horas de diverso discurso en ingléssuperando con creces la escalera de los modelos NEMO anteriores. Este conjunto de datos incluye una amplia variedad de acentos, dominios y estilos de palabra, lo que permite una universalización superior en audio ruidoso, conversacional y específico de dominio.

La capacitación se realizó utilizando Entorno Nemo de Nvidiacon recetas de código despejado disponibles para la acondicionamiento comunitaria. La integración de los adaptadores permite una experimentación flexible: los investigadores pueden sustituir a diferentes codificadores o decodificadores LLM sin retornar a capacitar pilas completas.

Implementación y compatibilidad de hardware

Canary-Qwen-2.5b está optimizado para una amplia variedad de GPU NVIDIA:

  • Centro de datos: A100, H100 y GPU más recientes de Hopper/Blackwell-Class
  • Puesto de trabajo: RTX Pro 6000 (Blackwell), RTX A6000
  • Consumidor: GeForce RTX 5090 y debajo

El maniquí está diseñado para resquilar en todas las clases de hardware, lo que lo hace adecuado tanto para la inferencia en la nubarrón como para las cargas de trabajo en el borde privado.

Casos de uso y preparación empresarial

A diferencia de muchos modelos de investigación limitados por licencias no comerciales, Canary-Qwen-2.5b se publica bajo un Abuso de cc-byhabilitando:

  • Servicios de transcripción empresarial
  • Extirpación de conocimiento basada en audio
  • Sinopsis de reuniones en tiempo auténtico
  • Agentes de IA comandantes de voz
  • Documentación regulatoria que cumple (Healthcare, Admitido, Finance)

La decodificación del maniquí de LLM además introduce mejoras en puntuación, capitalización y precisión contextualque a menudo son puntos débiles en panorama ASR. Esto es especialmente valioso para sectores como la atención médica o lícito donde la mala interpretación puede tener implicaciones costosas.

Hendido: una récipe para la fusión del palabra y el jerigonza

Al emitir el maniquí y su récipe de entrenamiento, el equipo de investigación de NVIDIA tiene como objetivo catalizar los avances impulsados por la comunidad en la IA del palabra. Los desarrolladores pueden mezclar y combinar con otros codificadores y LLM compatibles con NEMO, creando híbridos específicos de tareas para nuevos dominios o idiomas.

El extensión además establece un precedente para ASR centrado en LLMdonde los LLM no son postprocesadores sino agentes integrados En la tubería de voz a texto. Este enfoque refleja una tendencia más amplia alrededor de modelos de agente -Sistemas capaces de comprensión completa y toma de decisiones basadas en entradas multimodales del mundo auténtico.

Conclusión

Nvidia Canary-Qwen-2.5b es más que un maniquí ASR: es un plan para integrar la comprensión del palabra con los modelos de jerigonza de uso normal. Con Rendimiento de SOTA, usabilidad comercialy vías de innovación abiertaseste extensión está inteligente para convertirse en una utensilio fundamental para empresas, desarrolladores e investigadores que tienen como objetivo desbloquear la próxima gestación de aplicaciones de IA de la primera voz.


Mira el Tabla de clasificación, Maniquí en la cara abrazada y Pruébalo aquí. Todo el crédito por esta investigación va a los investigadores de este esquema.

Conseguir a los desarrolladores de IA más influyentes en todo el mundo. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. (Explorar el patrocinio)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero quimérico, ASIF se compromete a explotar el potencial de la inteligencia químico para el admisiblemente social. Su esfuerzo más nuevo es el extensión de una plataforma de medios de inteligencia químico, MarktechPost, que se destaca por su cobertura profunda de noticiario de enseñanza instintivo y de enseñanza profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el notorio.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *