La optimización solo para el agradecimiento maquinal de voz (ASR) y la tasa de error de palabras (WER) es insuficiente para agentes de voz modernos e interactivos. La evaluación robusta debe calibrar el éxito de la tarea de extremo a extremo, el comportamiento y la latencia de inverso, y la quimera bajo el ruido, la seguridad, la seguridad y la instrucción. VoiceBench ofrece una multifaceta interacción del palabra Compare el conocimiento universal, el seguimiento de la instrucción, la seguridad y la robustez a las variaciones de altavoz/entorno/contenido, pero no cubre la finalización de la tarea Barge-in o los dispositivos reales. Slue (y fase-2) objetivo de comprensión del lengua hablado (SLU); Sonda masiva y hablada de calidad multilingüe y hablada QA; Las pistas DSTC agregan robustez hablada, orientada a tareas. Combine estos con pruebas explícitas de barcazas/puntos finales, medición de exitos de tareas centrada en el heredero y protocolos controlados de estrés de ruido para obtener una imagen completa.
¿Por qué no es suficiente??
Wer mide la fidelidad de la transcripción, no la calidad de la interacción. Dos agentes con WER similar pueden divergir ampliamente en el éxito del diálogo porque la latencia, la toma de turnos, la recuperación malentendida, la seguridad y la robustez a las perturbaciones acústicas y de contenido dominan la experiencia del heredero. El trabajo previo en sistemas reales muestra la privación de evaluar satisfacción del heredero y éxito de la tarea Directamente: Eg, la evaluación cibernética en vírgula de Cortana predijo la satisfacción del heredero de las señales de interacción in situ, no solo la precisión de ASR.
Qué calibrar (y cómo)?
1) éxito de tareas de extremo a extremo
Métrico: Tasa de éxito de la tarea (TSR) con estrictos criterios de éxito por tarea (finalización de objetivos, restricciones cumplidas), más Tiempo de finalización de la tarea (TCT) y De desvío.
Por qué. Los asistentes reales son juzgados por los resultados. Competiciones como Alexa Prizal Bot Bot midieron explícitamente la capacidad de los usuarios para terminar tareas de varios pasos (por ejemplo, cocción, bricolaje) con calificaciones y finalización.
Protocolo.
- Defina las tareas con puntos finales verificables (por ejemplo, «ensamble la serie de compras con n utensilios y restricciones»).
- Use evaluadores humanos cegados y registros automáticos para calcular TSR/TCT/Turns.
- Para la cobertura multilingüe/SLU, dibuje intentos/ranuras de tareas de masivo.
2) Barcaza y toma de turnos
Métrica:
- Latencia de detección de barcazas (MS): Tiempo desde el inicio del heredero hasta la supresión de TTS.
- Tasas de barcazas verdaderas/falsas: Interrupciones correctas frente a paradas espurias.
- Latencia de punto final (MS): Tiempo de finalización ASR posteriormente de la parada del heredero.
Por qué. Manejo de interrupción suave y puntos finales rápidos determinar la capacidad de respuesta percibida. La investigación formaliza la demostración de la barcaza y el procesamiento continuo de barcazas; La latencia de punto final sigue siendo un ámbito activa en la transmisión ASR.
Protocolo.
- El script solicita donde el heredero interrumpe los TTS en compensaciones controladas y SNR.
- Mida la supresión y los horarios de agradecimiento con registros de reincorporación precisión (marcas de tiempo).
- Incluya condiciones de campo futuro ruidoso/ecoico. Los estudios clásicos y modernos proporcionan estrategias de recuperación y señalización que reducen las falsas barcazas.
3) Fantasía bajo ruido (HUN)
Métrico. Hun tasa: fracción de panorama que son fluidas pero semánticamente no relacionadas con el audio, bajo audio controlado de ruido o no discurso.
Por qué. Las pilas ASR y AUDIO-LLM pueden emitir «tonterías convincentes», especialmente con segmentos sin voz o superposiciones de ruido. El trabajo nuevo define y mide las alucinaciones ASR; Los estudios dirigidos muestran alucinaciones de susurro inducidas por sonidos sin voz.
Protocolo.
- Construya conjuntos de audio con ruido ambiental aditivo (SNR variados), distractores sin voz y disfluencias de contenido.
- Puntaje de relación semántica (sensatez humano con adjudicación) y calcula hun.
- Seguimiento de si las acciones de agente aguas debajo propagan alucinaciones a pasos de tareas incorrectos.
4) Instrucción seguida, seguridad y robustez
Familias métricas.
- Precisión de seguimiento de instrucciones (Formato y complemento de restricción).
- Tasa de rechazo de seguridad en indicaciones de palabra adversa.
- Deltas de robustez En toda la tiempo/acento/tono del altavoz, entorno (ruido, reverberación, campo futuro) y ruido de contenido (errores gramaticales, disfluencias).
Por qué. VoiceBench se dirige explícitamente a estos ejes con instrucciones habladas (reales y sintéticas) que abarcan el conocimiento universal, la instrucción y la seguridad; perturba el altavoz, el entorno y el contenido para sondear la robustez.
Protocolo.
- Use VoiceBench para la amplitud en las capacidades de interacción del palabra; Referencia puntajes agregados y por eje.
- Para los detalles de SLU (NER, actos de diálogo, QA, compendio), palanca de apalancamiento y fase-2.
5) Calidad de discurso perceptual (para TTS y mejoría)
Métrico. Puntuación subjetiva de opinión media a través de ITU-T P.808 (Crowdsourced ACR/DCR/CCR).
Por qué. La calidad de la interacción depende de uno y otro agradecimiento y calidad de reproducción. P.808 ofrece un protocolo de crowdsourcing validado con herramientas de código libre.
Paisaje de relato: lo que cada uno cubre
VoiceBench (2024)
Envergadura: Evaluación de asistente de voz multifaceta con entradas habladas conocimiento universal, instrucción próximo, seguridady robustez a través de variaciones de altavoz/entorno/contenido; Utiliza el discurso efectivo y sintético.
Limitaciones: Hace no Benchmark Barge-in/Endpointing Latency o Tarea Existente World Tarea en dispositivos; Se centra en la corrección y la seguridad de la respuesta bajo variaciones.
Período de lla / lla-2
Envergadura: Tareas de comprensión del lengua hablado: ner, sentimiento, actos de diálogo, sitio de la entidad nombrada, QA, compendio; Diseñado para estudiar la sensibilidad de extremo a extremo frente a la tubería a los errores ASR.
Usar: Ideal para sondear la robustez de SLU y la fragilidad de la tubería en entornos hablados.
MASIVO
Envergadura: > 1m expresiones asistentes virtuales en 51–52 idiomas con intentos/ranuras; Robusto adecuado para plurilingüe evaluación orientada a tareas.
Usar: Construya suites de tareas multilingües y mida TSR/ranura F1 en condiciones del palabra (emparejado con TTS o lea el discurso).
Sets de Squad / Heysquad y hablantes de QA relacionados
Envergadura: Respuesta de preguntas habladas para probar la comprensión de ASR-ASR y la robustez múltiple.
Usar: Comprensión de prueba de estrés bajo errores de palabra; No es una suite de tareas de agente completo.
Rastras de DSTC (Dialog System Technology Challenge)
Envergadura: Modelado de diálogo robusto con habladodatos orientados a tareas; calificaciones humanas inmediato con métricas automáticas; Las pistas recientes enfatizan la multilingüe, la seguridad y la dimensionalidad de la evaluación.
Usar: Complementaria para la calidad del diálogo, DST y respuestas fundamentadas en condiciones de palabra.
Concurrencia de tareas del mundo efectivo (Bot de tareas del Premio Alexa)
Envergadura: Concurrencia de tareas de varios pasos con calificaciones de usuarios y criterios de éxito (cocina/bricolaje).
Usar: Inspiración típico de oro para especificar TSR e KPI de interacción; Los informes públicos describen el enfoque y los resultados de la evaluación.
Guatar los vacíos: lo que aún necesita adicionar
- Barge-In y Endpointing KPIS
Agregue jaeces de medición explícitos. La letras ofrece demostración de barcazas y estrategias de procesamiento continuo; La transmisión de la latencia de punto final ASR sigue siendo un tema de investigación activo. Seguimiento de la latencia de detección de barcazas, corrección de supresión, retraso de punto final y falsas barcazas. - Protocolos de quimera bajo ruido (HUN)
Adoptar definiciones emergentes de calucinación ASR y pruebas controladas de ruido/no discurso; Referencia la tasa de HUN y su impacto en las acciones posteriores. - Latencia de interacción en el dispositivo
Correlacionar la latencia percibida por el heredero con los diseños de transmisión ASR (por ejemplo, variantes de transductor); Mida el tiempo hasta la primera vez, el tiempo hasta la final y la sobrecarga de procesamiento regional. - Matrices de robustez del eje cruzado
Combine los ejes de altavoz/entorno/contenido de VoiceBench con su conjunto de tareas (TSR) para exponer las superficies de rotura (por ejemplo, barcazas bajo eco de campo futuro; éxito de tareas a disminución SNR; ranuras multilingües en un cambio de acento). - Calidad perceptiva para reproducción
Use ITU-T P.808 (con el Kit de herramientas Open P.808) para cuantificar la calidad de TTS percibida por el heredero en su onda de extremo a extremo, no solo ASR.
Un plan de evaluación concreto y reproducible
- Ensamblar la suite
- Núcleo de interacción del palabra: Cárcel de voz para conocimientos, seguidores de instrucciones, seguridad y ejes de robustez.
- Profundidad de SLU: Tareas de SLUE/Período-2 (NER, actos de diálogo, QA, compendio) para el rendimiento de SLU bajo el palabra.
- Cobertura multilingüe: Masivo para la intención/ranura y el estrés multilingüe.
- Comprensión bajo ruido ASR: Squad/Heysquad hablado para el control de calidad y las lecturas de múltiples acentos.
- Añadir capacidades faltantes
- Arnés de barcazas/puntos finales: Interrupciones con redacción en compensaciones y SNR controladas; tiempo de supresión de registro y falsos barcazas; Calcular el retraso de punto final con la transmisión ASR.
- Fantasía bajo ruido: insertos sin voz y superposiciones de ruido; Anotar la relación semántica con calcular hun.
- Liga de éxito de la tarea: Tareas de escena con controles de éxito objetivo; Calcule tsr, tct y giros; Siga las definiciones de estilo de Bot Bot.
- Calidad perceptiva: P.808 ACR de crowdsourced con el kit de herramientas de Microsoft.
- Estructura de informes
- Tabla primaria: TSR/TCT/Turns; Latencia de barcazas y tasas de error; Latencia de punto final; Tasa de hun; VoiceBench ayudante y por eje; Métricas de SLU; P.808 Mos.
- Gráficos de estrés: TSR y HUN vs. SNR y reverberación; Latencia de Barge-In vs. Tiempo de interrupción.
Referencias
- VoiceBench: primer punto de relato de interacción del palabra multifacética para asistentes de voz basados en LLM (conocimiento, instrucción próximo, seguridad, robustez). (ar5iv)
- Período-2 de lla / Slue: ner hablado, actos de diálogo, QA, compendio; Sensibilidad a los errores ASR en las tuberías. (arxiv)
- Masivo: 1M+ Enunciados de intención multilingüe/ranura para asistentes. (Ciencia de Amazonas)
- Squad / Heysquad: Hibuking PREGUNT: Contestar los conjuntos de datos. (Github)
- Evaluación centrada en el heredero en asistentes de producción (Cortana): predecir la satisfacción más allá de ASR. (Umass Amherst)
- VERIFICACIÓN DE VERIFICACIÓN/PROCESAMIENTO Y POTOS DE PNOR PARA LA LATENCIA: AWS/Papeles académicos de barcazas, Barcaza continua de Microsoft, detección de punto final nuevo para la transmisión ASR. (arxiv)
- Definiciones de quimera ASR y alucinaciones no inducidas por la voz (Whisper). (arxiv)
Michal Sutter es un profesional de la ciencia de datos con una Destreza en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una saco sólida en investigación estadístico, formación maquinal e ingeniería de datos, Michal se destaca por modificar conjuntos de datos complejos en ideas procesables.
