Cómo evaluar los agentes de voz en 2025: más allá del agradecimiento maquinal de voz (ASR) y la tasa de error de palabras (WER) para el éxito de la tarea, la barcaza y el ruido de la quimera.

La optimización solo para el agradecimiento maquinal de voz (ASR) y la tasa de error de palabras (WER) es insuficiente para agentes de voz modernos e interactivos. La evaluación robusta debe calibrar el éxito de la tarea de extremo a extremo, el comportamiento y la latencia de inverso, y la quimera bajo el ruido, la […]
¿Qué es un agente de voz en AI? Top 9 Platforms de agente de voz para memorizar (2025)

¿Qué es un agente de voz? Un Agente de voz de AI es un sistema de software que puede suministrar conversaciones bidireccionales y en tiempo vivo por teléfono o Internet (VoIP). A diferencia de los árboles Legacy Interactive Voice Respuesta (IVR), los agentes de voz permiten discurso de forma vacuomanejar […]
Despliegue un agente de IA de voz de pila completa con Amazon Nova Sonic

Las soluciones de deje con IA están transformando los centros de contacto al permitir conversaciones naturales entre los clientes y los agentes de IA, acortando los tiempos de retraso y reduciendo drásticamente los costos operativos, todo sin matar la interacción humana que los clientes esperan. Con el Divulgación flamante de Amazon Nova Sonic en Roca […]
Kyutai libera 2B de parámetros de transmisión de texto a voz TTS con latencia de 220 ms y 2.5m horas de entrenamiento

Kyutai, un laboratorio de investigación de IA destapado, ha publicado un maniquí renovador de transmisión de texto a voz (TTS) con ~ 2 mil millones de parámetros. Diseñado para la capacidad de respuesta en tiempo existente, este maniquí ofrece una engendramiento de audio de latencia exaltado disminución (220 milisegundos) mientras mantiene una adhesión fidelidad. Está […]
Construyendo agentes de voz inteligentes de IA con Pipecat y Amazon Bedrock – Parte 1

Voice Ai está transformando cómo interactuamos con la tecnología, haciendo que las interacciones conversacionales sean más naturales e intuitivas que nunca. Al mismo tiempo, los agentes de IA se están volviendo cada vez más sofisticados, capaces de comprender consultas complejas y tomar acciones autónomas en nuestro nombre. A medida que estas tendencias convergen, se ve […]
El agrupación financiero principal aumenta el rendimiento del asistente potencial de voz utilizando Genesys, Amazon Lex y Amazon Quicksight

Esta publicación fue courbita por Mulay Ahmed, Subdirectora de Ingeniería, y Ruby Donald, Subdirectora de Ingeniería de Principal Financial Group. El contenido y las opiniones en esta publicación son los del autor de terceros y AWS no es responsable del contenido o precisión de esta publicación. Principal Financial Group® es una compañía integrada de servicios […]
AWS y DXC colaboran para entregar capacidades de traducción de voz a voz personalizables y casi en tiempo actual para Amazon Connect

Proporcionar atención al cliente multilingüe efectiva en empresas globales presenta desafíos operativos significativos. A través de la colaboración entre la tecnología AWS y DXC, hemos desarrollado un prototipo de traducción escalable de voz a voz (V2V) que transforma cómo los centros de contacto manejan las interacciones multilingües de los clientes. En esta publicación, discutimos cómo […]
aiOla aguijada Whisper-NER: un maniquí de inteligencia industrial de código campechano para la transcripción conjunta de voz y el agradecimiento de entidades

La tecnología de agradecimiento de voz ha rematado avances significativos, y los avances en IA mejoran la accesibilidad y la precisión. Sin retención, todavía enfrenta desafíos, particularmente en la comprensión de entidades habladas como nombres, lugares y terminología específica. La cuestión no es sólo convertir voz en texto con precisión, sino asimismo extraer contexto significativo […]
ElevenLabs presenta Voice Design: una nueva función de IA que genera una voz única a partir de un mensaje de texto sólo

ElevenLabs acaba de presentar Voice Design, una nueva vivientes de voz con IA que permite producir una voz única a partir de un mensaje de texto sólo. La conversión de texto a voz es una función muy útil, pero se ha vuelto muy global y hay pocas buenas opciones disponibles. Cuando observamos el mercado de […]
Anuncio de nuevos productos y características para el servicio Azure OpenAI, incluido GPT-4o-Realtime-Preview con capacidades de audio y voz.

Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una importante prosperidad del servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o. Estamos encantados de anunciar la pinta previa pública de GPT-4o-Realtime-Preview para audio y voz, una prosperidad importante para Servicio Microsoft […]