Microsoft bichero VibeVoice-ASR: un maniquí unificado de voz a texto diseñado para manejar audio de formato abundante de 60 minutos en una sola pasada

Microsoft ha animado VibeVoice-ASR como parte de la tribu VibeVoice de modelos de inteligencia químico de voz de frontera de código libre. VibeVoice-ASR se describe como un maniquí unificado de voz a texto que puede manejar audio de formato abundante de 60 minutos en una sola pasada y producir transcripciones estructuradas que codifican quién, cuándo […]
Creación de un asistente de AWS controlado por voz con Amazon Nova Sonic

A medida que la infraestructura de la aglomeración se vuelve cada vez más compleja, la carestia de interfaces de sucursal intuitivas y eficientes nunca ha sido veterano. Las interfaces de carrera de comandos (CLI) y las consolas web tradicionales, si aceptablemente son potentes, pueden crear barreras para la toma rápida de decisiones y la eficiencia […]
Microsoft AI alabarda VibeVoice-Realtime: un maniquí informal de conversión de texto a voz en tiempo actual que admite la entrada de texto en streaming y una sólida coexistentes de voz de formato dilatado

Microsoft ha agresivo VibeVoice-Realtime-0.5Bun maniquí de texto a voz en tiempo actual que funciona con entrada de texto en tiempo actual y salida de voz en formato dilatado, dirigido a aplicaciones de estilo agente y narración de datos en vivo. El maniquí puede despuntar a producir voz audible en unos 300 ms, lo cual es […]
Cómo evaluar los agentes de voz en 2025: más allá del agradecimiento maquinal de voz (ASR) y la tasa de error de palabras (WER) para el éxito de la tarea, la barcaza y el ruido de la quimera.

La optimización solo para el agradecimiento maquinal de voz (ASR) y la tasa de error de palabras (WER) es insuficiente para agentes de voz modernos e interactivos. La evaluación robusta debe calibrar el éxito de la tarea de extremo a extremo, el comportamiento y la latencia de inverso, y la quimera bajo el ruido, la […]
¿Qué es un agente de voz en AI? Top 9 Platforms de agente de voz para memorizar (2025)

¿Qué es un agente de voz? Un Agente de voz de AI es un sistema de software que puede suministrar conversaciones bidireccionales y en tiempo vivo por teléfono o Internet (VoIP). A diferencia de los árboles Legacy Interactive Voice Respuesta (IVR), los agentes de voz permiten discurso de forma vacuomanejar […]
Despliegue un agente de IA de voz de pila completa con Amazon Nova Sonic

Las soluciones de deje con IA están transformando los centros de contacto al permitir conversaciones naturales entre los clientes y los agentes de IA, acortando los tiempos de retraso y reduciendo drásticamente los costos operativos, todo sin matar la interacción humana que los clientes esperan. Con el Divulgación flamante de Amazon Nova Sonic en Roca […]
Kyutai libera 2B de parámetros de transmisión de texto a voz TTS con latencia de 220 ms y 2.5m horas de entrenamiento

Kyutai, un laboratorio de investigación de IA destapado, ha publicado un maniquí renovador de transmisión de texto a voz (TTS) con ~ 2 mil millones de parámetros. Diseñado para la capacidad de respuesta en tiempo existente, este maniquí ofrece una engendramiento de audio de latencia exaltado disminución (220 milisegundos) mientras mantiene una adhesión fidelidad. Está […]
Construyendo agentes de voz inteligentes de IA con Pipecat y Amazon Bedrock – Parte 1

Voice Ai está transformando cómo interactuamos con la tecnología, haciendo que las interacciones conversacionales sean más naturales e intuitivas que nunca. Al mismo tiempo, los agentes de IA se están volviendo cada vez más sofisticados, capaces de comprender consultas complejas y tomar acciones autónomas en nuestro nombre. A medida que estas tendencias convergen, se ve […]
El agrupación financiero principal aumenta el rendimiento del asistente potencial de voz utilizando Genesys, Amazon Lex y Amazon Quicksight

Esta publicación fue courbita por Mulay Ahmed, Subdirectora de Ingeniería, y Ruby Donald, Subdirectora de Ingeniería de Principal Financial Group. El contenido y las opiniones en esta publicación son los del autor de terceros y AWS no es responsable del contenido o precisión de esta publicación. Principal Financial Group® es una compañía integrada de servicios […]
AWS y DXC colaboran para entregar capacidades de traducción de voz a voz personalizables y casi en tiempo actual para Amazon Connect

Proporcionar atención al cliente multilingüe efectiva en empresas globales presenta desafíos operativos significativos. A través de la colaboración entre la tecnología AWS y DXC, hemos desarrollado un prototipo de traducción escalable de voz a voz (V2V) que transforma cómo los centros de contacto manejan las interacciones multilingües de los clientes. En esta publicación, discutimos cómo […]