Construyendo agentes de voz inteligentes de IA con Pipecat y Amazon Bedrock – Parte 1

Voice Ai está transformando cómo interactuamos con la tecnología, haciendo que las interacciones conversacionales sean más naturales e intuitivas que nunca. Al mismo tiempo, los agentes de IA se están volviendo cada vez más sofisticados, capaces de comprender consultas complejas y tomar acciones autónomas en nuestro nombre. A medida que estas tendencias convergen, se ve el surgimiento de agentes inteligentes de voz de IA que pueden participar en un diálogo similar a humanos mientras realizan una amplia variedad de tareas.

En esta serie de publicaciones, aprenderá cómo construir agentes de voz inteligentes de IA usando Pipecatun ámbito de código extenso para agentes de IA conversacionales de voz y voz multimodal, con modelos de cojín en Roca superiora de Amazon. Incluye arquitecturas de remisión de detención nivel, mejores prácticas y muestras de código para pilotar su implementación.

Enfoques para construir agentes de voz de IA

Hay dos enfoques comunes para construir agentes de IA conversacionales:

Uso de modelos en cascada: En esta publicación (Parte 1), aprenderá sobre el enfoque de modelos en cascada, sumergiéndose en los componentes individuales de un agente de IA conversacional. Con este enfoque, la entrada de voz pasa a través de una serie de componentes de inmueble antaño de que se envíe una respuesta de voz al becario. Este enfoque incluso a veces se conoce como inmueble de voz del maniquí de tuberías o componentes.
Uso de modelos de cojín de voz a voz en una sola inmueble: En la Parte 2, aprenderás cómo Amazon Nova Sonicun maniquí de cojín unificado de voz a voz unificado puede permitir conversaciones de voz en tiempo existente y de forma humana al combinar la comprensión del palabra y la concepción en una sola inmueble.

Casos de uso comunes

Los agentes de voz de IA pueden manejar múltiples casos de uso, incluidos, entre otros::

Atención al cliente: Los agentes de voz de IA pueden manejar las consultas de los clientes 24/7, proporcionando respuestas instantáneas y problemas complejos de enrutamiento a los agentes humanos cuando sea necesario.
Llamadas de salida: Los agentes de IA pueden realizar campañas de divulgación personalizadas, programar citas o hacer un seguimiento de los clientes potenciales con conversación natural.
Asistentes virtuales: La IA de voz puede respaldar a los asistentes personales que ayudan a los usuarios a gobernar tareas, replicar preguntas.

Inmueble: Uso de modelos en cascada para construir un agente de voz de IA

Para construir una aplicación de IA de voz de agente con el enfoque de modelos en cascada, debe orquestar múltiples componentes de inmueble que involucren múltiples modelos de estudios mecánico y fundamentos.

Figura 1: Descripción caudillo de la inmueble de un agente de IA de voz usando Pipecat

Estos componentes incluyen:

Transporte de Webrtc: Habilita la transmisión de audio en tiempo existente entre los dispositivos del cliente y el servidor de aplicaciones.

Detección de actividad de voz (VAD): Detecta el palabra usando Silero Vad con el inicio de voz configurable y las horas finales del palabra, y las capacidades de supresión de ruido para eliminar el ruido de fondo y mejorar la calidad del audio.

Gratitud de voz mecánico (ASR): Usos Amazon Transcribe para la conversión precisa en tiempo existente en voz mengua.

Comprensión del lengua natural (NLU): Interpreta la intención del becario usando inferencia optimizada para la latencia en roca superiora con modelos como Amazon Nova Pro Opcionalmente habilitando personalidad de personalidad Para optimizar la velocidad y la eficiencia de rentabilidad en los casos de uso de concepción aumentada (RAG) de recuperación.

Ejecución de herramientas e integración de API: Ejecuta acciones o recupera información para RAG integrando servicios de backend y fuentes de datos a través de flujos de pipecat y aprovechando el Uso de la aparejo Capacidades de los modelos de cojín.

Concepción del lengua natural (NLG): Genera respuestas coherentes usando Amazon Nova Pro en Bedrock, ofreciendo el permanencia adecuado de calidad y latencia.

Texto a voz (TTS): Convierte las respuestas de texto en discurso realista usando Amazon Polly con voces generativas.

Situación de orquestación: Pipecat orquestina estos componentes, ofreciendo un ámbito modular basado en Python para aplicaciones de agentes de IA multimodales en tiempo existente.

Las mejores prácticas para construir agentes de voz de IA efectivos

El explicación de agentes de voz de IA receptivos requiere enfoque en la latencia y la eficiencia. Mientras que las mejores prácticas continúan surgiendo, considere las siguientes estrategias de implementación para ganar interacciones naturales de tipo humano:

Minimizar la latencia de conversación: Usar inferencia optimizada para la latencia para modelos de cojín (FMS) como Amazon Nova Pro Para ayudar el flujo de conversación natural.

Seleccione modelos de cojín eficientes: Priorice los modelos de cojín más pequeños y más rápidos (FMS) que pueden ofrecer respuestas rápidas mientras mantienen la calidad.

Implementar el almacenamiento en personalidad del indicador: Utilizar personalidad de personalidad para optimizar la velocidad y la eficiencia de rentabilidad, especialmente en escenarios complejos que requieren recuperación de conocimiento.

Implementar rellenos de texto a voz (TTS): Use frases de relleno natural (como «Permítanme buscarlo para usted») antaño de las operaciones intensivas para ayudar la billete del becario mientras el sistema realiza llamadas de herramientas o llamadas de larga duración a sus modelos de cojín.

Construya una tubería de entrada de audio robusta: Integre componentes como el ruido para recibir la calidad clara de audio para obtener mejores resultados de examen de voz.

Comience simple e iterar: Comience con flujos de conversación básicos antaño de progresar a sistemas de agente complejos que pueden manejar múltiples casos de uso.

Disponibilidad de la región: Las características de almacenamiento de mengua latencia y avance solo pueden estar disponibles en ciertas regiones. Evalúe la compensación entre estas capacidades avanzadas y seleccione una región que esté geográficamente más cercana a sus usuarios finales.

Implementación de ejemplo: Cree su propio agente de voz de IA en minutos

Esta publicación proporciona un Aplicación de muestra en Github Eso demuestra los conceptos discutidos. Usa Pipecat y y su ámbito de trámite estatal camarada, Pipecat fluye con Amazon Bedrock, conexo con las capacidades de comunicación en tiempo existente en la web (WEBRTC) de A diario Para crear un agente de voz de trabajo, puede probar en minutos.

Requisitos previos

Para configurar la aplicación de muestra, debe tener los siguientes requisitos previos:

Python 3.10+
Una cuenta de AWS con permisos de trámite de identidad y comunicación apropiados (IAM) para Amazon Bedrock, Amazon Transcribe y Amazon Polly
Entrada a modelos de cojín en Amazon Bedrock
Entrada a una llavín de API para diariamente
Navegador web flamante (como Google Chrome o Mozilla Firefox) con soporte de WebRTC

Pasos de implementación

Posteriormente de completar los requisitos previos, puede comenzar a configurar su agente de voz de muestra:

Clon el repositorio:

git clone https://github.com/aws-samples/build-intelligent-ai-voice-agents-with-pipecat-and-amazon-bedrock 
cd build-intelligent-ai-voice-agents-with-pipecat-and-amazon-bedrock/part-1

Configurar el entorno:

cd server
python3 -m venv venv
source venv/bin/activate  # Windows: venvScriptsactivate
pip install -r requirements.txt

Configurar la tecla API en.env:

DAILY_API_KEY=your_daily_api_key
AWS_ACCESS_KEY_ID=your_aws_access_key_id
AWS_SECRET_ACCESS_KEY=your_aws_secret_access_key
AWS_REGION=your_aws_region

Inicie el servidor:
```
python server.py
```
Conectarse a través del navegador en http://localhost:7860 y otorgar comunicación al micrófono
Comience la conversación con su agente de voz de IA

Personalización de su voz AI Agent

Para personalizar, puede comenzar por:

Modificador flow.py Para cambiar la método de conversación
Ajustar la selección del maniquí en bot.py para sus deyección de latencia y calidad

Para ilustrarse más, ver documentación para los flujos de pipecat y revise el Readme de nuestra muestra de código en GitHub.

Higienización

Las instrucciones anteriores son para configurar la aplicación en su entorno recinto. La aplicación recinto aprovechará los servicios de AWS y diariamente a través de las credenciales de AWS IAM y API. Para la seguridad y para evitar costos inesperados, cuando haya terminado, elimine estas credenciales para cerciorarse de que ya no se puedan aceptar.

Acelerado de implementaciones de IA de voz

Para acelerar las implementaciones de agentes de voz de IA, AWS Generation AI Innovation Center (Gaiic) Se asocia con los clientes para identificar casos de uso de detención valía y desarrollar soluciones de prueba de concepto (POC) que pueden acaecer rápidamente a la producción.

Refrendo del cliente: endeudado

Endeudadoun fintech mundial que transforma la industria de la deuda del consumidor, colabora con AWS para desarrollar su prototipo de IA de voz.

«Creemos que los agentes de voz propulsados por la IA representan una oportunidad fundamental para mejorar el toque humano en los servicios financieros, la billete del cliente. Al integrar la tecnología de voz habilitada para la AI en nuestras operaciones, nuestros objetivos son proporcionar a los clientes un comunicación más rápido e intuitivo para que se adapte a sus deyección, así como mejorar la calidad de su experiencia y el rendimiento de nuestras operaciones de los centros de contacto» »

dice Mike ZhouDirector de Datos en Endebt.

Al colaborar con AWS y rendir el capa de roca de Amazon, las organizaciones como Endebt pueden crear experiencias de IA de voz seguras y adaptativas que cumplan con los estándares regulatorios al tiempo que brindan un impacto existente y centrado en los humanos incluso en las conversaciones financieras más desafiantes.

Conclusión

Construir agentes de voz inteligentes de IA ahora es más accesible que nunca a través de la combinación de marcos de código extenso como Pipecaty potentes modelos de cojín con Inferencia optimizada de latencia y personalidad de personalidad en Amazon Bedrock.

En esta publicación, aprendió sobre dos enfoques comunes sobre cómo construir agentes de voz de IA, profundizando en el enfoque de modelos en cascada y sus componentes esencia. Estos componentes esenciales trabajan juntos para crear un sistema inteligente que pueda comprender, procesar y replicar al palabra humana de forma natural. Al rendir estos rápidos avances en la IA generativa, puede crear agentes de voz sofisticados y receptivos que ofrecen un valía existente a sus usuarios y clientes.

Para comenzar con su propio tesina de IA de voz, pruebe nuestro Muestra de código en Github o comuníquese con su equipo de cuentas de AWS para explorar un compromiso con AWS Generation AI Innovation Center (Gaiic).

Igualmente puede ilustrarse sobre la construcción de agentes de voz de IA utilizando modelos de cimientos de voz a voz unificadas, Amazon Nova Sonic En la Parte 2.

Sobre los autores

Adithya Suresh Sirve como arquitecto de estudios profundo en el Centro de Innovación AI Generation AI de AWS, donde se asocia con los equipos de tecnología y negocios para construir soluciones innovadoras de IA generativas que aborden los desafíos del mundo existente.

Daniel Wirjo es un arquitecto de soluciones en AWS, centrado en las startups fintech y SaaS. Como antiguo CTO de inicio, le gusta colaborar con los fundadores y líderes de ingeniería para impulsar el crecimiento y la innovación en AWS. Fuera del trabajo, Daniel disfruta caminar con un café en la mano, apreciar la naturaleza y ilustrarse nuevas ideas.

Karan Singh es un entendido generativo de IA en AWS, donde trabaja con los modelos de fundación de terceros de primer nivel y los proveedores de marcos de agente para desarrollar y ejecutar estrategias conjuntas de Go-to-Market, lo que permite a los clientes desplegar y medrar de modo efectiva soluciones para resolver desafíos de IA generativos empresariales.

Xuefeng liu Lidera un equipo estudiado en el Centro de Innovación AI AI AWS en las regiones de Asia Pacífico. Su equipo se asocia con clientes de AWS en proyectos generativos de IA, con el objetivo de acelerar la acogida de la IA generativa por parte de los clientes.

Etiquetado agentes, Amazon, Bedrock, con, Construyendo, inteligentes, parte, Pipecat, voz