Creación de un asistente de AWS controlado por voz con Amazon Nova Sonic

A medida que la infraestructura de la aglomeración se vuelve cada vez más compleja, la carestia de interfaces de sucursal intuitivas y eficientes nunca ha sido veterano. Las interfaces de carrera de comandos (CLI) y las consolas web tradicionales, si aceptablemente son potentes, pueden crear barreras para la toma rápida de decisiones y la eficiencia operativa. ¿Qué pasaría si pudiera musitar con su infraestructura de AWS y obtener respuestas inteligentes e inmediatas?

En esta publicación, exploramos cómo crear un sofisticado asistente de operaciones de AWS impulsado por voz utilizando Amazon Nova Sonic para el procesamiento del acento y Agentes de hebras para orquestación multiagente. Esta decisión demuestra cómo las interacciones de voz en habla natural pueden variar las operaciones en la aglomeración, haciendo que los servicios de AWS sean más accesibles y las operaciones más eficientes.

La cimentación de múltiples agentes que demostramos se extiende más allá de las operaciones básicas de AWS para recibir diversos casos de uso, incluida la automatización del servicio al cliente, la sucursal de dispositivos de Internet de las cosas (IoT), el examen de datos financieros y la orquestación del flujo de trabajo empresarial. Este patrón fundamental se puede adaptar a cualquier dominio que requiera enrutamiento inteligente de tareas e interacción en habla natural.

Investigación profundo de la cimentación

Esta sección explora la cimentación técnica que impulsa nuestro asistente de AWS controlado por voz. El próximo diagrama ilustra cómo Amazon Nova Sonic se integra con Agentes de hebras para crear un sistema multiagente fluido que procese comandos de voz y ejecute operaciones de AWS en tiempo auténtico.

Componentes principales

La cimentación multiagente consta de varios componentes especializados que trabajan juntos para procesar comandos de voz y ejecutar operaciones de AWS:

Agente supervisor: Actúa como coordinador central, analiza las consultas de voz entrantes y las dirige al agente especializado adecuado según el contexto y la intención.
Agentes Especializados:
1. Agente EC2: Maneja la sucursal de instancias, el monitoreo de estado y las operaciones informáticas.
2. Agente SSM: Gestiona las operaciones de Systems Manager, la ejecución de comandos y la dirección de parches.
3. Agente de respaldo: supervisa Copia de seguridad de AWS configuraciones, monitoreo de trabajos y operaciones de restauración
Capa de integración de voz: Usos Amazon Nova Sonic para procesamiento de voz bidireccional, convirtiendo voz en texto para procesamiento y texto nuevamente en voz para respuestas.

Descripción genérico de la decisión

El asistente de voz Nova de Strands Agents demuestra un nuevo tipo para la dirección de infraestructura de AWS a través de inteligencia químico (IA) conversacional. En lado de navegar por complejas consolas web o memorizar comandos CLI, los usuarios pueden simplemente expresar sus intenciones y aceptar respuestas inmediatas. Esta decisión cierra la brecha entre la comunicación humana natural y las operaciones técnicas de AWS, haciendo que la sucursal de la aglomeración sea accesible para los miembros del equipo tanto técnicos como no técnicos.

Pila de tecnología

La decisión utiliza tecnologías modernas nativas de la aglomeración para ofrecer una interfaz de voz sólida y escalable:

backend: Python 3.12+ con Agentes de hebras entorno para la orquestación de agentes
Interfaz: reaccionar con Sistema de diseño de paisajes en la aglomeración de AWS para una UI/UX de AWS consistente
Modelos de IA: Roca Amazónica y Claude 3 Haiku para la comprensión y vivientes del habla natural.
Procesamiento de voz: Amazon Nova Sonic para síntesis y inspección de voz de adhesión calidad
Comunicación: Servidor WebSocket para comunicación bidireccional en tiempo auténtico

Funciones y capacidades esencia

Nuestro asistente de voz ofrece varias funciones avanzadas que hacen que las operaciones de AWS sean más intuitivas y eficientes. El sistema comprende las consultas de voz naturales y las convierte en llamadas API de AWS apropiadas. Por ejemplo:

«Muéstrame todas las instancias EC2 en ejecución en us-east-1»
«Instalar Amazon CloudWatch agente que usa SSM en mis instancias de exposición”
«Compruebe el estado de las tareas de copia de seguridad de anoche»

Las respuestas están optimizadas específicamente para la transmisión de voz, con resúmenes concisos limitados a 800 caracteres, entrega de información clara y estructurada y frases conversacionales que suenan naturales cuando se hablan en voz adhesión (evitando la galimatías técnica y usando oraciones completas adecuadas para la síntesis del acento).

Descripción genérico de la implementación

Comenzar a utilizar el asistente de voz de AWS implica tres pasos principales:

Configuración del entorno

Configure las credenciales de AWS con entrada a Bedrock, Nova Sonic y los servicios de AWS de destino.
Configure el entorno backend Python 3.12+ y el frontend React
Respaldar la adecuada Diligencia de entrada e identidad de AWS (IAM) permisos para operaciones multiagente

Inicie la aplicación

Inicie el servidor Python WebSocket para el procesamiento de voz
Inicie la interfaz de React con componentes de AWS Cloudscape
Configurar ajustes de voz y conexiones WebSocket

Iniciar interacciones de voz

Otorgar permisos de micrófono del navegador para entrada de voz
Pruebe con comandos de ejemplo como «Detallar mis instancias EC2» o «Corroborar el estado de la copia de seguridad»
Experimente respuestas de voz en tiempo auténtico a través de Amazon Nova Sonic

¿Diligente para construir el tuyo propio? Las instrucciones de implementación completas, ejemplos de código y guías de decisión de problemas están disponibles en el Repositorio de GitHub.

Ejemplos de indicaciones para realizar pruebas mediante audio

Pruebe su asistente de voz con estos comandos de ejemplo:

Diligencia de instancias EC2:

«Enumera mis instancias EC2 de exposición donde la esencia de epíteto es ‘env'»
«¿Cuál es el estado de esas instancias?»
“Inicia esas instancias”
«¿Estas instancias tienen permisos SSM?»

Diligencia de copias de seguridad:

«Asegúrese de que estas instancias tengan una copia de seguridad diaria»

Diligencia del MUS:

«Instale el agente de CloudWatch usando SSM en estas instancias»
«Escanee estas instancias en examen de parches usando SSM»

Vídeo de demostración

El próximo vídeo muestra el asistente de voz en movimiento y muestra cómo se procesan y ejecutan los comandos de habla natural en los servicios de AWS mediante interacción de voz en tiempo auténtico, coordinación de agentes y respuestas de la API de AWS.

Ejemplos de implementación

Los siguientes ejemplos de código demuestran patrones de integración esencia y mejores prácticas para implementar su asistente de AWS controlado por voz. Estos ejemplos muestran cómo integrar Amazon Nova Sonic para el procesamiento de voz y configurar el agente supervisor para el enrutamiento inteligente de tareas.

Configuración de agentes de AWS Strands

La implementación utiliza un patrón de orquestador multiagente con agentes especializados:

from strands import Agent
from config.conversation_config import ConversationConfig
from config.config import create_bedrock_model

class SupervisorAgent(Agent):
    def __init__(self, specialized_agents, config=None):
        bedrock_model = create_bedrock_model(config)
        conversation_manager = ConversationConfig.create_conversation_manager("supervisor")
        
        super().__init__(
            model=bedrock_model,
            system_prompt=self._get_routing_instructions(),
            tools=(),  # No tools for pure router
            conversation_manager=conversation_manager,
        )
        self.specialized_agents = specialized_agents

Integración de Nova Sonic

La implementación utiliza un servidor WebSocket con dirección de sesiones para procesamiento de voz en tiempo auténtico:

class S2sSessionManager:
    def __init__(self, model_id='amazon.nova-sonic-v1:0', region='us-east-1', config=None):
        self.model_id = model_id
        self.region = region
        self.audio_input_queue = asyncio.Queue()
        self.output_queue = asyncio.Queue()
        self.supervisor_agent = SupervisorAgentIntegration(config)

    async def processToolUse(self, toolName, toolUseContent):
        if toolName == "supervisoragent":
            result = await self.supervisor_agent.query(content)
            if len(result) > 800:
                result = result(:800) + "... (truncated for voice)"
            return {"result": result}

Mejores prácticas de seguridad

Esta decisión está diseñada para fines de exposición y prueba. Antiguamente de implementar en entornos de producción, implemente controles de seguridad adecuados, incluidos:

Mecanismos de autenticación y autorización.
Controles de seguridad de la red y restricciones de entrada.
Monitoreo y registro para el cumplimiento de auditorías
Controles de costos y monitoreo de uso

Nota: Siga siempre las mejores prácticas de seguridad de AWS y el principio de privilegio imperceptible al configurar los permisos de IAM.

Consideraciones de producción

Si aceptablemente esta decisión demuestra las capacidades de Strands Agents utilizando un enfoque de implementación centrado en el exposición, las organizaciones que planean implementaciones de producción deben considerar Amazon Bedrock AgentCore Tiempo de ejecución para alojamiento y dirección de nivel empresarial. Amazon Bedrock AgentCore Beneficios para la implementación de producción:

Tiempo de ejecución sin servidor: diseñado específicamente para implementar y progresar agentes dinámicos de IA sin mandar la infraestructura
Aislamiento de sesión: aislamiento completo de sesión con microVM dedicadas para cada sesión de adjudicatario, fundamental para los agentes que realizan operaciones privilegiadas
Escalado obligatorio: aumente hasta miles de sesiones de agentes en segundos con precios de plazo por uso
Seguridad empresarial: controles de seguridad integrados con integración perfecta con proveedores de identidad (Cognito AmazonasMicrosoft Entra ID, Okta)
Observabilidad: capacidades integradas de seguimiento distribuido, métricas y depuración a través de la integración de Cloudwatch
Persistencia de sesión: Enormemente confiable con persistencia de sesión para interacciones de agentes de larga duración

Para organizaciones listas para ir más allá del exposición y las pruebas, Amazon Bedrock AgentCore Runtime proporciona la pulvínulo letanía para producción necesaria para implementar asistentes de AWS controlados por voz a escalera empresarial.

Integración con servicios adicionales de AWS

El sistema se puede ampliar para recibir servicios de AWS adicionales:

Conclusión

El Agentes de hebras Nova Voice Assistant demuestra el poderoso potencial de combinar interfaces de voz con la orquestación inteligente de agentes en diversos dominios. Aprovechando Amazon Nova Sonic para el procesamiento del acento y Agentes de hebras Para la coordinación de múltiples agentes, las organizaciones pueden crear formas más intuitivas y eficientes de interactuar con sistemas y flujos de trabajo complejos.

Esta cimentación fundamental se extiende mucho más allá de las operaciones en la aglomeración para permitir soluciones impulsadas por voz para la automatización del servicio al cliente, examen financiero, dirección de dispositivos IoT, flujos de trabajo de atención médica, optimización de la esclavitud de suministro y muchas otras aplicaciones empresariales. La combinación de procesamiento de habla natural, enrutamiento inteligente y conocimiento de dominio especializado crea una plataforma versátil para variar la forma en que los usuarios interactúan con cualquier sistema confuso. La cimentación modular garantiza escalabilidad y extensibilidad, lo que permite a las organizaciones personalizar la decisión para sus dominios y casos de uso específicos. A medida que las interfaces de voz continúan evolucionando y las capacidades de IA avanzan, es probable que soluciones como ésta se vuelvan cada vez más importantes para resolver entornos complejos en todas las industrias.

Empezando

¿Está despierto para crear su propio asistente de operaciones de AWS con tecnología de voz? El código fuente completo y la documentación están disponibles en el Repositorio de GitHub. Siga esta cicerone de implementación para comenzar y no dude en personalizar la decisión para sus casos de uso específicos.

Si tiene preguntas, comentarios o contribuciones, visite el repositorio del esquema o comuníquese con los foros de la comunidad de AWS.

Sobre los autores:

Jagdish Komakula es un apasionado consejero sénior de entrega que trabaja con los servicios profesionales de AWS. Con más de dos décadas de experiencia en tecnología de la información, ayudó a numerosos clientes empresariales a navegar con éxito en sus viajes de transformación digital e iniciativas de asimilación de la aglomeración.

Aditya Ambati es un experimentado ingeniero de DevOps con más de 14 abriles de experiencia en TI. Tiene una excelente reputación por resolver problemas, mejorar la satisfacción del cliente e impulsar mejoras operativas generales.

Anand Krishna Varanasi es un experimentado constructor y arquitecto de AWS que comenzó su carrera hace más de 17 abriles. Tutela a los clientes con estrategias de migración de tecnología de aglomeración de vanguardia (el 7 rupias) y modernización. Le apasiona el papel que desempeña la tecnología a la hora de unir el presente con todas las posibilidades para nuestro futuro.

DTVRL Phani Kumar es un consejero soñador de DevOps con más de 10 abriles de liderazgo tecnológico renovador, especializado en estrategias de automatización transformadoras. Como ingeniero distinguido, une de modo experta las innovaciones de IA/ML con las prácticas de DevOps, brindando constantemente soluciones revolucionarias que redefinen la excelencia operativa y las experiencias de los clientes. Su enfoque decisivo y dominio técnico lo han posicionado como un líder intelectual en el impulso de cambios de tipo tecnológico.

Etiquetado Amazon, asistente, AWS, con, controlado, creación, Nova, por, Sonic, voz