Automatización del navegador impulsada por agentes de IA para la encargo del flujo de trabajo empresarial

Las organizaciones empresariales dependen cada vez más de aplicaciones basadas en web para procesos comerciales críticos; sin bloqueo, muchos flujos de trabajo siguen siendo intensivos manualmente, lo que genera ineficiencias operativas y riesgos de cumplimiento. A pesar de las importantes inversiones en tecnología, los trabajadores del conocimiento navegan asiduamente entre ocho y doce aplicaciones web diferentes durante los flujos de trabajo tipificado, cambiando constantemente de contexto y transfiriendo información manualmente entre sistemas. Las tareas de entrada y brío de datos consumen aproximadamente entre el 25 % y el 30 % del tiempo de los trabajadores, mientras que los procesos manuales crean cuellos de botella en el cumplimiento y desafíos de coherencia de los datos entre sistemas que requieren una demostración humana continua. Los enfoques de automatización tradicionales tienen limitaciones importantes. Si correctamente la automatización robótica de procesos (RPA) funciona para procesos estructurados y basados en reglas, se vuelve frágil cuando las aplicaciones se actualizan y requiere un mantenimiento continuo. La integración basada en API sigue siendo óptima, pero muchos sistemas heredados carecen de capacidades modernas. Las plataformas de encargo de procesos de negocio proporcionan orquestación, pero luchan con puntos de atrevimiento complejos y la interacción web directa. Como resultado, la mayoría de las empresas operan con enfoques mixtos en los que solo el 30 % de las tareas del flujo de trabajo están completamente automatizadas, el 50 % requiere supervisión humana y el 20 % siguen siendo completamente manuales.

Estos desafíos se manifiestan en los flujos de trabajo empresariales comunes. Por ejemplo, la brío de órdenes de adquisición requiere navegación inteligente a través de múltiples sistemas para realizar una comparación triple entre órdenes de adquisición (PO), recibos y facturas mientras se mantienen registros de auditoría. La incorporación de empleados exige un suministro de entrada coordinado a través de la encargo de identidades, la encargo de relaciones con los clientes (CRM), la planificación de bienes empresariales (ERP) y las plataformas de colaboración con toma de decisiones basada en roles. Finalmente, el procesamiento de pedidos de comercio electrónico debe procesar de forma inteligente los pedidos en múltiples sitios web de minoristas que carecen de entrada API nativo. Los agentes de inteligencia industrial (IA) representan un avance significativo más allá de estas soluciones tradicionales, ya que ofrecen capacidades que pueden navegar inteligentemente por la complejidad, adaptarse a entornos dinámicos y compendiar drásticamente la intervención manual en los flujos de trabajo empresariales.

En esta publicación, demostramos cómo una plataforma de encargo de pedidos de comercio electrónico puede automatizar los flujos de trabajo de procesamiento de pedidos en múltiples sitios web minoristas a través de agentes de inteligencia industrial como Ley Nova del Amazonas y Agente de hebras usando Navegador Amazon Bedrock AgentCore a escalera.

Flujo de trabajo de automatización de pedidos de comercio electrónico

Este flujo de trabajo demuestra cómo los agentes de IA pueden automatizar de forma inteligente el procesamiento de pedidos complejos y de varios pasos en diversos sitios web de minoristas que carecen de integración API nativa, combinando la navegación adaptable del navegador con la supervisión humana para el manejo de excepciones.

Los siguientes componentes trabajan juntos para permitir un procesamiento de pedidos escalable impulsado por IA:

Las tareas de ECS Fargate ejecutan el backend Python FastAPI en contenedores con el frontend React, lo que proporciona conexiones WebSocket para la automatización de pedidos en tiempo verdadero. Las tareas se escalan automáticamente según la demanda.
La aplicación se integra con Amazon Bedrock y Amazon Nova Act para la automatización de pedidos impulsada por IA. AgentCore Browser Tool proporciona un entorno de navegador seguro y eventual para la automatización web. Main Agent organiza Nova Act Agent y Strands + Playwright Agent para un control inteligente del navegador.

El flujo de trabajo de automatización de pedidos de comercio electrónico representa un desafío empresarial popular en el que las empresas necesitan procesar pedidos en varios sitios web de minoristas sin entrada API nativo. Este flujo de trabajo demuestra todas las capacidades de la automatización del navegador impulsada por IA, desde la navegación original hasta la toma de decisiones complejas y la intervención humana. Contamos con una muestra de automatización de comercio electrónico agente creada que tenemos de código despejado en Repositorio de muestras de AWS en GitHub.

Proceso de flujo de trabajo

Los usuarios del sistema de encargo de pedidos de comercio electrónico envían los pedidos de los clientes a través de una interfaz web o carga CSV por lotes, incluidos los detalles del producto (URL, tamaño, color), información del cliente y dirección de expedición. El sistema asigna niveles de prioridad y pone en pan dulce los pedidos para su procesamiento. Cuando se inicia un pedido, Amazon Bedrock AgentCore Browser crea una sesión de navegador aislada con conectividad Chrome DevTools Protocol (CDP). Amazon Bedrock AgentCore Browser proporciona un navegador seguro basado en la cúmulo que permite al agente de IA (agente de Amazon Nova Act y Strands en este caso) interactuar con sitios web. Incluye funciones de seguridad como aislamiento de sesiones, observabilidad integrada a través de visualización en vivo, AWS CloudTrail capacidades de registro y reproducción de sesiones. El sistema recupera las credenciales del minorista de Administrador de secretos de AWS y genera una URL de audiencia en vivo usando Amazon DCV streaming para monitoreo en tiempo verdadero. El ulterior diagrama ilustra todo el proceso de flujo de trabajo del pedido.

Automatización del navegador con llenado de formularios y expedición de pedidos.

El llenado de formularios representa una capacidad crítica donde el agente detecta y completa de forma inteligente varios tipos de campos en diferentes diseños de suscripción de minoristas. El agente de IA encuentro la página del producto, gestiona la autenticación si es necesario y analiza la página para identificar selectores de tamaño, opciones de color y chico del carrito. Selecciona opciones específicas, agrega artículos al carrito y procede al suscripción, completando la información de expedición con detección de campo inteligente en diferentes diseños de minoristas. Si los productos están agotados o no están disponibles, el agente pasa a una revisión humana con contexto sobre las alternativas.

La aplicación de ejemplo emplea dos enfoques distintos según el método de automatización. Ley Nova del Amazonas utiliza la comprensión visual y la estructura DOM de la página web, lo que permite al agente de Nova Act acoger instrucciones en jerigonza natural como «completar la dirección de expedición» e identificar automáticamente los campos del formulario a partir de la captura de pantalla, adaptándose a diferentes diseños sin selectores predefinidos. En contraste, el Hilos + La combinación del Protocolo de contexto del maniquí (MCP) de Playwright utiliza modelos Bedrock para analizar la estructura del Maniquí de objetos de documento (DOM) de la página, determina los selectores de campos de formulario apropiados y luego Playwright MCP ejecuta las interacciones del navegador de bajo nivel para completar los campos con datos del cliente. Los dos enfoques se adaptan automáticamente a diversas interfaces de suscripción de minoristas, eliminando la fragilidad de la automatización tradicional basada en selectores.

Humano en el circuito

Cuando encuentra CAPTCHA o desafíos complejos, el agente detiene la automatización y notifica a los operadores a través de WebSocket. Los operadores acceden a la audiencia en vivo para ver el estado exacto del navegador, resolver el problema manualmente y activar la reanudación. AgentCore Browser permite que el navegador humano tome el control y devuelva el control al agente. El agente continúa desde el estado flagrante sin reiniciar todo el proceso.

Observabilidad y escalera

Durante la ejecución, el sistema captura grabaciones de sesiones almacenadas en S3, capturas de pantalla en pasos críticos y registros de ejecución detallados con marcas de tiempo. Los operadores monitorean el progreso a través de un panel en tiempo verdadero que muestra el estado del pedido, el paso flagrante y el porcentaje de progreso. Para escenarios de gran grosor, el procesamiento por lotes admite la ejecución paralela de múltiples órdenes con trabajadores configurables (1-10), colas basadas en prioridades y método de reintento obligatorio para fallas transitorias.

Conclusión

La automatización del navegador impulsada por agentes de IA representa un cambio fundamental en la forma en que las empresas abordan la encargo del flujo de trabajo. Al combinar la toma de decisiones inteligente, la navegación adaptable y las capacidades de billete humana, las organizaciones pueden ir más allá de la división 30-50-20 de la automatización tradicional alrededor de tasas de automatización significativamente más altas en flujos de trabajo complejos y multisistema. El ejemplo de automatización de pedidos de comercio electrónico demuestra que los agentes de IA no reemplazan a la RPA tradicional: permiten la automatización de flujos de trabajo que antiguamente se consideraban demasiado dinámicos o complejos para la automatización, manejan diversas interfaces de legatario, toman decisiones contextuales y mantienen el cumplimiento y la auditabilidad totales.

A medida que las empresas enfrentan una presión cada vez veterano para mejorar la eficiencia operativa mientras administran sistemas heredados e integraciones complejas, los agentes de IA ofrecen un camino práctico a seguir. En sitio de volver en costosas revisiones del sistema o aceptar las ineficiencias de los procesos manuales, las organizaciones pueden implementar una automatización inteligente del navegador que se adapte a su panorama tecnológico existente. El resultado es una reducción de los costos operativos, tiempos de procesamiento más rápidos, un mejor cumplimiento y, lo más importante, la exención de los trabajadores del conocimiento de tareas repetitivas de entrada de datos y navegación del sistema, lo que les permite centrarse en actividades de veterano valencia que impulsan el impacto empresarial.

Sobre los autores

Kosti Vasilakakis es PM principal en AWS en el equipo de Agentic AI, donde ha dirigido el diseño y expansión de varios servicios Bedrock AgentCore desde cero, incluidos Runtime, Browser, Code Interpreter e Identity. Anteriormente trabajó en Amazon SageMaker desde sus inicios, lanzando capacidades de IA/ML que ahora utilizan miles de empresas en todo el mundo. Al principio de su carrera, Kosti fue sabio de datos. Fuera del trabajo, crea automatizaciones de productividad personal, juega tenis y disfruta de la vida con su esposa e hijos.

Privación Raman es arquitecto senior de soluciones para IA generativa para Amazon Nova y Agentic AI en AWS. Ayuda a los clientes a diseñar y crear soluciones de IA Agentic utilizando modelos de Amazon Nova y Bedrock AgentCore. Anteriormente trabajó con clientes creando soluciones de formación obligatorio utilizando Amazon SageMaker y asimismo como arquitecta de soluciones sin servidor en AWS.

Sanghwa Na es arquitecto de soluciones doble en IA generativa en Amazon Web Services. Con sede en San Francisco, trabaja con clientes para diseñar y crear soluciones de IA generativa utilizando grandes modelos de jerigonza y modelos básicos en AWS. Se centra en ayudar a las organizaciones a adoptar tecnologías de inteligencia industrial que impulsen un valencia empresarial verdadero.

Etiquetado agentes, automatización, del, empresarial, flujo, gestión, impulsada, navegador, para, por, trabajo