Athrun Data Intelligence


Los agentes de automatización web se han convertido en un enfoque creciente en la inteligencia sintético, particularmente conveniente a su capacidad para ejecutar acciones similares a los humanos en entornos digitales. Estos agentes interactúan con sitios web a través de interfaces gráficas de usufructuario (GUI), imitando comportamientos humanos como hacer clic, escribir y navegar en las páginas web. Este enfoque evita la carestia de interfaces de programación de aplicaciones dedicadas (API), que a menudo no están disponibles o limitadas en muchas aplicaciones web. En cambio, estos agentes pueden trabajar internacionalmente en todos los dominios web, haciéndolos herramientas flexibles para una amplia serie de tareas. La proceso de los modelos de estilo espacioso (LLM) ha permitido a estos agentes no solo interpretar el contenido web sino igualmente razonar, planificar y comportarse con una sofisticación creciente. A medida que sus habilidades crecen, igualmente lo hace la carestia de evaluarlas en más que solo tareas de navegación simples. Los puntos de relato que alguna vez fueron suficientes para los primeros modelos ya no son capaces de determinar la extensión total de las capacidades de los agentes modernos.

A medida que progresan estos agentes web, surge un problema apremiante: su competencia en el manejo de tareas digitales mundanas, intensivas en memoria y de múltiples pasos sigue siendo insuficientemente medida. Muchas tareas que los humanos realizan en sitios web, como recuperar datos de diferentes páginas, realizar cálculos basados ​​en entradas anteriores o aplicar reglas complejas, requieren un esfuerzo cognitivo significativo. Estos no son simplemente desafíos de navegación; Proban la memoria, la método y la planificación a prolongado plazo. Sin bloqueo, la mayoría de los puntos de relato se centran en escenarios simplificados, sin reverberar los tipos de tareas digitales que las personas a menudo prefieren evitar. Encima, las limitaciones en estos puntos de relato se hacen más evidentes a medida que los agentes mejoran su rendimiento. Las ambigüedades en las instrucciones o inconsistencias de la tarea en los resultados esperados comienzan a sesgar las evaluaciones. Cuando los agentes generan respuestas razonables pero levemente divergentes, se penalizan incorrectamente conveniente a las vagas definiciones de tareas. Tales defectos dificultan la distinción entre las verdaderas limitaciones del maniquí y las deficiencias de relato.

Los esfuerzos anteriores para evaluar los agentes web se han centrado en puntos de relato como Webarena. Webarena obtuvo una asimilación generalizada conveniente a su reproducibilidad y capacidad para aparentar sitios web del mundo actual, incluidas las plataformas Reddit, GitLab y de comercio electrónico. Ofreció más de 800 tareas diseñadas para probar la capacidad de un agente para completar los objetivos basados ​​en la web interiormente de estos entornos. Sin bloqueo, estas tareas se centraron principalmente en la navegación genérico y no desafiaron adecuadamente a los agentes más avanzados. Otros puntos de relato, como Mind2Web, Gaia y Mmin, contribuyeron explorando tareas web reales o entornos específicos de la plataforma como ServiceNow, pero cada uno caldo con compensaciones. Algunos carecían de interactividad, otros no apoyaban la reproducibilidad, y otros estaban demasiado limitados. Estas limitaciones crearon una brecha en la medición del progreso del agente en áreas que requieren una toma de decisiones complejas, memoria a prolongado plazo y un procesamiento de datos preciso en múltiples páginas web.

Investigadores de la Universidad de Tokio introdujeron Webchorearena. Este entorno ampliado se podio en la estructura de Webarena, pero aumenta significativamente la dificultad y la complejidad de la tarea. WebChorearena presenta un total de 532 tareas recientemente seleccionadas, distribuidas en los mismos cuatro sitios web simulados. Estas tareas están diseñadas para ser más exigentes, lo que refleja escenarios en los que los agentes deben participar en tareas como la agregación de datos, el retiro de memoria y el razonamiento de múltiples pasos. Es importante destacar que el punto de relato se construyó para respaldar una reproducibilidad y estandarización completa, lo que permite comparaciones justas entre los agentes y evitando las ambigüedades encontradas en las herramientas anteriores. La inclusión de diversos tipos de tareas y modalidades de entrada ayuda a aparentar el uso de la web realista y evalúa a los agentes en una escalera más destreza y desafiante.

WebChorearena clasifica sus tareas en cuatro tipos principales. Ciento diecisiete tareas se encuentran en una memoria masiva, lo que requiere que los agentes extraen y recuerden grandes volúmenes de información, como inventariar todos los nombres de clientes vinculados a transacciones de suspensión valencia. Las tareas de cálculo, que incluyen 132 entradas, involucran operaciones aritméticas como identificar los meses más altos en función de múltiples puntos de datos. Tareas de memoria a prolongado plazo número 127 y pruebe la capacidad del agente para conectar información en varias páginas, como recuperar las reglas de precios de un sitio y aplicarlas en otro. Se clasifican 65 tareas adicionales como ‘otras’, incluidas operaciones como asignar etiquetas en GitLab que no se ajustan a los formatos de tareas tradicionales. Cada tarea especifica su modalidad de entrada, con 451 tareas solucionables con cualquier tipo de observación, 69 que requieren solo entrada textual y 12 dependientes exclusivamente en las entradas de imágenes.

Al evaluar el punto de relato, los investigadores utilizaron tres modelos de idiomas grandes prominentes: GPT-4O, Claude 3.7 Sonnet y Gemini 2.5 Pro. Estos fueron probados adjunto con dos agentes web avanzados, AgentOccam y BrowsergyM. Los resultados resaltaron la anciano dificultad de WebChorearena en comparación con los puntos de relato anteriores. GPT-4O, que había corto una precisión del 42.8% en Webarena, administró solo un 6.8% en WebChorearena. Claude 3.7 Sonnet y Gemini 2.5 Pro funcionó mejor, con Gemini alcanzando una precisión máxima del 44.9%. A pesar de ser el mejor desempeño, este resultado aún reflejó brechas significativas en la capacidad al tratar con las tareas más complejas de WebChorearena. El punto de relato igualmente demostró ser más sensible para detectar las diferencias de rendimiento entre los modelos, por lo que es una utensilio valiosa para la evaluación comparativa de avances continuos en las tecnologías de agentes web.

Varias conclusiones secreto de la investigación incluyen:

  • WebChorearena incluye 532 tareas: 117 memoria masiva, 132 cálculos, 127 memoria a prolongado plazo y otros 65.
  • Las tareas se distribuyen a través de las compras (117), el administrador de compras (132), Reddit (91), Gitlab (127) y 65 escenarios de sitios cruzados.
  • Tipos de entrada: 451 tareas se pueden solucionar con cualquier entrada, 69 requieren entrada textual y 12 carestia de entrada de imagen.
  • GPT-4O obtuvo solo 6.8% en WebChorearena en comparación con el 42.8% en Webarena.
  • Gemini 2.5 Pro logró el puntaje más suspensión con 44.9%, lo que indica limitaciones actuales en el manejo de tareas complejas.
  • WebChorearena proporciona un gradiente de rendimiento más claro entre modelos que Webarena, mejorando el valencia de evaluación comparativa.
  • Se utilizaron un total de 117 plantillas de tareas para respaldar la diversificación y la reproducibilidad en aproximadamente 4.5 instancias por plantilla.
  • El punto de relato exigió más de 300 horas de anotación y refinamiento, lo que refleja su rigurosa construcción.
  • Las evaluaciones utilizan la coincidencia de cadenas, la coincidencia de URL y las comparaciones de estructura HTML para evaluar la precisión.

En conclusión, esta investigación destaca la disparidad entre el dominio genérico de la navegación y las habilidades cognitivas de orden superior necesarias para las tareas basadas en la web. El recién introducido WebChorearena se erige como un punto de relato robusto y detallado diseñado específicamente para empujar a los agentes web a territorios donde deben entregarse en manos en el razonamiento, la memoria y la método. Reemplaza la confusión con la estandarización, y sus tareas imitan el trabajo pesado digital que los agentes deben educarse a manejar si van a ser positivamente efectos para automatizar las actividades del mundo actual.


Mira el Papel, Página de Github y Página del tesina. Todo el crédito por esta investigación va a los investigadores de este tesina.

🆕 ¿Sabías? MarktechPost es la plataforma de medios AI de más rápido crecimiento, remunerada por más de 1 millón de lectores mensuales. Reserve una convocatoria de organización para discutir los objetivos de su campaña. Encima, siéntete dispensado de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero soñador, ASIF se compromete a explotar el potencial de la inteligencia sintético para el admisiblemente social. Su esfuerzo más nuevo es el impulso de una plataforma de medios de inteligencia sintético, MarktechPost, que se destaca por su cobertura profunda de noticiario de enseñanza instintivo y de enseñanza profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el conocido.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *