En el ámbito de la inteligencia fabricado, permitir que los modelos de idiomas grandes (LLM) naveguen e interactúen con las interfaces gráficas de legatario (GUI) ha sido un desafío importante. Si adecuadamente los LLM son expertos en procesar datos textuales, a menudo encuentran dificultades al interpretar medios visuales como íconos, ordenanza y menús. Esta inconveniente restringe su efectividad en tareas que requieren una interacción perfecta con las interfaces de software, que son predominantemente visuales.
Para enfrentarse este problema, Microsoft ha introducido Omniparser V2, una útil diseñada para mejorar las capacidades de comprensión de la GUI de LLMS. Omniparser V2 convierte las capturas de pantalla de UI en datos estructurados y legibles por máquina, lo que permite a LLM comprender e interactuar con varias interfaces de software de forma más efectiva. Este ampliación tiene como objetivo cerrar la brecha entre el procesamiento de datos textuales y visuales, facilitando aplicaciones de IA más completas.
Omniparser V2 opera a través de dos componentes principales: detección y subtítulos. El módulo de detección emplea una lectura ajustada del maniquí YOLOV8 para identificar medios interactivos adentro de una captura de pantalla, como ordenanza e iconos. Simultáneamente, el módulo de subtítulos utiliza un maniquí almohadilla Florence-2 cabal para crear etiquetas descriptivas para estos medios, proporcionando contexto sobre sus funciones adentro de la interfaz. Este enfoque combinado permite a los LLM construir una comprensión detallada de la GUI, que es esencial para la interacción precisa y la ejecución de la tarea.
Una mejoría significativa en Omniparser V2 es la mejoría de sus conjuntos de datos de entrenamiento. La útil ha sido capacitada en un conjunto más extenso y refinado de subtítulos de iconos y datos de conexión a tierra, obtenidos de páginas y aplicaciones web ampliamente utilizadas. Este conjunto de datos enriquecido mejoría la precisión del maniquí para detectar y describir medios interactivos más pequeños, que son cruciales para una interacción GUI efectiva. Adicionalmente, al optimizar el tamaño de la imagen procesado por el maniquí de subtítulos de iconos, Omniparser V2 logra una reducción del 60% en la latencia en comparación con su lectura susodicho, con un tiempo de procesamiento promedio de 0.6 segundos por cuadro en una GPU A100 y 0.8 segundos en un solo RTX 4090 GPU.

La efectividad de Omniparser V2 se demuestra a través de su desempeño en el punto de narración de PROVENSPOT PRO, un entorno de evaluación para las capacidades de fundamento de la GUI. Cuando se combina con GPT-4O, el V2 Omniparser logró una precisión promedio del 39.6%, un aumento importante del puntaje de narración de GPT-4O de 0.8%. Esta mejoría destaca la capacidad de la útil para permitir que los LLM interpreten e interactúen con precisión con GUI complejas, incluso aquellas con pantallas de entrada resolución e íconos de objetivos pequeños.
Para apoyar la integración y la experimentación, Microsoft ha desarrollado Omnitool, un sistema de Windows dockerizado que incorpora V2 Omniparser anejo con herramientas esenciales para el ampliación de agentes. Omnitool es compatible con varios LLM de última coexistentes, incluidos los 4o/o1/o3-Mini de OpenAI, Deepseek’s R1, el 2.5VL de Qwen y el soneto de Anthrope. Esta flexibilidad permite a los desarrolladores utilizar V2 omniparser en diferentes modelos y aplicaciones, simplificando la creación de agentes de GUI basados en la visión.
En síntesis, Omniparser V2 representa un avance significativo en la integración de LLM con interfaces gráficas de legatario. Al convertir las capturas de pantalla de la interfaz de legatario en datos estructurados, permite a LLM comprender e interactuar con las interfaces de software de forma más efectiva. Las mejoras técnicas en la precisión de la detección, la reducción de la latencia y el rendimiento de narración hacen que Omniparser V2 sea una útil valiosa para los desarrolladores con el objetivo de crear agentes inteligentes capaces de navegar y manipular las GUI de forma autónoma. A medida que AI continúa evolucionando, herramientas como Omniparser V2 son esenciales para cerrar la brecha entre el procesamiento de datos textuales y visuales, lo que lleva a sistemas de IA más intuitivos y capaces.
Probar el Detalle técnico, Maniquí en HF y Página de Github. Todo el crédito por esta investigación va a los investigadores de este esquema. Adicionalmente, siéntete huido de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble naturaleza en IIT Madras, le apasiona aplicar tecnología e IA para enfrentarse los desafíos del mundo existente. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida existente.