Microsoft AI libera omniparser v2: una útil de IA que convierte cualquier LLM en un agente de uso de una computadora

En el ámbito de la inteligencia fabricado, permitir que los modelos de idiomas grandes (LLM) naveguen e interactúen con las interfaces gráficas de legatario (GUI) ha sido un desafío importante. Si adecuadamente los LLM son expertos en procesar datos textuales, a menudo encuentran dificultades al interpretar medios visuales como íconos, ordenanza y menús. Esta inconveniente […]