Qualifire AI Open-Sources Rogue: un situación de pruebas de inteligencia químico de extremo a extremo diseñado para evaluar el rendimiento, el cumplimiento y la confiabilidad de los agentes de inteligencia químico

Los sistemas agentes son estocásticos, dependientes del contexto y sujetos a políticas. El control de calidad convencional (pruebas unitarias, indicaciones estáticas o puntuaciones escalares de «LLM como magistrado») no expone las vulnerabilidades de múltiples turnos y proporciona pistas de auditoría débiles. Los equipos de desarrolladores necesitan conversaciones con protocolos precisos, verificaciones de políticas explícitas y evidencia claro por máquina que pueda controlar los lanzamientos con confianza.

Qualifire AI tiene código campechano Pícaroun situación de Python que evalúa agentes de IA a través de Agent-to-Agent (A2A) protocolo. Rogue convierte las políticas comerciales en escenarios ejecutables, impulsa interacciones de múltiples turnos contra un agente objetivo y genera informes deterministas adecuados para CI/CD y revisiones de cumplimiento.

Inicio rápido

Requisitos previos

uvx: si no está instalado, siga preceptor de instalación ultravioleta
Pitón 3.10+
Una secreto API para un proveedor de LLM (por ejemplo, OpenAI, Google, Anthropic).

Instalación

Opción 1: Instalación rápida (recomendada)

Utilice nuestro script de instalación automatizada para comenzar a funcionar rápidamente:

# TUI
uvx rogue-ai
# Web UI
uvx rogue-ai ui
# CLI / CI/CD
uvx rogue-ai cli

Opción 2: Instalación manual

(a) Clonar el repositorio:

git clone https://github.com/qualifire-dev/rogue.git
cd rogue

(b) Instalar dependencias:

Si estás usando ultravioleta:

O, si estás usando pip:

(c) OPCIONALMENTE: Configure sus variables de entorno: cree un archivo .env en el directorio raíz y agregue sus claves API. Rogue usa LiteLLM, por lo que puedes configurar claves para varios proveedores.

OPENAI_API_KEY="sk-..."
ANTHROPIC_API_KEY="sk-..."
GOOGLE_API_KEY="..."

Corredor pícaro

Rogue opera en un clienteservidor edificio donde la método de evaluación central se ejecuta en un servidor backend y varios clientes se conectan a él para diferentes interfaces.

Comportamiento predeterminado

Cuando ejecuta uvx rogue-ai sin ningún modo especificado,:

Inicia el servidor Rogue en segundo plano.
Inicia el cliente TUI (Terminal User Interface)

Modos disponibles

Predeterminado (Servidor + TUI): uvx rogue-ai – Inicia el servidor en segundo plano + cliente TUI
Servidor: servidor uvx rogue-ai: ejecuta solo el servidor backend
TUI: uvx rogue-ai tui: ejecuta solo el cliente TUI (requiere la ejecución del servidor)
Interfaz de sucesor web: uvx rogue-ai ui: ejecuta solo el cliente de interfaz web Gradio (requiere la ejecución del servidor)
CLI: uvx rogue-ai cli: ejecuta una evaluación de confín de comandos no interactiva (requiere la ejecución del servidor, ideal para CI/CD)

Argumentos de modo

Modo servidor

uvx rogue-ai server (OPTIONS)

Opciones:

–host HOST: host en el que ejecutar el servidor (predeterminado: 127.0.0.1 o HOST env var)
–port PORT: puerto en el que ejecutar el servidor (predeterminado: 8000 o PORT env var)
–debug: habilita el registro de depuración

Modo TUI

uvx rogue-ai tui (OPTIONS)
Web UI Mode
uvx rogue-ai ui (OPTIONS)

Opciones:

–rogue-server-url URL: URL del servidor fraudulento (predeterminado: http://localhost:8000)
–port PORT: puerto en el que ejecutar la interfaz de sucesor
–workdir WORKDIR – Directorio de trabajo (predeterminado: ./.rogue)
–debug: habilita el registro de depuración

Ejemplo: prueba del agente de la tienda de camisetas

Este repositorio incluye un agente de ejemplo sencillo que vende camisetas. Puedes usarlo para ver a Rogue en influencia.

Instalar dependencias de ejemplo:

Si estás usando ultravioleta:

o, si estás usando pip:

pip install -e .(examples)

(a) Inicie el servidor del agente de ejemplo en una terminal separada:

Si estás usando ultravioleta:

uv run examples/tshirt_store_agent

Si no:

python examples/tshirt_store_agent

Esto iniciará el agente en http://localhost:10001.

(b) Configurar Pícaro en la interfaz de sucesor para señalar el agente de ejemplo:

URL del agente: http://localhost:10001
Autenticación: sin autenticación

(c) Ejecutar la evaluación y observar Pícaro ¡Pruebe las políticas del agente de camisetas!

Puede utilizar el modo TUI (uvx rogue-ai) o Web UI (uvx rogue-ai ui).

Dónde encaja Rogue: casos de uso prácticos

Fortalecimiento de seguridad y cumplimiento: Valide el manejo de PII/PHI, el comportamiento de rechazo, la prevención de fugas de secretos y las políticas de dominio regulado con evidencia anclada en transcripciones.
Agentes de soporte y comercio electrónico: Aplique descuentos controlados por OTP, reglas de reembolso, escalamiento basado en SLA y corrección del uso de herramientas (búsqueda de pedidos, expulsión de boletos) en condiciones adversas y de descompostura.
Agentes desarrolladores/DevOps: Evalúe los copilotos de modificación de código y CLI para determinar el confinamiento del espacio de trabajo, la semántica de reversión, el comportamiento de linde/retroceso de velocidad y la prevención de comandos inseguros.
Sistemas multiagente: Comprobar los contratos del planificador↔ejecutor, la negociación de capacidades y la conformidad del esquema sobre A2A; evaluar la interoperabilidad entre marcos heterogéneos.
Monitoreo de regresión y deriva: Suites nocturnas contra nuevas versiones de modelos o cambios rápidos; detectar cambios de comportamiento y aplicar criterios de aprobación críticos para las políticas antiguamente del impulso.

¿Qué es exactamente Rogue y por qué debería importarle a los equipos de expansión de agentes?

Pícaro es un situación de pruebas de un extremo a otro diseñado para evaluar el rendimiento, el cumplimiento y la confiabilidad de los agentes de IA. Pícaro sintetiza el contexto empresarial y el aventura en pruebas estructuradas con objetivos, tácticas y criterios de éxito claros. EvaluatorAgent ejecuta conversaciones con protocolo correcto en modos rápidos de un solo turno o profundos de confrontación de múltiples turnos. Trae tu propio maniquí o deja que Pícaro Utilice los jueces SLM personalizados de Qualifire para realizar las pruebas. Observabilidad de la transmisión y artefactos deterministas: transcripciones en vivo, veredictos de aprobación/rechazo, fundamentos vinculados a la duración de las transcripciones, tiempos y condición del maniquí/interpretación.

Debajo del capó: cómo se construye Rogue

Rogue opera en una edificio cliente-servidor:

Servidor fraudulento: Contiene la método de evaluación central.
Interfaces de cliente: Múltiples interfaces que se conectan al servidor:
- TUI (Terminal UI): interfaz de terminal moderna construida con Go y Bubble Tea
- Interfaz de sucesor web: Interfaz web basada en Gradio
- CLI: Interfaz de confín de comandos para evaluación automatizada y CI/CD

Esta edificio permite patrones de uso e implementación flexibles, donde el servidor puede ejecutarse de forma independiente y varios clientes pueden conectarse a él simultáneamente.

Sumario

Pícaro ayuda a los equipos de desarrolladores a probar el comportamiento de los agentes tal como se ejecuta verdaderamente en producción. Convierte las políticas escritas en escenarios concretos, ejercita esos escenarios en A2A y registra lo que sucedió con transcripciones que puedes auditar. El resultado es una señal clara y repetible que puede utilizar en CI/CD para detectar rupturas y regresiones de políticas antiguamente de que se envíen.

Gracias al equipo de Qualifire por el liderazgo intelectual y los fortuna para este artículo. El equipo de Qualifire ha apoyado este contenido/artículo.

Asif Razzaq es el director ejecutor de Marktechpost Media Inc.. Como patrón e ingeniero quimérico, Asif está comprometido a utilizar el potencial de la inteligencia químico para el proporcionadamente social. Su esfuerzo más flamante es el impulso de una plataforma de medios de inteligencia químico, Marktechpost, que se destaca por su cobertura en profundidad del enseñanza mecánico y las noticiario sobre enseñanza profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el notorio.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

Etiquetado agentes, Artificial, confiabilidad, cumplimiento, diseñado, evaluar, extremo, inteligencia, los, marco, OpenSources, para, pruebas, Qualifire, rendimiento, Rogue