Los agentes GenAI de entrada calidad deben evaluarse continuamente. Pero cuando amplía las pruebas, los costos pueden aventajar su presupuesto. Con MLflow en Databricks, los equipos pueden probar agentes en muchas métricas sin que el costo se convierta en una barrera.
Nuevo maniquí de precios basado en tokens para jueces predefinidos
A medida que los agentes pasan del prototipo a la producción, el éxito depende de la comprensión de su dominio (por ejemplo, contratos, atención al cliente, presentaciones), no sólo de puntos de narración generales. Los jueces predefinidos de MLflow ayudan a evaluar la corrección, la fidelidad, la relevancia, la seguridad y la recuperación automáticamente en zona de servir de una ingeniería rápida.
Los clientes nos pidieron que analicemos cómo podemos mejorar los costos de evaluación a escalera de producción. Por eso, hoy lanzamos precios basados en tokens para los jueces en zona de respaldar por bloques fijos.
- Se le cobrarán 0,15 USD por millón de tokens de entrada
- Y 0,60 dólares por millón de tokens de salida.
- En promedio, los costos caen aproximadamente un 95 % sin pérdida de precisión.
Ejemplo para 10.000 trazas
Ayer
- $0.0175 por solicitud de magistrado
- 5000 tokens por solicitud
- Resultado: 10.000 trazas × 5 jueces = $875/día
Ahora
- $0.15 por 1 millón de tokens de entrada
- $0,60 por 1 millón de tokens de salida
- Resultado: 10,000 rastros × 5 jueces = $45/día
- Aporte: 50 000 solicitudes × 4000 tokens × 0,15 $/1 millón = 30 $
- Producción: 50.000 solicitudes × 500 tokens × 0,60 $/1 millón = 15 $
El enfoque basado en tokens permite una reducción drástica de los costos y una transparencia total sobre cómo se calculan.

Mensajes de evaluación de código despejado probados en batalla
Elaborar indicaciones de evaluación efectivas significa equilibrar la precisión con la eficiencia del token, particularmente para aplicaciones de dominios específicos. Los equipos pasan semanas afinándolos en temas financieros, sanitarios o documentación técnica, y cada corro repite el trabajo.
Para ayudar, estamos abriendo las indicaciones de evaluación detrás de MLflow GenAI. Se han perfeccionado en contextos específicos de la industria, como finanzas, atención médica, documentación técnica y seguridad, para funcionar proporcionadamente en escenarios del mundo auténtico. Úselos tal cual o adáptelos para sus casos de uso específicos.
Puede explorar nuestras indicaciones de calidad de producción aquí.
Estas indicaciones han sido validadas en puntos de narración rigurosos que incluyen:
- FinanceBench: respuesta a preguntas sobre documentos financieros
- HotPotQA: razonamiento de múltiples saltos entre documentos
- DocsQA: comprensión de la documentación técnica
- RAGTruth: Precisión de concepción aumentada por recuperación
- Preguntas naturales: consultas de búsqueda reales en Google
- HarmBench: seguridad LLM
- Conjuntos de datos de clientes de Databricks (con permiso)
Más allá de los jueces integrados: traiga su propio maniquí
Nuestros jueces incorporados son poderosos, pero algunas organizaciones necesitan un control total. Ahora puede conectar su propio maniquí (OpenAI, Anthropic o su maniquí adecuado) para evaluarlo sin costo adicional. Sólo pagas por el uso del maniquí.
Esto te permite:
- Cumplir con los requisitos de cumplimiento específicos para la selección de modelos.
- Aproveche los acuerdos empresariales existentes con proveedores de LLM
- Utilice modelos especializados entrenados en sus datos
- Controle todo su proceso de evaluación
Pronto para producción desde el primer día
Una evaluación rentable no significa nadie si no puede adaptarse a sus micción de producción. La evaluación de MLflow GenAI en Databricks proporciona:
- Integración de Unity Catalog: controle los seguimientos y los datos de evaluación con seguridad de nivel empresarial
- Almacenamiento en Delta Lake: almacene seguimientos y datos de evaluación en formato Delta, lo que le permite crear paneles de control personalizados y canalizaciones de datos a partir de datos de seguimiento y evaluación.
- Integración completa de MLflow: vea seguimientos y resultados de evaluación directamente en MLflow
- Computación sin servidor: pague solo por lo que usa, sin empresa de infraestructura
Empezando hoy
Los nuevos precios y las indicaciones de código despejado están disponibles de inmediato para todos los clientes de Databricks. A continuación le indicamos cómo originarse:
- Para los usuarios de evaluación de MLflow existentes: sus jueces utilizarán automáticamente el nuevo maniquí de precios; no se requiere ninguna hecho
- Para nuevos usuarios: comience con nuestro rumbo de inicio rápido. Todavía puede explorar nuestros cursos más recientes para comprender cómo crear agentes de IA en Databricks.
- Fundamentos del agente de IA: Un curso introductorio de 90 minutos sobre los conceptos básicos de los agentes de IA con ejemplos del mundo auténtico de cómo crean valía para su estructura.
- Comience con los agentes de IA: En poco más de dos horas, pase de la teoría a la creación e implementación de su primer agente en Databricks.
- Para usuarios de MLflow OSS: actualice a MLflow 3.4.0+ para obtener a las indicaciones de código despejado
Un nuevo capítulo para la evaluación de aplicaciones GenAI
Al resumir los costos en un 95 % y ofrecer indicaciones probadas en producción de código despejado, hacemos que la evaluación sea accesible a escalera. Ya sea en finanzas, atención médica o CX, puede monitorear continuamente la calidad de los agentes sin exceder su presupuesto.
¿Pronto para variar su organización de evaluación de agentes? Comience arbitrario o explora nuestro documentación.