Hoy, estamos emocionados de anunciar dos mejoras principales para modelar el ajuste fino en la fundición de AI AI: el ajuste de refuerzo (RFT) con O4-Mini, próximamente, y ajuste fino supervisado (SFT) para el maniquí 4.1-Nano, arreglado ahora.
Hoy, estamos entusiasmados de anunciar tres mejoras principales para modelar el ajuste fino en la fundición de Azure Ai,Refuerzo oportuno (RFT) con O4-Mini (próximamente), ajuste de fino supervisado (SFT) para el GPT-4.1-Nano y Maniquí Scout de Candela 4 (arreglado ahora). Estas actualizaciones reflejan nuestro compromiso continuo de capacitar a las organizaciones con herramientas para crear sistemas de IA mucho personalizados y adaptados al dominio para el impacto del mundo vivo.
Con estos nuevos modelos, estamos desbloqueando dos vías principales de la personalización de LLM: GPT-4.1-Nano es un maniquí pequeño y poderoso, ideal para la destilación, mientras que O4-Mini es el primer maniquí de razonamiento que puede ajustar, y Candela 4 Scout es el mejor maniquí de código destapado.
Refuerzo oportuno con O4-Mini
El refuerzo del ajuste fino introduce un nuevo nivel de control para alinear el comportamiento del maniquí con la dialéctica comercial compleja. Al remunerar el razonamiento preciso y penalizar los resultados indeseables, RFT mejoramiento la toma de decisiones del maniquí en entornos dinámicos o de stop peligro.
Próximamente para el O4-Mini Maniquí, RFT desbloquea nuevas posibilidades para casos de uso que requieren razonamiento adaptativo, conciencia contextual y dialéctica específica de dominio, todo mientras mantiene un rendimiento de inferencia rápida.
Impacto del mundo vivo: Draftwise
Draftwise, una startup de tecnología legítimo, utilizó el ajuste de refuerzo (RFT) en los modelos de fundición Azure Ai para mejorar el rendimiento de los modelos de razonamiento adaptados para la engendramiento y revisión de contratos. Enfrentado al desafío de entregar sugerencias mucho contextuales y legalmente sólidas a los abogados, oportuno Azure Openai Modelos que utilizan datos legales patentados para mejorar la precisión de la respuesta y adaptarse a las indicaciones matizadas del favorecido. Esto condujo a una mejoramiento del 30% en la calidad de los resultados de la búsqueda, lo que permite a los abogados redactar contratos más rápido y centrarse en el trabajo de asesoramiento de stop valía.
El refuerzo de ajuste fino en los modelos de razonamiento es un posible cambio de gozne para nosotros. Está ayudando a nuestros modelos a comprender el matiz del jerigonza legítimo y reponer de guisa más inteligente a las instrucciones de redacción complejas, lo que promete hacer que nuestro producto sea significativamente más útil para los abogados en tiempo vivo.
—James Ding, fundador y CEO de Draftwise.
¿Cuándo debe usar el ajuste de refuerzo?
El refuerzo del ajuste fino es el más adecuado para los casos de uso donde la adaptabilidad, el educación iterativo y el comportamiento específico del dominio son esenciales. Debe considerar RFT si su tablado involucra:
- Implementación de reglas personalizadas: RFT prospera en entornos donde la dialéctica de valor es mucho específica para su ordenamiento y no puede capturarse fácilmente a través de indicaciones estáticas o datos de capacitación tradicionales. Permite que los modelos aprendan reglas flexibles y en proceso que reflejan la complejidad del mundo vivo.
- Estándares operativos específicos del dominio: Ideal para escenarios donde los procedimientos internos divergen de las normas de la industria, y donde el éxito depende de agregarse a esos estándares a medida. RFT puede codificar efectivamente las variaciones de procedimiento, como plazos extendidos o umbrales de cumplimiento modificados, en el comportamiento del maniquí.
- Reincorporación complejidad de la toma de decisiones: RFT sobresale en dominios con dialéctica en capas y árboles de valor ricos en variables. Cuando los resultados dependen de navegar en numerosas subcases o pesar dinámicamente múltiples entradas, RFT ayuda a los modelos a generalizarse a través de la complejidad y ofrecer decisiones más consistentes y precisas.
Ejemplo: Aviso de riqueza en Contoso Wellness
Para mostrar el potencial de RFT, considere Contoso Wellness, una firma de información de riqueza ficticia. Usando RFT, el maniquí O4-Mini aprendió a adaptarse a reglas comerciales únicas, como identificar interacciones óptimas del cliente basadas en patrones matizados como la relación del patrimonio neto de un cliente para los fondos disponibles. Esto permitió a Contoso optimizar sus procesos de incorporación y tomar decisiones más informadas más rápido.
Ajuste de fino supervisado ahora arreglado para GPT-4.1-Nano
Asimismo estamos trayendo Ajuste de fino supervisado (SFT) alrededor de Gpt-4.1-nano Maniquí: un maniquí de cojín pequeño pero potente optimizado para cargas de trabajo sensibles a los costos de stop rendimiento. Con SFT, puede inculcar su maniquí con tono, terminología, flujos de trabajo y expectativas estructuradas específicas de la empresa, todos adaptados a su dominio. Este maniquí estará arreglado para ajustar en los próximos días.
¿Por qué ajustar GPT-4.1-nano?
- Precisión a escalera: Adapte las respuestas del maniquí mientras mantiene la velocidad y la eficiencia.
- Salida de punto empresarial: Asegure la vinculación con los procesos comerciales y el tono de voz.
- Informal y desplegable: Valentísimo para escenarios en los que importan la latencia y el costo, como los bots de servicio al cliente, el procesamiento en el dispositivo o el estudio de documentos de stop grosor.
En comparación con modelos más grandes, 4.1-nano Ofrece inferencia más rápida y costos de enumeración más bajos, lo que la hace muy adecuada para cargas de trabajo a gran escalera como:
- Automatización de atención al cliente, donde los modelos deben manejar miles de boletos por hora con tono y precisión consistentes.
- Asistentes de conocimiento interno que siguen el estilo y el protocolo de la empresa para resumir la documentación o reponer a las preguntas frecuentes.
Como maniquí pequeño, rápido, pero mucho capaz, GPT-4.1-Nano todavía es un gran candidato para la destilación. Puede usar modelos como GPT-4.1 o O4 para suscitar datos de capacitación, o capturar el tráfico de producción con finalizaciones almacenadas— Y enseñar 4.1-nano para ser igual de inteligente!

Candela 4 ajuste fino ahora arreglado
Asimismo estamos entusiasmados de anunciar el soporte para ajustar el maniquí de Scout 4 de Meta’s Meta, un maniquí de parámetros activos de vanguardia y vanguardia que ofrece una ventana de contexto líder en la industria de tokens de 10 m mientras se ajusta en una sola GPU H100 para inferencias. Es un maniquí mejor en su clase y más poderoso que todos los modelos de LLAMA de engendramiento inicial.
Candela 4 ajuste fino está arreglado en nuestro proposición de enumeración administradapermitiéndole ajustar e inferencia utilizando su propia cuota de GPU. Adecuado tanto en Azure AI Foundry como en componentes de Azure Machine Learning, tiene paso a hiperparámetros adicionales para una personalización más profunda en comparación con nuestra experiencia sin servidor.
Inicio hoy con Azure Ai Foundry
Azure Ai Foundry es su cojín para la afinación de IA de punto empresarial. Estas mejoras de ajuste fino desbloquean nuevas fronteras en la personalización del maniquí, lo que le ayudan a construir sistemas inteligentes que piensen y respondan de guisa que reflejen el ADN de su negocio.
- Usar Refuerzo oportuno con O4-Mini Para construir motores de razonamiento que aprendan de la experiencia y evolucionen con el tiempo. Próximamente en Azure Ai Foundry, con disponibilidad regional para East US2 y Suecia Central.
- Usar Ajuste de fino supervisado con 4.1-nano prosperar comportamientos de maniquí confiables, rentables y mucho personalizados en toda su ordenamiento. Adecuado ahora en Azure Ai Foundry en el centro septentrión de los Estados Unidos y Suecia Central.
- Intentar Candela 4 Scout Fine Tuning Para personalizar un maniquí de código destapado mejor en clase. Adecuado ahora en el catálogo de modelos de fundición Azure AI y Azure Machine Learning.
Con Azure Ai Foundry, el ajuste fino no se negociación solo de precisión, se negociación de confianza, eficiencia y adaptabilidad en cada capa de su pila.
Explore más:
Estamos comenzando. Estén atentos para obtener más soporte de modelos, técnicas de ajuste avanzadas y herramientas para ayudarlo a construir una IA que sea más inteligente, más segura y única suya.