Athrun Data Intelligence


Los LLM mejoran principalmente la precisión mediante la escalera de datos de pre-entrenamiento y fortuna informáticos. Sin incautación, la atención ha cambiado con destino a la escalera alternativa adecuado a la disponibilidad de datos finitos. Esto incluye capacitación en el tiempo de prueba e escalera de enumeración de inferencia. Los modelos de razonamiento mejoran el rendimiento emitiendo procesos de pensamiento antaño de las respuestas, inicialmente a través de la solicitud de cuna. Recientemente, se ha utilizado el enseñanza de refuerzo (RL) posteriormente del entrenamiento. Los dominios científicos presentan oportunidades ideales para modelos de razonamiento. La razón es que implican «problemas inversos» donde la evaluación de la calidad de la alternativa es sencilla, pero la vivientes de soluciones sigue siendo un desafío. A pesar de la columna conceptual entre el razonamiento comprobado estructurado y las capacidades del maniquí, los métodos actuales carecen de enfoques detallados para el razonamiento comprobado más allá de los puntos de narración de opción múltiple.

Crecimiento técnica de arquitecturas de razonamiento

Los modelos de razonamiento han evolucionado a partir de métodos iniciales tempranos como cot, cuna de disparo cero y árbol de pensamiento. Han progresado a enfoques RL complejos a través de la optimización de políticas relativas del clan (GRPO) y la escalera de tiempo de inferencia. Encima, los modelos de razonamiento en química se centran en puntos de narración basados ​​en el conocimiento en extensión de complejas tareas de razonamiento. Los ejemplos incluyen retrosíntesis o diseño molecular. Si perfectamente los conjuntos de datos como GPQA-D y MMLU evalúan el conocimiento químico, no evalúan las capacidades de razonamiento químico complejos. Los esfuerzos de razonamiento comprobado actuales permanecen fragmentados. Los intentos limitados incluyen Omniscience for Caudillo Science, MED-R1 para tareas en idioma de visión médica y Biorracional para el razonamiento genómico. Sin incautación, no existe un situación integral para el entrenamiento del maniquí de razonamiento químico a gran escalera.

Principios de bloque y diseño de Ether0

Los investigadores de Futurehouse han propuesto éter0un maniquí novedoso que razona en el habla natural y produce estructuras moleculares como cadenas de sonrisas. Demuestra la validez de los modelos de razonamiento en tareas químicas. Supera a Frontier LLMS, expertos humanos y modelos de química genérico. El enfoque de entrenamiento utiliza varias optimizaciones sobre Vanilla RL. Esto incluye la destilación del comportamiento de razonamiento, un plan de estudios dinámico e inicialización del maniquí entendido para mejorar la eficiencia y la efectividad. Encima, se analizan factores como la eficiencia de los datos, los modos de defecto y el comportamiento de razonamiento. Este estudio permite una mejor comprensión de la utilidad de razonamiento para resolver problemas de química.

Tubería de entrenamiento: destilación e integración de GRPO

El maniquí emplea un procedimiento de capacitación en varias etapas que se alterna entre la destilación y las fases GRPO. La bloque presenta cuatro tokens especiales. Estas fichas demarcan el razonamiento y los límites de las respuestas. El entrenamiento comienza con SFT en secuencias de cuna largas generadas por Deepseek-R1. Estos se filtran para formato de sonrisas válidas y calidad de razonamiento. Specialist RL luego optimiza las políticas específicas de la tarea para diferentes categorías de problemas con GRPO. Luego, la destilación fusiona modelos especializados en un generalista. Esta fusión ocurre a través de SFT en las respuestas correctas recopiladas durante todo el entrenamiento. La escalón final aplica GRPO generalista al maniquí fusionado. Esto incluye un filtrado de calidad continua para eliminar el razonamiento de disminución calidad y las subestructuras moleculares indeseables.

Evaluación de rendimiento y puntos de narración comparativos

Ether0 demuestra un rendimiento superior tanto contra los LLM de uso genérico como Claude y O1, y modelos específicos de química, incluidos ChemDFM y TXGEMMA. Logra la anciano precisión en todas las categorías de respuesta abierta al tiempo que mantiene el rendimiento competitivo en preguntas de opción múltiple. Para la eficiencia de los datos, el maniquí supera a los modelos de transformadores moleculares tradicionales. Está capacitado en solo 60,000 reacciones en comparación con los conjuntos de datos USPTO completos. Ether0 logra una precisión del 70% posteriormente de ver 46,000 ejemplos de entrenamiento. Los transformadores moleculares lograron 64.1% en conjuntos de datos completos en comparación. En condiciones de solicitación de un solo disparo, Ether0 supera todos los modelos de frontera evaluados. Los procedimientos de columna de seguridad filtran con éxito el 80% de las preguntas inseguras sin degradar el rendimiento en las tareas de química central.

Conclusión: Implicaciones para futuros LLM científicos

En conclusión, los investigadores introdujeron Ether0, un maniquí de parámetro 24B entrenado en diez tareas moleculares desafiantes. Supera significativamente a Frontier LLMS, expertos en dominios y modelos especializados. Esto se logra a través de su RL entrelazada y la tubería de destilación de comportamiento. El maniquí exhibe capacidades excepcionales de eficiencia de datos y razonamiento. Se destaca en tareas de química de respuesta abierta que involucran diseño molecular, finalización, modificación y síntesis. Sin incautación, las limitaciones incluyen posibles desafíos de divulgación más allá de la química orgánica. Encima, hay una pérdida de instrucciones generales y marcha de integración de llamadas de herramientas. La escape de pesos de maniquí, datos de narración y funciones de remuneración establece una pulvínulo. Esta pulvínulo ayuda a avanzar en los modelos de razonamiento comprobado en diversos dominios.


Mira el Papel y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este tesina. Encima, siéntete franco de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.

▶ ¿Desea promover su producto/seminario web/servicio a 1 millón+ ingenieros de IA/desarrolladores/científicos de datos/arquitectos/CTO/CIO? Vamos a socio ..


Sajjad Ansari es un pregrado de postrero año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo positivo. Su objetivo es articular conceptos complejos de IA de forma clara y accesible.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *