Athrun Data Intelligence



Para que los modelos de lenguajes grandes (LLM) sean más precisos al reponer preguntas más difíciles, los investigadores pueden dejar que el maniquí dedique más tiempo a pensar en posibles soluciones.

Pero los enfoques comunes que brindan a los LLM esta capacidad establecen un presupuesto computacional fijo para cada problema, independientemente de cuán complicado sea. Esto significa que el LLM podría desperdiciar posibles computacionales en preguntas más simples o no poder acometer problemas complejos que requieren más razonamiento.

Para acometer esto, los investigadores del MIT desarrollaron una forma más inteligente de asignar el esfuerzo computacional a medida que el LLM resuelve un problema. Su método permite que el maniquí ajuste dinámicamente su presupuesto computacional en función de la dificultad de la pregunta y la probabilidad de que cada posibilidad parcial conduzca a la respuesta correcta.

Los investigadores descubrieron que su nuevo enfoque permitía a los LLM utilizar tan solo la centro del cálculo que los métodos existentes, al tiempo que lograban una precisión comparable en una variedad de preguntas con diversas dificultades. Adicionalmente, su método permite que los LLM más pequeños y que requieren menos posibles funcionen tan aceptablemente o incluso mejor que los modelos más grandes en problemas complejos.

Al mejorar la confiabilidad y eficiencia de los LLM, especialmente cuando abordan tareas de razonamiento complejas, esta técnica podría acortar el consumo de energía de los sistemas de inteligencia fabricado generativa y permitir el uso de LLM en aplicaciones de decano peligro y urgentes.

«El costo computacional de la inferencia se ha convertido rápidamente en un cuello de botella importante para los proveedores de modelos fronterizos, y están tratando activamente de encontrar formas de mejorar la eficiencia computacional por consultas de los usuarios. Por ejemplo, la flamante traducción GPT-5.1 destaca la competencia del enfoque de ‘razonamiento adaptativo’ que propone nuestro artículo. Al dotar a los modelos de la capacidad de aprender lo que no saben, podemos permitirles desembolsar más computación en los problemas más difíciles y las rutas de posibilidad más prometedoras, y usar muchos menos tokens en tareas fáciles. Eso hace que el razonamiento sea más confiable y mucho más eficaz”, dice Navid Azizan, profesor asistente de progreso profesional Alfred H. y Jean M. Hayes en el Unidad de Ingeniería Mecánica y el Instituto de Datos, Sistemas y Sociedad (IDSS), investigador principal del Laboratorio de Sistemas de Información y Atrevimiento (LIDS) y autor principal de un estudio. artículo sobre esta técnica.

A Azizan se unen en el artículo el autor principal Young-Jin Park, un estudiante reconocido de LIDS/MechE; Kristjan Greenewald, comprobado investigador del Laboratorio de IA Watson del MIT-IBM; Kaveh Alim, estudiante de posgrado del IDSS; y Hao Wang, comprobado investigador del MIT-IBM Watson AI Lab y del equipo de innovación de Red Hat AI. La investigación se presentará esta semana en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

Computación para la contemplación

Un enfoque flamante llamado escalado de tiempo de inferencia permite que un maniquí de estilo vasto tarde más tiempo en razonar sobre problemas difíciles.

Utilizando la escalera de tiempo de inferencia, el LLM puede producir múltiples intentos de posibilidad a la vez o explorar diferentes caminos de razonamiento y luego nominar los mejores para seguir entre esos candidatos.

Un maniquí separado, conocido como maniquí de premio de proceso (PRM), califica cada posibilidad potencial o ruta de razonamiento. El LLM utiliza estos puntajes para identificar los más prometedores.

Los enfoques típicos de escalamiento de tiempo de inferencia asignan una cantidad fija de cálculo para que el LLM desglose el problema y razone los pasos.

En cambio, el método de los investigadores, conocido como escalamiento adaptativo de instancias, ajusta dinámicamente la cantidad de posibles soluciones o pasos de razonamiento en función de la probabilidad de que tengan éxito, mientras el maniquí lucha con el problema.

«Así es como los humanos resuelven los problemas. Proponemos algunas soluciones parciales y luego decidimos: ¿debería ir más allá con alguna de ellas, o detener y revisar, o incluso retornar al paso antedicho y continuar resolviendo el problema desde allí?». explica Wang.

Para hacer esto, el situación utiliza el PRM para estimar la dificultad de la pregunta, lo que ayuda al LLM a evaluar cuánto presupuesto computacional utilizar para producir y razonar sobre posibles soluciones.

En cada paso del proceso de razonamiento del maniquí, el PRM analiza la pregunta y las respuestas parciales y evalúa qué tan prometedora es cada una para calar a la posibilidad correcta. Si el LLM tiene más confianza, puede acortar la cantidad de posibles soluciones o trayectorias de razonamiento a seguir, ahorrando posibles computacionales.

Pero los investigadores descubrieron que los PRM existentes a menudo sobreestiman la probabilidad de éxito del maniquí.

Aventajar el exceso de confianza

«Si simplemente confiáramos en los PRM actuales, que a menudo sobreestiman las posibilidades de éxito, nuestro sistema reduciría el presupuesto computacional de modo demasiado agresiva. Así que primero tuvimos que encontrar una modo de calibrar mejor los PRM para hacer que el escalamiento del tiempo de inferencia sea más eficaz y confiable», dice Park.

Los investigadores introdujeron un método de calibración que permite a los PRM producir una variedad de puntuaciones de probabilidad en división de un valía único. De esta modo, el PRM crea estimaciones de incertidumbre más confiables que reflejan mejor la verdadera probabilidad de éxito.

Con un PRM aceptablemente calibrado, su situación de escalamiento adaptable a instancias puede utilizar las puntuaciones de probabilidad para acortar eficazmente el cálculo y al mismo tiempo suministrar la precisión de los resultados del maniquí.

Cuando compararon su método con enfoques tipificado de escalera de tiempo de inferencia en una serie de tareas de razonamiento matemático, utilizaron menos cálculos para resolver cada problema y lograron una precisión similar.

«Lo bueno de nuestro enfoque es que esta habilitación se produce sobre la marcha, a medida que se resuelve el problema, en división de ocurrir de repente al aparición del proceso», dice Greenewald.

En el futuro, los investigadores están interesados ​​en aplicar esta técnica a otras aplicaciones, como la gestación de código y los agentes de IA. Asimismo planean explorar usos adicionales para su método de calibración PRM, como estudios por refuerzo y ajuste.

«Los empleados humanos aprenden en el trabajo (algunos directores ejecutivos incluso comenzaron como pasantes), pero los agentes de hoy siguen siendo en gran medida piezas estáticas de software probabilístico. Un trabajo como este es un paso importante para cambiar eso: ayudar a los agentes a comprender lo que no saben y crear mecanismos para la mejoramiento personal continua. Estas capacidades son esenciales si queremos agentes que puedan proceder de forma segura, adaptarse a nuevas situaciones y ofrecer resultados consistentes a escalera», dice Akash Srivastava, director y arquitecto caudillo de Core AI en IBM Software, que no participó con este trabajo.

Este trabajo fue financiado, en parte, por el MIT-IBM Watson AI Lab, el MIT-Amazon Science Hub, el Software MIT-Google para la Innovación en Computación y MathWorks.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *