Los modelos de idioma extenso (LLMS) se destacan al usar un razonamiento textual para comprender el contexto de un documento y proporcionar una respuesta deducción sobre su contenido. Pero estos mismos LLM a menudo luchan por replicar correctamente incluso los problemas matemáticos más simples.
El razonamiento textual suele ser una forma menos que ideal de deliberar sobre las tareas computacionales o algorítmicas. Si perfectamente algunos LLM pueden producir código como Python para manejar consultas simbólicas, los modelos no siempre saben cuándo usar código o qué tipo de código funcionaría mejor.
Al parecer, LLMS puede faltar un preparador para dirigirlos con destino a la mejor técnica.
Ingresar CodeStarun asistente inteligente desarrollado por los investigadores del MIT que recorrido un LLM para cambiar entre el código y la concepción de texto hasta que responda correctamente una consulta.
CodSteer, en sí mismo un LLM más pequeño, genera automáticamente una serie de indicaciones para dirigir iterativamente un LLM más extenso. Revisa las respuestas actuales y anteriores del maniquí luego de cada ronda y proporciona orientación sobre cómo puede arreglar o refinar esa opción hasta que considere la respuesta es correcta.
Los investigadores descubrieron que aumentar un LLM más extenso con CodSteer aumentó su precisión en tareas simbólicas, como multiplicar números, retar a Sudoku y apilar bloques, en más del 30 por ciento. Igualmente permitió que los modelos menos sofisticados superan los modelos más avanzados con habilidades de razonamiento mejoradas.
Este avance podría mejorar las capacidades de resolución de problemas de los LLM para tareas complejas que son especialmente difíciles de resolver solo con el razonamiento textual, como la concepción de rutas para robots en entornos inciertos o envíos de programación en una condena de suministro internacional.
“There is a race to develop better and better models that are capable of doing everything, but we’ve taken a complementary approach. Researchers have spent years developing effective technologies and tools to tackle problems in many domains. We want to enable LLMs to select the right tools and methods, and make use of others’ expertise to enhance their own capabilities,” says Chuchu Fan, an associate professor of aeronautics and astronautics (AeroAstro) and principal investigator in El Laboratorio MIT para Sistemas de Información y Valor (LIDS).
Fan, el autor principal del estudio, se une a Un artículo sobre el trabajo por tapa estudiante investido Yongchao Chen; Estudiante investido de Aeroastro Yilun Hao; Universidad de Illinois en el estudiante investido de Urbana-Champaign Yueying Liu; y el irrefutable de investigación de laboratorio MIT-IBM Watson AI Yang Zhang. La investigación se presentará en la Conferencia Internacional sobre Formación Autor.
Un «preparador» de LLM
Pregúntele a un LLM qué número es más extenso, 9.11 o 9.9, y a menudo dará la respuesta incorrecta utilizando un razonamiento textual. Pero pídale que use el código para replicar la misma pregunta, y puede producir y ejecutar un script de Python para comparar los dos números, resolviendo fácilmente el problema.
Inicialmente capacitado para comprender y predecir el idioma humano, es más probable que responda consultas usando texto, incluso cuando el código sería más efectivo. Y aunque han aprendido a producir código a través del ajuste fino, estos modelos a menudo generan una interpretación incorrecta o menos eficaz del código.
En empleo de tratar de retornar a entrenar un poderoso LLM como GPT-4 o Claude para mejorar estas capacidades, los investigadores del MIT ajustan un LLM más pequeño y libertino para llevar un maniquí más extenso entre texto y código. Ajustar un maniquí más pequeño no cambia el LLM más extenso, por lo que no hay peligro de que socave las otras habilidades del maniquí más extenso.
«Igualmente nos inspiró humanos. En los deportes, un preparador puede no ser mejor que el atleta destino en el equipo, pero el preparador aún puede dar sugerencias efectos para llevar al atleta. Este método de dirección además funciona para LLM», dice Chen.
Este preparador, CodeStar, trabaja en conjunto con el LLM más extenso. Primero revisa una consulta y determina si el texto o el código son adecuados para este problema, y qué tipo de código sería el mejor.
Luego genera un mensaje para el LLM más extenso, diciéndole que use un método de codificación o un razonamiento textual para replicar a la consulta. El maniquí más extenso sigue este mensaje para replicar a la consulta y envía el resultado de nuevo a CodeStar, que lo revisa.
Si la respuesta no es correcta, CodSteer continuará solicitando al LLM a probar cosas diferentes que podrían solucionar el problema, como incorporar un operación de búsqueda o restricción en su código Python, hasta que la respuesta sea correcta.
«Descubrimos que a menudo, el LLM más extenso intentará ser perezoso y usar un código más corto y menos eficaz que no llevará el cálculo simbólico correcto. Hemos diseñado CodeSteer para evitar este engendro», dice Chen.
Un verificador simbólico evalúa la complejidad del código y envía una señal a CodeStar si es demasiado simple o ineficiente. Los investigadores además incorporan un verificador de su cuenta de autodominio en CodeStar, lo que solicita al LLM que genere un código que calcule la respuesta para confirmar que sea correcta.
Asaltar tareas complejas
A medida que los investigadores diseñaron CodSteer, no pudieron encontrar conjuntos de datos simbólicos adecuados para ajustar y probar el maniquí, ya que muchos puntos de narración existentes no señalan si una cierta consulta podría resolverse mejor con texto o código.
Entonces, reunieron un corpus de 37 tareas simbólicas complejas, que incluyen razonamiento espacial, matemáticas, razonamiento de pedidos y optimización, y construyeron su propio conjunto de datos, llamado Symbench. Implementaron un enfoque justo que aprovecha a Symbench para maximizar el rendimiento de CodeStar.
En sus experimentos, CodeStar superó los nueve métodos de narración que evaluaron y aumentó la precisión promedio de 53.3 por ciento a 86.4 por ciento. Mantiene un rendimiento similar incluso en tareas invisibles y en una variedad de LLM.
Por otra parte, un maniquí de propósito genérico aumentado con CodeSteer puede alcanzar una decano precisión que los modelos de última concepción diseñados para centrarse en un razonamiento y planificación complejos, al tiempo que requiere mucho menos cálculo.
«Nuestro método utiliza las capacidades propias de un LLM. Al aumentar un LLM con la capacidad de usar de forma inteligente la codificación, podemos tomar un maniquí que ya sea muy válido y mejorar su rendimiento aún más», dice Chen.
En el futuro, los investigadores quieren optimizar a CodeStar para acelerar su proceso de indicación iterativa. Por otra parte, están estudiando cómo ajustar eficazmente un maniquí unificado con la capacidad de cambiar entre razonamiento textual y concepción de código, en empleo de obedecer de un asistente separado.
«Los autores presentan una opción elegante al desafío crítico de la utilización de la útil en LLM. Este método simple pero impactante permite que los LLM de última concepción logren mejoras significativas de rendimiento sin requerir un ajuste fino directo», dice Jinsung Yoon, irrefutable de investigación del personal de Google Cloud AI, que no estuvo involucrado con este trabajo. «Esta investigación representa una contribución sustancial que promete mejorar significativamente la aplicación de LLM a una amplia gradación de tareas con las que actualmente luchan».
«Su éxito en la capacitación de un maniquí más pequeño y especializado para llevar estratégicamente modelos más grandes y avanzados es particularmente impactante», agrega Chi Wang, un irrefutable de personal senior de Google Deepmind que no participó en este trabajo. «Esta colaboración inteligente entre diversos ‘agentes’ de IA allana el camino para aplicaciones más robustas y versátiles en escenarios complejos del mundo auténtico».
Esta investigación es apoyada, en parte, por la Oficina de Investigación Naval de EE. UU. Y el Laboratorio MIT-IBM Watson AI.