Athrun Data Intelligence



A pesar de todas sus capacidades impresionantes, los modelos de idiomas grandes (LLM) a menudo se quedan cortos cuando se les da nuevas tareas desafiantes que requieren habilidades de razonamiento complejas.

Si acertadamente la LLM de una firma de contabilidad podría sobresalir al resumir los informes financieros, ese mismo maniquí podría marrar inesperadamente si se le asigna la tarea de predecir las tendencias del mercado o identificar transacciones fraudulentas.

Para hacer que los LLM sean más adaptables, los investigadores del MIT investigaron cómo una cierta técnica de capacitación puede implementarse estratégicamente para impulsar el rendimiento de un maniquí en problemas desconocidos y difíciles.

Muestran que la capacitación en el tiempo de prueba, un método que implica refrescar temporalmente algunos de los trabajos internos de un maniquí durante el despliegue, puede conducir a una alivio de seis veces en la precisión. Los investigadores desarrollaron un entorno para implementar una organización de capacitación en el tiempo de prueba que utiliza ejemplos de la nueva tarea para maximizar estas ganancias.

Su trabajo podría mejorar la flexibilidad de un maniquí, lo que permite que un LLM normalizado se adapte a tareas complejas que requieren planificación o percepción. Esto podría conducir a LLM que serían más precisos en muchas aplicaciones que requieren una deducción método, desde diagnósticos médicos hasta la diligencia de la dependencia de suministro.

«El formación auténtico, lo que hicimos aquí con la capacitación en el tiempo de prueba, es poco que estos modelos no pueden hacer por su cuenta a posteriori de que se envíen. No pueden obtener nuevas habilidades ni mejorar en una tarea. Pero hemos demostrado que si presiona un poco el maniquí para hacer un formación actual, ves que pueden ocurrir grandes mejoras en el rendimiento», dice Ekin Akyürek Phd ’25, autor principal, autor del estudio.

Akyürek se une en el papel por estudiantes graduados Mehul Damani, Linlu Qiu, Han Guo y Jyothish Pari; pregrado Adam Zweiger; y autores principales Yoon Kim, profesor asistente de ingeniería eléctrica e informática (EECS) y miembro del Laboratorio de Informática e Inteligencia Fabricado (CSAIL); y Jacob Andreas, profesor asociado en EECS y miembro de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Formación Autor.

Encarar dominios duros

Los usuarios de LLM a menudo intentan mejorar el rendimiento de su maniquí en una nueva tarea utilizando una técnica indicación formación en contexto. Alimentan al maniquí algunos ejemplos de la nueva tarea como indicaciones de texto que guían las horizontes del maniquí.

Pero el formación en contexto no siempre funciona para problemas que requieren método y razonamiento.

Los investigadores del MIT investigaron cómo la capacitación en el tiempo de prueba puede estilarse anejo con el formación en contexto para aumentar el rendimiento en estas tareas desafiantes. La capacitación en el tiempo de prueba implica refrescar algunos parámetros del maniquí, las variables internas que utiliza para hacer predicciones, utilizando una pequeña cantidad de datos nuevos específicos para la tarea en cuestión.

Los investigadores exploraron cómo la capacitación en el tiempo de prueba interactúa con el formación en contexto. Estudiaron opciones de diseño que maximizan las mejoras de rendimiento que uno puede sacar de una LLM de propósito común.

«Encontramos que la capacitación en el tiempo de prueba es una forma mucho más cachas de formación. Si acertadamente simplemente proporcionar ejemplos puede aumentar modestamente la precisión, refrescar el maniquí con esos ejemplos puede conducir a un rendimiento significativamente mejor, particularmente en los dominios desafiantes», dice Damani.

El formación en contexto requiere un pequeño conjunto de ejemplos de tareas, incluidos problemas y sus soluciones. Los investigadores usan estos ejemplos para crear un conjunto de datos específico de tarea necesario para la capacitación en el tiempo de prueba.

Para expandir el tamaño de este conjunto de datos, crean nuevas entradas cambiando levemente los problemas y soluciones en los ejemplos, como derribar horizontalmente algunos datos de entrada. Encuentran que capacitar al maniquí en las horizontes de este nuevo conjunto de datos conduce al mejor rendimiento.

Adicionalmente, los investigadores solo actualizan un pequeño número de parámetros del maniquí utilizando una técnica indicación amoldamiento de bajo rango, lo que alivio la eficiencia del proceso de entrenamiento de tiempo de prueba.

«Esto es importante porque nuestro método debe ser capaz si se va a implementar en el mundo actual. Encontramos que puede obtener grandes mejoras en precisión con una cantidad muy pequeña de entrenamiento de parámetros», dice Akyürek.

Desarrollar nuevas habilidades

La racionalización del proceso es esencia, ya que la capacitación en el tiempo de prueba se emplea por instancia, lo que significa que un usufructuario necesitaría hacer esto para cada tarea individual. Las actualizaciones del maniquí son solo temporales, y el maniquí vuelve a su forma llamativo a posteriori de hacer una predicción.

Un maniquí que generalmente tarda menos de un minuto en replicar una consulta puede tardar cinco o 10 minutos en proporcionar una respuesta con el entrenamiento de tiempo de prueba, agrega Akyürek.

«No querríamos hacer esto para todas las consultas de los usuarios, pero es útil si tiene una tarea muy difícil que desea que el maniquí resuelva acertadamente. Además podrían favor tareas que son demasiado desafiantes para que un LLM resuelva sin este método», dice.

Los investigadores probaron su enfoque en dos conjuntos de datos de narración de problemas extremadamente complejos, como los rompecabezas de IQ. Aumentó una precisión hasta seis sobre técnicas que usan solo el formación en contexto.

Las tareas que involucraron patrones estructurados o aquellos que utilizaron tipos de datos completamente desconocidos mostraron las mayores mejoras de rendimiento.

«Para tareas más simples, el formación en contexto podría estar acertadamente. Pero refrescar los parámetros en sí mismos podría desarrollar una nueva tiento en el maniquí», dice Damani.

En el futuro, los investigadores quieren utilizar estas ideas para el expansión de modelos que aprenden continuamente.

El objetivo a prolongado plazo es una LLM que, dada una consulta, puede determinar automáticamente si necesita usar capacitación en el tiempo de prueba para refrescar los parámetros o si puede resolver la tarea utilizando el formación en contexto, y luego implementar la mejor organización de entrenamiento de tiempo de prueba sin la escazes de intervención humana.

Este trabajo es apoyado, en parte, por el MIT-IBM Watson AI Lab y la National Science Foundation.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *