
Los modelos de jerga magnate de razonamiento (LLM) están diseñados para resolver problemas complejos dividiéndolos en una serie de pasos más pequeños. Estos potentes modelos son particularmente buenos para tareas desafiantes como programación destacamento y planificación de varios pasos.
Pero desarrollar modelos de razonamiento exige una enorme cantidad de cálculo y energía oportuno a ineficiencias en el proceso de formación. Mientras algunos de los procesadores de inscripción potencia trabajan continuamente en consultas complicadas, otros en el peña permanecen inactivos.
Investigadores del MIT y de otros lugares encontraron una forma de utilizar este tiempo de inactividad computacional para acelerar de forma efectivo el entrenamiento del maniquí de razonamiento.
Su nuevo método entrena automáticamente un maniquí más pequeño y más rápido para predecir los resultados del LLM de razonamiento más magnate, que el maniquí más magnate verifica. Esto reduce la cantidad de trabajo que debe realizar el maniquí de razonamiento, acelerando el proceso de formación.
La secreto de este sistema es su capacidad para entrenar e implementar el maniquí más pequeño de forma adaptativa, de modo que se active sólo cuando algunos procesadores estén inactivos. Al emplear fortuna computacionales que de otro modo se habrían desperdiciado, acelera la capacitación sin incurrir en gastos generales adicionales.
Cuando se probó en múltiples LLM de razonamiento, el método duplicó la velocidad de entrenamiento preservando la precisión. Esto podría achicar el coste y aumentar la eficiencia energética del progreso de LLM avanzados para aplicaciones como la previsión de tendencias financieras o la detección de riesgos en las redes eléctricas.
«La multitud quiere modelos que puedan manejar tareas más complejas. Pero si ese es el objetivo del progreso de modelos, entonces debemos priorizar la eficiencia. Encontramos una opción sin pérdidas para este problema y luego desarrollamos un sistema completo que puede ofrecer aceleraciones sobrado dramáticas en la ejercicio», dice Qinghao Hu, postdoctorado del MIT y coautor principal de un artículo sobre esta técnica.
En el artículo lo acompañan el coautor principal Shang Yang, un estudiante de posgrado en ingeniería eléctrica e informática (EECS); Junxian Guo, estudiante de posgrado de EECS; el autor principal Song Han, profesor asociado en EECS, miembro del Laboratorio de Investigación de Electrónica y sabio distinguido de NVIDIA; así como otros en NVIDIA, ETH Zurich, el MIT-IBM Watson AI Lab y la Universidad de Massachusetts en Amherst. La investigación se presentará en la Conferencia Internacional ACM sobre Soporte Arquitectónico para Lenguajes de Programación y Sistemas Operativos.
Cuello de botella en el entrenamiento
Los desarrolladores quieren que los LLM de razonamiento identifiquen y corrijan errores en su proceso de pensamiento crítico. Esta capacidad les permite resolver consultas complicadas que harían tropezar a un LLM habitual.
Para enseñarles esta diplomacia, los desarrolladores entrenan a los LLM de razonamiento utilizando una técnica convocatoria educación por refuerzo (RL). El maniquí genera múltiples respuestas potenciales a una consulta, recibe una retribución para el mejor candidato y se actualiza en función de la respuesta principal. Estos pasos se repiten miles de veces a medida que el maniquí aprende.
Pero los investigadores descubrieron que el proceso de producir múltiples respuestas, llamado implementación, puede consumir hasta el 85 por ciento del tiempo de ejecución necesario para el entrenamiento de RL.
“En comparación, modernizar el maniquí, que es la parte positivo de ‘capacitación’, consume muy poco tiempo”, dice Hu.
Este cuello de botella ocurre en los algoritmos RL habitual porque todos los procesadores del peña de entrenamiento deben finalizar sus respuestas ayer de poder tener lugar al venidero paso. Oportuno a que algunos procesadores pueden estar trabajando en respuestas muy largas, otros que generaron respuestas más cortas esperan a que terminen.
«Nuestro objetivo era convertir este tiempo de inactividad en una velocidad sin desperdiciar costes», añade Hu.
Intentaron utilizar una técnica existente, convocatoria decodificación especulativa, para acelerar las cosas. La decodificación especulativa implica entrenar un maniquí más pequeño llamado redactor para adivinar rápidamente los resultados futuros del maniquí más magnate.
El maniquí más magnate verifica las conjeturas del redactor y las respuestas que acepta se utilizan para el entrenamiento.
Oportuno a que el maniquí más magnate puede demostrar todas las conjeturas del redactor a la vez, en lado de producir cada resultado secuencialmente, acelera el proceso.
Una opción adaptativa
Pero en la decodificación especulativa, el maniquí del redactor normalmente se entrena sólo una vez y permanece suspenso. Esto hace que la técnica sea inviable para el educación por refuerzo, ya que el maniquí de razonamiento se actualiza miles de veces durante el entrenamiento.
Un redactor suspenso rápidamente se volvería obsoleto e inútil posteriormente de unos pocos pasos.
Para aventajar este problema, los investigadores crearon un sistema flexible conocido como «Domar la posaderas larga» o TLT.
La primera parte de TLT es un preparador de redactor adaptativo, que utiliza tiempo suelto en procesadores inactivos para entrenar el maniquí de redactor sobre la marcha, manteniéndolo adecuadamente seguidor con el maniquí de destino sin utilizar fortuna computacionales adicionales.
El segundo componente, un motor de implementación adaptativo, gestiona la decodificación especulativa para decidir automáticamente la logística óptima para cada nuevo trozo de entradas. Este mecanismo cambia la configuración de decodificación especulativa según las características de la carga de trabajo de entrenamiento, como la cantidad de entradas procesadas por el maniquí preliminar y la cantidad de entradas aceptadas por el maniquí de destino durante la demostración.
Por otra parte, los investigadores diseñaron el paño del maniquí para que fuera sutil y pudiera entrenarse rápidamente. TLT reutiliza algunos componentes del proceso de entrenamiento del maniquí de razonamiento para entrenar al redactor, lo que genera ganancias adicionales en velocidad.
«Tan pronto como algunos procesadores terminan sus consultas breves y quedan inactivos, inmediatamente los cambiamos para que realicen un entrenamiento de maniquí preliminar utilizando los mismos datos que están usando para el proceso de implementación. El mecanismo secreto es nuestra decodificación especulativa adaptativa; estas ganancias no serían posibles sin ella», dice Hu.
Probaron TLT en múltiples LLM de razonamiento que fueron capacitados utilizando conjuntos de datos del mundo positivo. El sistema aceleró el entrenamiento entre un 70 y un 210 por ciento preservando al mismo tiempo la precisión de cada maniquí.
Como preeminencia adicional, el maniquí de redactor pequeño podría utilizarse fácilmente para una implementación efectivo como subproducto tirado.
En el futuro, los investigadores quieren integrar TLT en más tipos de marcos de entrenamiento e inferencia y encontrar nuevas aplicaciones de educación por refuerzo que podrían acelerarse utilizando este enfoque.
«A medida que el razonamiento continúa convirtiéndose en la principal carga de trabajo que impulsa la demanda de inferencia, el TLT de Qinghao es un gran trabajo para hacer frente al cuello de botella computacional del entrenamiento de estos modelos de razonamiento. Creo que este método será muy útil en el contexto de la informática de IA efectivo», afirma Han.
Este trabajo está financiado por el MIT-IBM Watson AI Lab, el MIT AI Hardware Program, el MIT Amazon Science Hub, Hyundai Motor Company y la National Science Foundation.