Athrun Data Intelligence



Cuando los investigadores están construyendo grandes modelos de idiomas (LLM), su objetivo es maximizar el rendimiento bajo un presupuesto informático y financiero particular. Entregado que la capacitación de un maniquí puede ascender a millones de dólares, los desarrolladores deben ser juiciosos con decisiones de costo impactante sobre, por ejemplo, la obra del maniquí, los optimizadores y los conjuntos de datos de capacitación antiguamente de comprometerse con un maniquí. Para anticipar la calidad y precisión de las predicciones de un maniquí ínclito, los profesionales a menudo recurren a las leyes de escalera: el uso de modelos más pequeños y más baratos para tratar de aproximar el rendimiento de un maniquí objetivo mucho más ínclito. El desafío, sin secuestro, es que hay miles de formas de crear una ley de escalera.

El nuevo trabajo de los investigadores del laboratorio MIT y MIT-IBM Watson AI aborda esto al acumular y liberar una colección de cientos de modelos y métricas relacionadas con la capacitación y el rendimiento para aproximar más de mil leyes de escalera. A partir de esto, el equipo desarrolló un metaanálisis y una norte sobre cómo escoger modelos pequeños y estimar las leyes de escalera para diferentes familias de modelos LLM, de modo que el presupuesto se aplica de modo óptima para gestar predicciones de rendimiento confiables.

«La conocimiento de que es posible que desee tratar de construir modelos matemáticos del proceso de capacitación tiene un par de abriles, pero creo que lo nuevo aquí es que la veterano parte del trabajo que la muchedumbre había estado haciendo antiguamente está diciendo:» ¿Podemos afirmar poco post-hoc sobre lo que sucedió cuando capacitamos todos estos modelos, de modo que estamos tratando de determinar cómo capacitar a un nuevo maniquí a gran escalera, podemos tomar las mejores decisiones sobre cómo usar nuestro presupuesto compultado? Profesor del Área de Ingeniería Eléctrica e Informática e Investigador Principal del Laboratorio MIT-IBM Watson AI.

La investigación fue presentada recientemente en la Conferencia Internacional sobre Estudios Autor por Andreas, unido con los investigadores de laboratorio de AI MIT-IBM Watson, Leshem Choshen y Yang Zhang de IBM Research.

Rendimiento de descontextualizar

No importa cómo lo corte, desarrollar LLM es un esfuerzo costoso: desde la toma de decisiones con respecto al número de parámetros y tokens, selección y tamaño de datos y técnicas de capacitación para determinar la precisión y ajuste de la salida a las aplicaciones y tareas objetivo. Las leyes de escalera ofrecen una forma de pronosticar el comportamiento del maniquí relacionando la pérdida de un maniquí ínclito con el rendimiento de modelos más pequeños y menos costosos de la misma clan, evitando la obligación de capacitar completamente a cada candidato. Principalmente, las diferencias entre los modelos más pequeños son el número de parámetros y el tamaño del entrenamiento de tokens. Según Choshen, las leyes de escalera esclarecimiento no solo permiten mejores decisiones de pre-entrenamiento, sino que asimismo democratan el campo al permitir a los investigadores sin grandes capital para comprender y desarrollar leyes de escalera efectivas.

La forma cómodo de las leyes de escalera es relativamente simple, incorporando componentes de los pequeños modelos que capturan el número de parámetros y su finalidad de escalera, el número de tokens de capacitación y su finalidad de escalera, y el rendimiento de narración para la clan de interés maniquí. Juntos, ayudan a los investigadores a estimar la pérdida de rendimiento de un maniquí de gran objetivo; Cuanto más pequeña sea la pérdida, mejor son las expectativas del maniquí de destino.

Estas leyes permiten que los equipos de investigación pesen compensaciones de modo capaz y prueben la mejor modo de asignar capital limitados. Son particularmente efectos para evaluar la escalera de una cierta variable, como el número de tokens y para las pruebas A/B de diferentes configuraciones de pre-entrenamiento.

En universal, las leyes de escalera no son nuevas; Sin secuestro, en el campo de la IA, surgieron a medida que los modelos crecían y los costos se dispararon. «Es como si las leyes de escalera aparecieran en algún momento del campo», dice Choshen. «Comenzaron a avisar la atención, pero nadie positivamente probó lo buenos que son y qué debes hacer para hacer una buena ley de escalera». Por otra parte, las leyes de escalera eran asimismo una caja negra, en cierto sentido. «Cada vez que las personas han creado leyes de escalera en el pasado, siempre ha sido solo un maniquí, o un maniquí de clan, y un conjunto de datos y un desarrollador», dice Andreas. «Efectivamente no había habido mucho metaanálisis sistemático, ya que todos están entrenando individualmente sus propias leyes de escalera. Entonces, (queríamos enterarse) ¿Hay tendencias de detención nivel que ves en esas cosas?»

Construyendo mejor

Para investigar esto, Choshen, Andreas y Zhang crearon un gran conjunto de datos. Recolectaron LLM de 40 familias maniquí, incluidas Pythia, OPT, OLMO, LLAMA, Bloom, T5-Pile, ModuleFormer Mezcla de expertos, GPT y otras familias. Estos incluyeron 485 modelos únicos previamente capacitados, y cuando están disponibles, datos sobre sus puntos de control de entrenamiento, costo computacional (FLOPS), épocas de entrenamiento y la semilla, unido con 1.9 millones de métricas de rendimiento de pérdidas y tareas aguas debajo. Los modelos diferían en sus arquitecturas, pesos, etc. Utilizando estos modelos, los investigadores se ajustan a más de 1,000 leyes de escalera y compararon su precisión entre las arquitecturas, los tamaños de los modelos y los regímenes de capacitación, así como para probar cómo el número de modelos, la inclusión de los puntos de control de capacitación intermedia y la capacitación parcial afectaron el poder predictivo de las leyes de escalera a los modelos objetivo. Usaron mediciones de error relativo rotundo (are); Esta es la diferencia entre la predicción de la ley de escalera y la pérdida observada de un maniquí ínclito y entrenado. Con esto, el equipo comparó las leyes de escalera, y a posteriori del disección, las recomendaciones prácticas destiladas para los profesionales de la IA sobre lo que hace leyes de escalera efectivas.

Sus pautas compartidas caminan al desarrollador a través de pasos y opciones para considerar y las expectativas. Primero, es fundamental osar sobre un presupuesto de cuenta y precisión del maniquí objetivo. El equipo descubrió que el 4 por ciento es la mejor precisión alcanzable que uno podría esperar correcto al ruido accidental de semillas, pero hasta el 20 por ciento sigue siendo útil para la toma de decisiones. Los investigadores identificaron varios factores que mejoran las predicciones, como incluir puntos de control de entrenamiento intermedio, en lado de pender solo de las pérdidas finales; Esto hizo que las leyes de escalera fueran más confiables. Sin secuestro, los datos de entrenamiento muy tempranos antiguamente de 10 mil millones de tokens son ruidosos, reducen la precisión y deben descartarse. Recomendan priorizar la capacitación de más modelos en una propagación de tamaños para mejorar la robustez de la predicción de la ley de escalera, no solo los modelos más grandes; Inclinarse cinco modelos proporciona un punto de partida sólido.

En universal, incluir modelos más grandes perfeccionamiento la predicción, pero los costos pueden ahorrarse entrenando parcialmente al maniquí objetivo a aproximadamente el 30 por ciento de su conjunto de datos y lo usan para extrapolación. Si el presupuesto está considerablemente condicionado, los desarrolladores deben considerar capacitar a un maniquí más pequeño en el interior de la clan del maniquí objetivo y pedir prestado parámetros de la ley de escalera de una clan maniquí con una obra similar; Sin secuestro, esto puede no funcionar para los modelos codificadores -decodificadores. Por posterior, el conjunto de investigación MIT-IBM encontró que cuando se compararon las leyes de escalera entre las familias maniquí, hubo una esforzado correlación entre dos conjuntos de hiperparametros, lo que significa que tres de los cinco hiperparámetros explicaron casi toda la variación y probablemente podrían capturar el comportamiento del maniquí. Juntas, estas pautas proporcionan un enfoque sistemático para hacer que la estimación de la ley de escalera sea más capaz, confiable y accesible para los investigadores de IA que trabajan bajo diferentes restricciones presupuestarias.

Surgieron varias sorpresas durante este trabajo: los modelos pequeños parcialmente entrenados siguen siendo muy predictivos, y por otra parte, las etapas de entrenamiento intermedias de un maniquí totalmente entrenado se pueden usar (como si fueran modelos individuales) para la predicción de otro maniquí objetivo. «Básicamente, no pagas nulo en la capacitación, porque ya entrenaste al maniquí completo, por lo que el maniquí a medias entrenada, por ejemplo, es solo un subproducto de lo que hiciste», dice Choshen. Otra característica señaló que Andreas fue que, cuando se agregó, la variabilidad entre las familias maniquí y los diferentes experimentos saltaron y fue más ruidoso de lo esperado. Inesperadamente, los investigadores encontraron que es posible utilizar las leyes de escalera en modelos grandes para predecir el rendimiento a modelos más pequeños. Otra investigación en el campo ha planteado la hipótesis de que los modelos más pequeños eran una «bestia diferente» en comparación con las grandes; Sin secuestro, Choshen no está de acuerdo. «Si son totalmente diferentes, deberían suceder mostrado un comportamiento totalmente diferente, y no lo hacen».

Si correctamente este trabajo se centró en el tiempo de capacitación de modelos, los investigadores planean extender su disección a la inferencia del maniquí. Andreas dice que no es: «¿Cómo perfeccionamiento mi maniquí a medida que agrego más datos de entrenamiento o más parámetros, sino que, al dejar que piense por más tiempo, dibuje más muestras. Creo que definitivamente hay lecciones que formarse aquí sobre cómo asimismo construir modelos predictivos de cuánto pensar que debe hacer a tiempo de ejecución». Él dice que la teoría de las leyes de escalera de tiempo de inferencia podría ser aún más crítica porque, «no es como si fuera a entrenar un maniquí y luego hacer.

Esta investigación fue apoyada, en parte, por el Laboratorio MIT-IBM Watson AI y una Comunidad de Investigación Sloan.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *