Athrun Data Intelligence


La eficiencia previa a la pico y la universalización de modelos de idiomas grandes (LLM) están significativamente influenciados por la calidad y la diversificación del corpus de capacitación subyacente. Las tuberías de curación de datos tradicionales a menudo tratan la calidad y la diversificación como objetivos separados, aplicando filtrado de calidad seguido de estabilidad de dominio. Esta optimización secuencial pasa por stop las complejas interdependencias entre estos factores. Los conjuntos de datos de inscripción calidad con frecuencia exhiben sesgos de dominio, mientras que los conjuntos de datos diversificados pueden comprometer la calidad. En el contexto de los presupuestos de capacitación fijos, existe una falta crítica de optimizar simultáneamente ambas dimensiones para maximizar el rendimiento del maniquí. Sin secuestro, especificar y optimizar conjuntamente la calidad y la diversificación siguen siendo desafíos no triviales.

Bytedance presenta Quadmix

Bytedance presenta QuadMix, un entorno de selección de datos unificado que equilibra sistemáticamente la calidad y la diversificación durante el pretratamiento de LLM. QuadMix evalúa cada muestra de datos en función de los criterios de calidad múltiples y las clasificaciones de dominio y determina su probabilidad de muestreo a través de una función parametrizada. El entorno emplea experimentos del maniquí proxy combinados con la regresión basada en LightGBM para predecir el rendimiento posterior, lo que permite una optimización de parámetros valioso sin un entrenamiento pormenorizado a gran escalera. Los experimentos demuestran que QuadMix logra una restablecimiento promedio del rendimiento de 7.2% en múltiples puntos de relato en comparación con los métodos que optimizan la calidad y la diversificación por separado, lo que subraya la efectividad de un enfoque conjunto.

QuadMix opera en tres etapas principales: ascendencia de características, agregación de calidad y muestreo consciente de la diversificación de calidad. Inicialmente, cada documento se anota con etiquetas de dominio y puntajes de calidad múltiples. Estos puntajes se normalizan y se fusionan utilizando parámetros específicos de dominio para calcular una puntuación de calidad agregada. Seguidamente, los documentos se muestrean de acuerdo con una función basada en sigmoides que prioriza muestras de viejo calidad mientras se mantiene el estabilidad de dominio a través de controles parametrizados.

La optimización se realiza entrenando miles de modelos proxy en diferentes configuraciones de parámetros. Un maniquí de regresión, capacitado en estos experimentos proxy, predice los resultados de rendimiento, lo que permite la identificación de configuraciones de muestreo óptimas. Este método permite una exploración estructurada de un espacio de parámetros de inscripción dimensión, alineando la selección de datos más estrechamente con las tareas posteriores intencionadas.

Quadmix proporciona varias ventajas:

  • Optimización unificada de la calidad de los datos y la diversificación del dominio.
  • Adaptabilidad a los requisitos específicos de la tarea a través de la selección del objetivo de evaluación proxy.
  • Eficiencia computacional al eludir el reentrenamiento de modelos completos exhaustivos.
  • Mejoras de rendimiento aguas debajo consistentes sin aumentar los presupuestos de cálculo.

Resultados e ideas experimentales

Los experimentos de potencia se realizaron utilizando el conjunto de datos refinado de la red, entrenando modelos de parámetros de 530 m desde cero. QuadMix se comparó con varias líneas de almohadilla, incluida la selección aleatoria, FineWeb-Edu, Askllm, DCLM, DSIR y REGMIX. QuadMix superó constantemente estos métodos, logrando un puntaje promedio de 39.5% en nueve puntos de relato diversos.

Las observaciones esencia incluyen:

  • Las estrategias de optimización conjunta superan consistentemente a los métodos aislados de calidad o diversificación centrados en la diversificación.
  • El rendimiento del maniquí proxy se correlaciona fuertemente con los resultados del maniquí a gran escalera, validando la capacidad del enfoque basado en el proxy.
  • Las mezclas de datos optimizadas para tareas posteriores específicas mejoran aún más el rendimiento de la tarea.
  • La fusión de criterios de calidad múltiples reduce los sesgos inherentes y restablecimiento la robustez genérico del maniquí.
  • La expansión de la diversificación de tokens más allá de un cierto origen produce rendimientos decrecientes, enfatizando la importancia de la calidad curada sobre la cantidad de pura.

Conclusión

QuadMix ofrece un enfoque de principios para la selección de datos para el pretruación de LLM, abordando el desafío de larga data de optimizar simultáneamente la calidad y la diversificación de los datos. Al integrar la agregación de calidad y el muestreo consciente del dominio internamente de un entorno unificado y usar la optimización basada en el proxy, QuadMix establece una metodología escalable para mejorar la eficiencia de previación de LLM. Si proporcionadamente existen oportunidades para mejoras futuras, como refinar el espacio de parámetros y mejorar la fidelidad del maniquí proxy, Quadmix representa un paso significativo cerca de estrategias de curación de datos más sistemáticas y efectivas para el exposición del maniquí a gran escalera.


Mira el Papel. Por otra parte, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GResparcir. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 (Regístrese ahora) Conferencia potencial de Minicon sobre AI de Agente: Registro tirado + Certificado de Concurso + Evento corto de 4 horas (21 de mayo, 9 am- 1 PM PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero quimérico, ASIF se compromete a usar el potencial de la inteligencia industrial para el proporcionadamente social. Su esfuerzo más nuevo es el tiro de una plataforma de medios de inteligencia industrial, MarktechPost, que se destaca por su cobertura profunda de noticiario de formación involuntario y de formación profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el notorio.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *