Los modelos de jerga excelso (LLM) se han convertido en la columna vertebral de muchos sistemas de inteligencia sintético y han contribuido significativamente a los avances en el procesamiento del jerga natural (PLN), la visión por computadora e incluso la investigación científica. Sin bloqueo, estos modelos presentan sus propios desafíos. A medida que aumenta la demanda de mejores capacidades de IA, todavía aumenta la menester de modelos más sofisticados y más grandes. El tamaño y los requisitos computacionales de los LLM hacen que la capacitación y la inferencia sean costosas, lo que lleva a los investigadores a explorar arquitecturas más eficientes. Una decisión que ha reses popularidad es el maniquí Mixture of Experts (MoE), que restablecimiento el rendimiento mediante la activación selectiva de componentes especializados. A pesar de su promesa, muy pocos modelos de MoE a gran escalera han sido de código extenso para uso comunitario, lo que limita la innovación y las aplicaciones prácticas.
Tencent ha cubo un importante paso delante al divulgar Hunyuan-Large, que se afirma que es el maniquí MoE extenso basado en transformador más excelso habitable actualmente en la industria. Con un total de 389 mil millones de parámetros, de los cuales 52 mil millones están activos, Hunyuan-Large está diseñado para manejar contextos extremadamente grandes de hasta 256 mil tokens. Este maniquí presenta una combinación sin precedentes de técnicas de vanguardia para invadir la PNL y tareas generales de IA, rivalizando y, en algunos casos, superando a otros modelos líderes como LLama3.1-70B y LLama3.1-405B. La contribución de Tencent es optimista para la comunidad de IA, ya que proporciona un apelación que combina detención rendimiento con escalabilidad, ayudando tanto a los profesionales de la industria como a los investigadores a ampliar los límites de las capacidades de la IA.

Hunyuan-Large logra su impresionante rendimiento a través de una variedad de avances técnicos. El maniquí está previamente entrenado con siete billones de tokens, incluidos 1,5 billones de tokens de datos sintéticos que mejoran el formación en diversos campos como las matemáticas, la codificación y el multilingüismo. Estos datos vastos y diversos permiten que el maniquí se generalice de forma efectiva, superando a otros modelos de tamaños comparables. El uso de una táctica mixta de enrutamiento avezado, combinada con innovaciones como la compresión de elegancia de valía secreto (KV) y una tasa de formación específica de expertos, distingue a Hunyuan-Large en términos de eficiencia. La compresión de elegancia KV reduce la sobrecarga de memoria durante la inferencia, lo que permite progresar el maniquí de forma valioso y al mismo tiempo conservar respuestas de adhesión calidad. Por otra parte, la tasa de formación específica de expertos permite que diferentes componentes del maniquí se entrenen de forma más óptima, equilibrando la carga entre expertos compartidos y especializados.


El extensión de Hunyuan-Large es importante por varias razones. No solo presenta una oportunidad de trabajar con un maniquí MoE verdaderamente a gran escalera, sino que todavía viene con una almohadilla de código de fuente abierta y puntos de control previamente entrenados, lo que lo hace accesible para futuras investigaciones y crecimiento. Los puntos de narración muestran que Hunyuan-Large supera a los modelos existentes en tareas secreto de PNL, como respuesta a preguntas, razonamiento racional, codificación y comprensión lectora. Por ejemplo, supera al maniquí LLama3.1-405B en el punto de narración MMLU con una puntuación de 88,4 en comparación con el 85,2 de LLama. Este logro resalta la eficiencia del entrenamiento y la inmueble de Hunyuan-Large, a pesar de tener menos parámetros activos. Al sobresalir en tareas que requieren una comprensión de contexto a extenso plazo, Hunyuan-Large todavía aborda una brecha crucial en las capacidades LLM actuales, lo que lo hace particularmente útil para aplicaciones que necesitan manejar secuencias extendidas de texto.
Hunyuan-Large de Tencent es un hito en el crecimiento de modelos MoE basados en transformadores. Con 389 mil millones de parámetros y mejoras técnicas como la compresión de elegancia KV y tasas de formación específicas de expertos, proporciona a la comunidad de IA una aparejo poderosa para futuras investigaciones y aplicaciones. El extensión de este maniquí representa un paso alrededor de hacer que la IA a gran escalera sea más accesible y capaz, impulsando la innovación en diversos campos.
Mira el Papel, Códigoy Modelos. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Oportunidad de patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad
Asif Razzaq es el director ejecutante de Marktechpost Media Inc.. Como emprendedor e ingeniero iluminado, Asif está comprometido a exprimir el potencial de la inteligencia sintético para el acertadamente social. Su esfuerzo más nuevo es el extensión de una plataforma de medios de inteligencia sintético, Marktechpost, que se destaca por su cobertura en profundidad del formación espontáneo y las informativo sobre formación profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el conocido.