Athrun Data Intelligence

DeepSeek mHC: Estabilización del entrenamiento de modelos de jerigonza grandes

Los grandes modelos de IA están escalando rápidamente, con arquitecturas más grandes y ciclos de entrenamiento más largos convirtiéndose en la norma. Sin secuestro, a medida que los modelos crecen, un problema fundamental de estabilidad del entrenamiento sigue sin resolverse. DeepSeek mHC aborda directamente este problema repensando cómo se comportan las conexiones residuales a escalera. […]