Athrun Data Intelligence

Los investigadores de DeepSeek aplican un operación de normalización de matrices de 1967 para solucionar la inestabilidad en las hiperconexiones

Los investigadores de DeepSeek están intentando resolver un problema preciso en el entrenamiento de modelos de verbo grandes. Las conexiones residuales hicieron que las redes muy profundas fueran entrenables, las hiperconexiones ampliaron ese flujo residual y el entrenamiento se volvió inestable a escalera. El nuevo método mHC, Manifold Constrained Hyper Connections, mantiene la topología más […]