Athrun Data Intelligence

DeepSeek-AI acaba de difundir DeepSeek-V3: un sólido maniquí de jerigonza de mezcla de expertos (MoE) con 671 B de parámetros totales con 37 B activados para cada token

El campo del procesamiento del jerigonza natural (PLN) ha rematado avances significativos con el incremento de modelos de jerigonza a gran escalera (LLM). Sin confiscación, este progreso ha traído su propia serie de desafíos. La capacitación y la inferencia requieren bienes computacionales sustanciales, la disponibilidad de conjuntos de datos diversos y de adhesión calidad es […]