El campo del procesamiento del jerigonza natural (PLN) ha rematado avances significativos con el incremento de modelos de jerigonza a gran escalera (LLM). Sin confiscación, este progreso ha traído su propia serie de desafíos. La capacitación y la inferencia requieren bienes computacionales sustanciales, la disponibilidad de conjuntos de datos diversos y de adhesión calidad es fundamental y conseguir una utilización equilibrada en arquitecturas de mezcla de expertos (MoE) sigue siendo confuso. Estos factores contribuyen a las ineficiencias y al aumento de los costos, lo que plantea obstáculos para ampliar los modelos de código campechano para que coincidan con sus homólogos propietarios. Adicionalmente, certificar la solidez y la estabilidad durante el entrenamiento es una cuestión constante, ya que incluso las inestabilidades menores pueden alterar el rendimiento y requerir intervenciones costosas.
DeepSeek-AI acaba de dar un regalo de Navidad al mundo de la IA al difundir DeepSeek-V3, un maniquí de jerigonza de mezcla de expertos (MoE) que presenta 671 mil millones de parámetros, con 37 mil millones activados por token. El maniquí se sostén en arquitecturas probadas como Multi-Head Latent Attention (MLA) y DeepSeekMoE, que se perfeccionaron en versiones anteriores. DeepSeek-V3 ha sido entrenado en un extenso conjunto de datos de 14,8 billones de tokens de adhesión calidad, lo que garantiza una pulvínulo de conocimientos amplia y diversa. Es importante destacar que el maniquí es completamente de código campechano, con modelos, artículos y marcos de capacitación accesibles para que los explore la comunidad de investigadores.

Detalles técnicos y beneficios
DeepSeek-V3 incorpora varias innovaciones destinadas a chocar desafíos de larga data en el campo. Su logística de contrapeso de carga auxiliar sin pérdidas garantiza una distribución capaz de las cargas computacionales entre los expertos mientras se mantiene el rendimiento del maniquí. La apadrinamiento de un objetivo de entrenamiento de predicción de múltiples tokens prosperidad la eficiencia de los datos y facilita una inferencia más rápida a través de la decodificación especulativa. Adicionalmente, el entrenamiento de precisión mixta del FP8 prosperidad la eficiencia computacional al resumir el uso de memoria de la GPU sin martirizar la precisión. El cálculo DualPipe minimiza aún más las burbujas en la canalización al superponer las fases de cálculo y comunicación, lo que reduce la sobrecarga de comunicación entre todos. Estos avances permiten que DeepSeek-V3 procese 60 tokens por segundo durante la inferencia, una prosperidad significativa con respecto a su predecesor.
Información y resultados sobre el rendimiento
DeepSeek-V3 ha sido evaluado rigurosamente en múltiples puntos de relato, lo que demuestra un rendimiento sólido. En conjuntos de datos educativos como MMLU y MMLU-Pro, logró puntuaciones de 88,5 y 75,9, respectivamente, superando a otros modelos de código campechano. En tareas de razonamiento matemático, estableció nuevos estándares con una puntuación de 90,2 en MATH-500. El maniquí todavía tuvo un desempeño infrecuente en pruebas de codificación como LiveCodeBench. A pesar de estos logros, el costo de capacitación se mantuvo relativamente bajo en $5,576 millones, requiriendo sólo 2,788 millones de horas de GPU H800. Estos resultados resaltan la eficiencia de DeepSeek-V3 y su potencial para hacer que los LLM de suspensión rendimiento sean más accesibles.


Conclusión
DeepSeek-V3 representa un avance significativo en la investigación de PNL de código campechano. Al chocar los desafíos computacionales y arquitectónicos asociados con los modelos de jerigonza a gran escalera, establece un nuevo punto de relato para la eficiencia y el rendimiento. Sus métodos de formación innovadores, su obra escalable y sus sólidos resultados de evaluación lo convierten en una alternativa competitiva a los modelos propietarios. El compromiso de DeepSeek-AI con el incremento de código campechano garantiza que la comunidad de investigación en común pueda beneficiarse de sus avances.
Repasar el Papel, Página de GitHub, y Maniquí en abrazando a Facmi. Todo el crédito por esta investigación va a los investigadores de este esquema. Adicionalmente, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Asif Razzaq es el director ejecutante de Marktechpost Media Inc.. Como emprendedor e ingeniero iluminado, Asif está comprometido a servirse el potencial de la inteligencia químico para el proporcionadamente social. Su esfuerzo más nuevo es el tirada de una plataforma de medios de inteligencia químico, Marktechpost, que se destaca por su cobertura en profundidad del educación involuntario y las noticiero sobre educación profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el conocido.