Cómo están ganando la optimización y el código campechano

«China va a aventajar la carrera de la IA». Una manifiesto flamante hecha por el CEO de Nvidia, Jensen Huang, ha generado mucho revuelo. Los modelos fabricados en China han superado las suposiciones iniciales de que eran “imitaciones de GPT”. Legado que los lanzamientos de modelos superan los límites de lo que era posible ayer, aunque son económicos y de código campechano, han atraído mucha atención. Los modelos más nuevos incluso superan a los colosos de la IA como ChatGPT, Claude y Gemini, por una fracción del costo.

Este artículo aclararía cómo los modelos chinos de IA han renovador enormemente en tan poco tiempo y qué pueden formarse de ellos los países que se están poniendo al día en esta carrera.

¿Por qué son diferentes los modelos chinos?

«La mejor optimización suele ser la resta». Este divisa se encuentra en el meollo del AI Modelos que produce China. Los modelos chinos están ganando no porque tengan más capital, sino porque han aprendido a utilizarlos. menos capital mejor.

Laboratorios occidentales como OpenAI, Anthropic y Google han construido una infraestructura de hardware increíble escalando la computación y los datos. Los laboratorios chinos, por otro banda, se vieron obligados por prohibiciones de exportación, límites de costos y golpe definido a los chips de Nvidia a hacer lo contrario: confeccionar modelos más pequeños, más rápidos, más baratos y aún competitivos. La ruta de optimización no fue una comicios: fue una obligación.

Así se desarrolló el aberración aludido:

MoE (mezcla de expertos) arquitecturas como en Búsqueda profunda V3 y kimi k2 se idearon, que redujeron drásticamente los costos de computación.
En ocasión de utilizar fuerza bruta con miles de Nvidia H100 (que no pudieron conseguir), los equipos han optimizado la paralelización, la compresión y la inferencia.
El resultado fueron modelos entrenados a una fracción de GPT-4El costo se realiza en microsegundos.

Respaldo estatal

A diferencia del progreso de la IA en Oeste, donde el progreso lo logran solamente las empresas o las nuevas empresas, el gobierno de China incentivó fuertemente los avances en el ámbito de la IA. Esto se hace ofreciendo:

Subvenciones y apoyo a infraestructuras: El gobierno está apoyando componentes de IA, desde chips hasta centros de datos y energía. Para que las empresas más pequeñas utilicen la IA, ofrecen vales de potencia informática ingresar a la infraestructura de formación en IA a un coste pequeño.
Fondos: China lanzó un fondo franquista de orientación de caudal de peligro de rodeando de 1 billón de yuanes (~138 mil millones de dólares) para cambiar en campos de “tecnología dura”, incluidos la inteligencia industrial, los semiconductores y las energías renovables.
Logística industrial y alineamiento de políticas: La IA está designada como una “industria de frontera” en los planes nacionales de China. El Estado emite documentos rectores, alinea los objetivos corporativos con los objetivos nacionales y fomenta la integración de “IA+” en todos los sectores.

Los intentos ayer mencionados garantizan que el progreso de la IA no se considere separado del resto, sino que todos lo vean como un facilitador.

Este es un problema importante para el progreso de la IA en Estados Unidos, ya que la estricta política del gobierno en torno a las importaciones extranjeras y los aranceles exorbitantes dificultan que sus centros tecnológicos hagan negocios con países extranjeros. restricciones estadounidenses La traspaso de chips de IA avanzados a China resultó contraproducente, al presionar a China para que construyera su propia pila.

Sistema estrechamente conforme

China tomó el camino de Apple en torno a la IA, creando sistemas estrechamente integrados, donde todo, desde la construcción de hardware especializado hasta la creación de software formado y hasta tener una condena de suministro locorregional, se hacía en China. En ocasión de utilizar GPU que están generalizadas para una multitud de tareas como juegos, procesamiento de video y programación, el hardware se optimizó especialmente para modelos de entrenamiento.

Muchas operaciones de IA occidentales todavía dependen en gran medida de GPU de uso común (originalmente diseñadas para gráficos o cargas de trabajo de computación amplias) en ocasión de chips diseñados a medida para cargas de trabajo de IA específicas. El hardware de uso común está optimizado para un caso de uso amplio. Esto significa menos aclimatación para ciertas operaciones específicas de la IA, como la multiplicación masiva de matrices, modelos dispersos e inferencias de desaparecido precisión. Esto los coloca en una desventaja inherente, ya que utilizan una fracción de la capacidad informática total de lo que ofrecen en su conjunto.

El cambio en torno a hardware especializado está avanzando, pero a un ritmo pausado. Mientras que en China ya se están entrenando modelos con hardware personalizado, en Oeste todavía son pocos y lejanos escenarios similares.

Talento y Fuerza Sindical

La maduro parte del talento que se encuentra en los EE.UU. no es del propio país. Los países occidentales se beneficiaron durante mucho tiempo de la cerebros en todo el mundoofreciéndoles salarios lucrativos y un mejor nivel de vida que el que se ofrecía en su país. Pero con los aranceles y otras políticas estrictas en vigor, esto se ha vuelto difícil.

China, por otro banda, cuenta con una de las mayores poblaciones calificadas del mundo. La manifiesto “Ellos (China) tienen muchos investigadores de IA; de hecho, el 50% de los investigadores de IA del mundo están en China. Y desarrollan muy buena tecnología de inteligencia industrial.«, realizado por Jensen Huang, capta esto perfectamente. China no sólo se beneficia de un sistema centralizado establecido por su gobierno, sino incluso de una población masiva e ingeniosa.

Descubierto vs Cerrado

Código abierto vs cerrado — Modelos de código campechano contra modelos de código cerrado

Un aspecto de la IA en el que China es líder indiscutible es el código campechano. Ahora déjenme aclarar esto: China no optó por tomar la ruta del código campechano adecuado al altruismo de su parte. Más acertadamente, se debe a que la competencia, la penuria y la táctica chocan todas al mismo tiempo.

Menester: Oportuno a la prohibición estadounidense de exportar chips líderes de Nvidia, los laboratorios chinos no podían pender del entrenamiento de fuerza bruta. Por eso hicieron hincapié en la creación de sistemas optimizados. ¡Pero este no es el final! Para probar si los sistemas optimizados funcionan como se esperaba o no, requirieron mucha feedback, lo cual les ayudó a proporcionar modelos de código campechano.
Logística: Imaginar los modelos más potentes estaba fuera de discusión para China, considerando el liderazgo que tenían los modelos occidentales. En cambio, se hizo un hueco: el código campechano. Legado que los mercados globales se vuelven cada vez más propietarios, el cambio en torno a el código campechano los ayudó a aventajar preeminencia en el diversión de mentalidad y convertirse en la opción preferida para los desarrolladores independientes.
Competencia: Con la financiación estatal acondicionado, ¡todo lo que quedaba por hacer era ser el mejor! A diferencia de las rivalidades en Silicon Valley, que ocurren a puerta cerrada, China tuvo un enfoque inclusivo del crecimiento. Las startups, las empresas y los contribuyentes individuales operaron de forma transparente con un único motivo: mejorar los modelos.

El enfoque campechano de los LLM de China claramente dio sus frutos, considerando que la mayoría de los mejores modelos de código campechano se desarrollan en China.

¿Quién ganó?

No hay un solo triunfador. Mientras que Oeste lidera en inteligencia de frontera, China lidera en eficiencia, escalera y modelos accesibles de código campechano. Cuando se cerraron los laboratorios occidentales, China llenó el infructifero y básicamente se hizo cargo del ciclo de innovación en investigación de modelos asequibles y modificables. Pero los modelos occidentales tienen una preeminencia en cuanto a rendimiento.

Y la carrera está cambiando de «¿Quién puede construir el maniquí más holgado?» a «¿Quién puede implementar IA en todas partes?»

Preguntas frecuentes

P1. ¿Cómo logró China ponerse al día tan rápidamente en IA?

R. Fueron empujados a una optimización extrema. El golpe definido a los mejores chips de Nvidia los obligó a construir modelos más pequeños, más baratos y mucho eficientes en ocasión de hacerlo a escalera por fuerza bruta.

P2. ¿Por qué China es válido en IA de código campechano?

R. El código campechano no era caridad. Les brindó feedback entero, impulsó la asimilación y creó una preeminencia donde los laboratorios occidentales permanecieron cerrados.

P3. ¿China positivamente lidera la carrera de la IA?

R. Depende de la métrica. Oeste todavía lidera en capacidad bruta, pero China domina la eficiencia, el costo, la escalera y el impulso del código campechano.

Me especializo en revisar y perfeccionar investigaciones impulsadas por IA, documentación técnica y contenido relacionado con tecnologías de IA emergentes. Mi experiencia albarca el entrenamiento de modelos de IA, el disección de datos y la recuperación de información, lo que me permite crear contenido técnicamente preciso y accesible.

Inicie sesión para continuar leyendo y disfrutar de contenido seleccionado por expertos.

Etiquetado abierto, código, Cómo, están, ganando, Optimización