Athrun Data Intelligence


  • En Open Compute Project Summit (OCP) 2025, compartiremos detalles sobre la dirección de los tejidos de red de próxima coexistentes para nuestros grupos de capacitación en IA.
  • Hemos ampliado nuestra cartera de hardware de red y estamos aportando nuevas plataformas de red desagregadas a OCP.
  • Esperamos seguir colaborando con OCP para inaugurar diseños de racks, servidores, cajas de almacenamiento y placas pulvínulo para beneficiar a empresas de todos los tamaños en toda la industria.

En Meta, creemos que el hardware rajado es un catalizador para la innovación, especialmente a medida que la infraestructura del centro de datos admite cada vez más tecnologías de IA nuevas y emergentes. El hardware rajado desempeña un papel crucial a la hora de permitir la desagregación, lo que nos permite dividir las tecnologías tradicionales de los centros de datos en sus componentes principales. Este enfoque nos permite construir sistemas que sean más flexibles, escalables y eficientes.

Desde que cofundó Open Compute Project (OCP) en 2011, Meta ha compartido diseños de componentes y centros de datos, y ha rajado el código rajado de nuestro sistema operante de red. FOBOSpara inspirar nuevas ideas tanto interiormente de nuestras propias operaciones como en toda la industria. Estos esfuerzos han jugado un papel importante para hacer que los centros de datos de Meta sean sostenibles y eficientes. Hoy, a través de OCP, continuamos avanzando en tecnologías de redes abiertas para la próxima coexistentes de aplicaciones de IA.

Estamos anunciando varios hitos nuevos para la red de nuestro centro de datos:

  • la transformación de Estructura programada desagregada (DSF) para guarecer la interconexión escalable para grandes grupos de IA que abarcan edificios completos de centros de datos.
  • Una nueva edificio de tejido no programado (NSF) basada completamente en conmutadores Ethernet desagregados y con búfer poco profundo que admitirán nuestros grupos de IA más grandes, como Prometeo.
  • La incorporación de Minipack3N, basado en Ethernet Spectrum-4 ASIC de NVIDIA, a nuestra cartera de conmutadores OCP de 51 Tbps que utilizan SAI de OCP y la pila de software FBOSS de Meta.
  • El emanación de la iniciativa Ethernet for Scale-Up Networking (ESUN), donde Meta ha trabajado con otros operadores de gran escalera y proveedores líderes de Ethernet para avanzar en el uso de Ethernet para redes de escalamiento (específicamente las interconexiones de parada rendimiento requeridas para las arquitecturas de aceleradores de IA de próxima coexistentes).

DSF de doble etapa: ampliación de estructuras programadas para clústeres de IA más grandes

En la Cumbre Entero OCP del año pasado compartimos Estructura programada desagregada (DSF)un sistema basado en VOQ impulsado por el rajado OCP-EFS normalizado y FOBOS. La estructura DSF admite una interfaz RoCE abierta y normalizado basada en Ethernet para puntos finales y aceleradores en varias xPU y NIC, incluidas Meta’s. MTIA así como de varios proveedores.

Durante el zaguero año, hemos evolucionado DSF a una edificio de 2 etapas, escalando para guarecer una estructura sin soledad que interconecta hasta 18.432 XPU. Estos clústeres son un componente fundamental para construir clústeres de IA que abarquen regiones (e incluso varias regiones) para satisfacer las mayores demandas de capacidad y rendimiento de las cargas de trabajo de IA de Meta.

La nueva edificio DSF de doble etapa admite una estructura sin soledad, lo que permite la interconexión entre una decano cantidad de GPU en un clúster. En Meta, lo hemos utilizado para construir grupos de GPU de 18k a la escalera de edificios completos de centros de datos.

Estructuras no programadas (NSF) para grandes grupos de IA

Paralelamente a la transformación de la edificio DSF, igualmente hemos ideado una nueva edificio llamamiento Non-Scheduled Fabric (NSF), con las siguientes características secreto:

  • Basado en conmutadores Ethernet OCP de búfer superficial.
  • Ofrece desprecio latencia de ida y revés.
  • Admite enrutamiento adaptable para un consistencia de carga efectivo, lo que garantiza una utilización óptima y minimiza la congestión.
  • Sirve como coalición de construcción fundamental para clústeres de IA a escalera de gigavatios como Prometheus.
NSF: estructuras no programadas de tres niveles para crear clústeres de IA a escalera.

Nuevas plataformas de conmutación OCP para tejidos de inteligencia químico de próxima coexistentes

El año pasado, Meta introdujo dos nuevos Conmutadores Ethernet 51T: Minipack3 (basado en Broadcom Tomahawk5) y Cisco 8501 (basado en Cisco Silicon One G200). Estos conmutadores OCP ofrecen 51,2 Tbps (64 puertos OSFP), son energéticamente eficientes sin aprieto de temporizadores y ejecutan nuestro sistema operante de red a gran escalera, FBOSS. Estas plataformas han servido como pulvínulo para construir nuestras estructuras de centros de datos frontend y backend de próxima coexistentes.

Este año, presentamos Minipack3N, un nuevo conmutador Ethernet 51T basado en el ASIC de conmutación NVIDIA Spectrum-4 y aprovecha el mismo diseño de sistema que Minipack3.

El Minipack3N, un conmutador de 51,2 Tbps (diseñado por Meta y fabricado por Accton) basado en el ASIC de conmutación Ethernet NVIDIA Spectrum-4.

Desarrollo de FBOSS y SAI para DSF y NSF

Meta continúa adoptando OCP-SAI como pulvínulo para incorporar nuevas estructuras de red, plataformas de hardware de conmutación y transceptores ópticos en FBOSS. A través de una estrecha colaboración con proveedores y la comunidad OCP, hemos desarrollado SAI para guarecer características y conceptos avanzados, incluidos DSF, NSF y otros esquemas de enrutamiento mejorados diseñados para cargas de trabajo de inteligencia químico y centros de datos modernos.

Este enfoque rajado permite a los desarrolladores e ingenieros de todo el mundo interactuar con hardware de vanguardia, contribuir con software renovador y usar estas soluciones para sus propias evacuación. Al compartir avances y fomentar la colaboración, ayudamos a acelerar el progreso en toda la industria, garantizando que el hardware y el software abiertos sigan siendo el núcleo de una infraestructura de centro de datos escalable, apto y preparada para el futuro.

Ópticas: 2x400G FR4-LITE y 400G/2x400G DR4 Ópticas para interconexiones ópticas 400G/800G

El año pasado, Meta presentó la óptica 2x400G FR4 BASE (3 km), la posibilidad principal que admite plataformas 51T de próxima coexistentes en redes backend y frontend y DSF. Estas ópticas ahora se han implementado ampliamente en todos los centros de datos de Meta.

Este año ampliamos nuestro portafolio con el emanación de la óptica 2x400G FR4 LITE (500 m). Desarrollado como parte de una iniciativa de eficiencia, FR4 LITE está optimizado para la mayoría de los casos de uso interiormente del centro de datos y admite enlaces de fibra de hasta 500 metros. Esta nueva transformación está diseñada para acelerar la reducción de costos de la óptica y al mismo tiempo sostener un rendimiento sólido para aplicaciones de beocio capacidad.

Adicionalmente, presentamos la óptica 400G DR4 OSFP-RHS, nuestra posibilidad DR4 de primera coexistentes para conectividad NIC del banda del host de IA. Como complemento a esto, la nueva óptica OSFP DR4 2x400G se está implementando en el banda del conmutador, proporcionando conectividad del host al conmutador.

El 400G DR4 (izquierda), el 2x400G DR4 (centro) y el 2x400G FR4 LITE (derecha).

Ethernet para redes de ampliación en OCP: el liderazgo industrial de Meta

En Meta, reconocemos que el futuro de la IA y la infraestructura del centro de datos depende de soluciones de red abiertas, escalables e interoperables. Como parte de nuestro compromiso continuo con el hardware rajado y la colaboración industrial, Meta es participante fundador de la nueva iniciativa Ethernet for Scale-Up Networking (ESUN), que se lanzó interiormente de OCP en la Cumbre Entero OCP 2025.

¿Qué es ESUN?

ESUN es una nueva corriente de trabajo interiormente del Tesina de Redes OCP. Funciona como un foro técnico rajado donde los operadores de la industria y los proveedores líderes pueden colaborar para avanzar en el uso de la tecnología Ethernet. El objetivo específico de ESUN es usar y adaptar el ecosistema Ethernet provecto para satisfacer las demandas únicas y de parada rendimiento del dominio en expansión interiormente de los sistemas de IA modernos.

ESUN se centra específicamente en la funcionalidad de red aspecto de los sistemas de ampliación. El flujo de trabajo está diseñado para topar los desafíos técnicos relacionados con cómo se gestiona y transmite el tráfico de datos a través de conmutadores de red. Esto incluye constreñir mejores prácticas y estándares para:

  • Encabezados de protocolo
  • Mecanismos de manejo de errores
  • Alcanzar una transferencia de datos sin pérdidas a través de la red

La iniciativa reúne a operadores, proveedores y organismos de normalización para:

  • Colabore en soluciones Ethernet diseñadas para redes de ampliación.
  • Concéntrese en el entramado de Ethernet y las capas de conmutación para certificar topologías de múltiples saltos robustas, sin pérdidas y resistentes a errores.
  • Alinearse con estándares abiertos trabajando estrechamente con organizaciones como UEC e IEEE.

Las contribuciones de Meta a ESUN

Meta se enorgullece de estar entre el montón original de miembros de OCP que impulsan ESUN, conexo con líderes de la industria que incluyen: AMD, Arista, ARM, Broadcom, Cisco, HPE, Marvell, Meta, Microsoft, NVIDIA, OpenAI y Oracle.

Nuestras contribuciones incluyen:

  • Liderazgo técnico en la definición de requisitos para ESUN en clusters de IA.
  • Colaboración abierta con proveedores y organismos de normalización para certificar que las soluciones sean interoperables y no estén vinculadas a tecnologías patentadas.
  • Compartir las mejores prácticas y las lecciones aprendidas al implementar estructuras Ethernet avanzadas en los propios centros de datos de Meta.

Una invitación de la industria: únase al futuro rajado

Impulsar el progreso en IA requiere una infraestructura de centro de datos que ofrezca poco más que escalera: igualmente debe ser flexible, apto y sostenible. En Meta, imaginamos un futuro en el que los sistemas de hardware de IA no solo sean en gran medida escalables, sino igualmente abiertos y colaborativos, lo que permitirá una rápida innovación y habilitación a cargas de trabajo en transformación.

Invitamos a ingenieros, desarrolladores y socios de la industria a unirse a nosotros y a la comunidad OCP para dar forma a la próxima coexistentes de hardware de redes para IA. Trabajando juntos y compartiendo ideas, podemos acelerar el incremento de una infraestructura de IA abierta y preparada para el futuro que beneficie a toda la industria y respalde las demandas de las tecnologías del mañana.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *