- En Open Compute Project Summit (OCP) 2024, compartiremos detalles sobre nuestro tejido de red de próxima reproducción para nuestros grupos de capacitación en IA.
- Hemos ampliado nuestra cartera de hardware de red y estamos aportando dos nuevos tejidos de red desagregados y una nueva NIC a OCP.
- Esperamos seguir colaborando con OCP para desplegar diseños de racks, servidores, cajas de almacenamiento y placas cojín para beneficiar a empresas de todos los tamaños en toda la industria.
En Meta, creemos que el hardware franco impulsa la innovación. En el mundo coetáneo, donde cada vez más infraestructura de centros de datos se dedica a respaldar tecnologías de IA nuevas y emergentes, el hardware franco asume un papel importante para ayudar con la desagregación. Al dividir las tecnologías tradicionales de los centros de datos en sus componentes principales, podemos construir nuevos sistemas que sean más flexibles, escalables y eficientes.
Desde que ayudamos a fundar OCP en 2011, hemos compartido nuestros diseños de componentes y centros de datos, y hemos franco el código franco de nuestro software de orquestación de red para crear nuevas ideas tanto en nuestros propios centros de datos como en toda la industria. Esas ideas han hecho que los centros de datos de Meta entre los más sostenibles y eficientes del mundo. Ahora, a través de OCP, estamos incorporando nuevas tecnologías de red avanzadas y abiertas a nuestros centros de datos y a la industria en genérico para aplicaciones avanzadas de IA.
Anunciamos dos nuevos hitos para nuestros centros de datos: nuestra estructura de red de próxima reproducción para IA y una nueva cartera de hardware de red que hemos desarrollado en estrecha colaboración con múltiples proveedores.

DSF: Tejido programado, desagregado y franco
El rendimiento y la disponibilidad de la red desempeñan un papel importante a la hora de extraer el mejor rendimiento de nuestra Grupos de entrenamiento de IA. Es por esa razón que hemos seguido presionando para obtener la desagregación en las estructuras de la red backend para nuestros clústeres de IA. Durante el año pasado, desarrollamos un tejido programado desagregado (DSF) para nuestros clústeres de IA de próxima reproducción para ayudarnos a desarrollar sistemas abiertos e independientes del proveedor con bloques de construcción intercambiables de proveedores de toda la industria. Los tejidos basados en DSF nos permiten construir tejidos grandes y sin corte para acoger clústeres de IA de gran satisfecho de facción.
DSF extiende nuestros sistemas de red desagregados a nuestros sistemas conmutados basados en VoQ que funcionan con energía abierta. OCP-EFS tipificado y FOBOSEl propio sistema activo de red de Meta para controlar conmutadores de red. La programación del tráfico basada en VoQ garantiza la prevención proactiva de la congestión en la estructura en división de una señalización y reacción reactivas a la congestión.
La estructura DSF admite una interfaz RoCE abierta y tipificado basada en Ethernet para puntos finales y aceleradores en varias xPU y NIC, incluidas Meta’s. MTIA así como de varios proveedores.
Plataformas DSF para tejidos de IA de próxima reproducción
Serie Arista 7700R4
Las plataformas DSF, serie Arista 7700R4, constan de sistemas de hoja y columna dedicados que se combinan para crear un conmutador espacioso y distribuido. Como sistema distribuido, DSF está diseñado para acoger clústeres de IA de gran escalera.
7700R4C-38PE: Interruptor de hoja DSF
- Conmutador de hoja distribuida DSF (basado en Broadcom Jericho3-AI)
- 18 puertos host OSFP800 de 800 GE (36 x 400 GE)
- 20 puertos de estructura de 800 Gbps (40 x 400 Gbps)
- 14,4 Tbps de rendimiento a velocidad de cable con 16 GB de buffers
7720R4-128PE: Interruptor espinal DSF
- Conmutador espinal distribuido DSF (basado en Broadcom Ramon3)
- Canalización optimizada de computación acelerada
- Puertos fabric de 128 x 800 Gbps (256 x 400 Gbps)
- 102,4 Tbps de rendimiento de velocidad de cable
Conmutadores 51T para tejidos 400G/800G de próxima reproducción

Meta implementará dos conmutadores de estructura 400G de próxima reproducción, el Minipack3 (la última interpretación de Minipaqueteel conmutador de red de estructura propio de Meta) y el Cisco 8501, los cuales incluso son compatibles con conmutadores anteriores de 200G y 400G y admitirán actualizaciones a 400G y 800G.
El Minipack3 utiliza el postrer ASIC Tomahawk5 de Broadcom, mientras que el Cisco 8501 se cimiento en el ASIC Silicon One G200 de Cisco. Estos conmutadores de stop rendimiento transmiten hasta 51,2 Tbps con 64 puertos OSFP y el diseño está optimizado sin requisito de retemporizadores para obtener la máxima eficiencia energética. Incluso tienen una potencia por bit significativamente estrecha en comparación con los modelos anteriores.
Meta ejecutará tanto Minipack3 como Cisco 8501 en FBOSS.

Óptica: Óptica 2x400G FR4 para interconexión óptica 400G/800G
Las estructuras del centro de datos de Meta han evolucionado de 200 Gbps/400 Gbps a 400 Gbps/800 Gbps y ya hemos implementado ópticas 2x400G en nuestros centros de datos.
Desarrollo de FBOSS y SAI para DSF
Seguimos adoptando OCP-SAI para incorporar nuevos tejidos de red, plataformas de hardware de conmutación y transceptores ópticos a FBOSS. Hemos colaborado con proveedores y la comunidad OCP para hacer cambiar a SAI. Ahora admite nuevas características y conceptos como DSF y otros esquemas de enrutamiento mejorados.
Los desarrolladores e ingenieros de todo el mundo pueden trabajar con este hardware franco y contribuir con su propio software que, a su vez, pueden utilizar ellos mismos y compartir con la industria en genérico.
FBNIC: una NIC fundamental de múltiples hosts diseñada por Meta
Seguimos diseñando más ASIC, incluido el ASIC para FBNIC. FBNIC es una verdadera NIC fundamental de múltiples hosts y contiene el primero de nuestros ASIC de red metadiseñados para nuestra flota de servidores y MTIA soluciones. Puede acoger hasta cuatro hosts con aislamiento completo de la ruta de datos para cada host. El compensador FBNIC se ha actualizado (apto desde el kernel v6.11). El módulo NIC fue diseñado por Marvell y ha sido contribuido a OCP.
Las características esencia de FBNIC incluyen:
- Interfaces de red para hasta 4×100/4×50/4×25 GE con soporte SerDes para hasta 56G PAM4 por carril.
- Hasta 4 cortes PCIe Gen5 independientes
- Descargas de HW, incluidos LSO y Checksum
- Marca de tiempo de velocidad de cuerda (para cada host desde PHY) para PTP
- División de datos de encabezado para ayudar a la copia cero
- Cumple con OCP NIC 3.0, interpretación 1.2.0, explicación de diseño
El futuro está franco.
Hacer avanzar la IA significa construir una infraestructura de centro de datos que vaya más allá de la escalera. Incluso debe permitir flexibilidad y funcionar de modo valioso y sostenible. En Meta, imaginamos un futuro de sistemas de hardware de IA que no sólo sean escalables, sino incluso abiertos y colaborativos.
Alentamos a cualquiera que quiera ayudar a avanzar en el futuro del hardware de redes para IA a colaborar con OCP y Meta para ayudar a compartir el futuro de la infraestructura de IA.