Building Prometheus: How Backend Aggregation Enables Gigawatt-Scale AI Clusters
摘要
Meta正在构建名为Prometheus的AI集群,采用后端聚合(BAG)技术连接多个数据中心,支持大规模GPU互联。BAG通过模块化硬件、高级路由和弹性拓扑,确保高性能和可靠性。BAG层采用分布式架构,优化了L2网络的连接,并通过EBGP路由实现负载均衡。其设计注重网络弹性,有效管理长距离电缆的缓冲需求,推动Meta全球AI网络的创新与扩展。