5月7日,OpenAI于5月6日发布公告,旨在解决大规模AI训练中的网络延迟和故障问题。该公司与AMD、博通、英特尔、微软和英伟达等企业携手,联合推出了一项名为MRC(多路径可靠连接)协议,并通过开放计算项目(OCP)向全行业发布该协议。
根据博文介绍,MRC的全称为Multipath Reliable Connection,基于RoCE标准进行扩展,结合了SRv6技术。通过开放计算项目(OCP)向全行业开源,旨在提升超级计算机网络的性能与韧性。
大规模训练AI模型面临严峻的网络挑战,单一数据传输延迟可能导致整体训练过程的中断,造成GPU的闲置。网络拥塞、链路及设备故障是主要原因,而且集群规模越大,问题出现的频率就越高。
针对传统网络架构扩展性不足的问题,MRC采用了多平面网络设计。通过将单一800Gb/s接口拆分为多个较小的链路,系统仅需两层交换机就能连接约13.1万块GPU。与传统的三层或四层架构相比,这种设计显著降低了网络功耗与组件数量,同时提升了路径多样性。
在流量调度方面,MRC引入了自适应数据包喷淋技术。与传统的单路径传输不同,该技术将单一任务的数据包分散至数百条路径并行传输,有效避免了核心网络的拥塞。即使数据包乱序到达,接收端也能依据内存地址信息正确重组。
为简化网络控制,MRC摒弃了复杂的动态路由协议,转而采用SRv6源路由。发送端直接指定数据包路径,交换机仅需依据静态配置表进行转发。这种机制消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级。
实际部署数据显示,MRC已在NVIDIA GB200超级计算机及Oracle Cloud Infrastructure(OCI)站点得到应用。在真实训练场景中,即使发生链路抖动或交换机重启,MRC也能在不中断训练任务的情况下自动绕过故障。
