AI大模型参数规模持续增长,单卡算力与显存的物理上限,正倒逼AI训练集群规模持续扩容。在这场AI算力军备竞赛中,网络性能早已成为决定集群算力释放效率的关键。对于超大参数规模的AI模型而言,更高的网络带宽,能够直接大幅压缩模型训练的完成周期。 01 AI算力释放的技术底座:RDMA 要突破AI集群的网络性能瓶颈,RDMA技术已成为行业公认的解决方案,而这一切的起点,源于GPU通用计算时代的通信瓶颈破局。 GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。当时GPU已经从图形渲染转向通用计算(GPGPU),成为HPC的核心加速器。GPU计算能力虽然在持续提升,但因为集群中不同节点之间的GPU间传输数据,仍需要CPU负责,通信存在瓶颈,所以GPU的计算能力的优势受其拖累不能完全发挥,从而导致集群整体效率不高。NVIDIA当时清晰地认识到必须解决这个问题,所以开始与合作伙伴Mellanox一起探索GPU与网卡的直接通信的解决方案GPU Direct over InfiniBand。后续该技术方案逐渐成熟,并于2012年随Kepler架构GPU和CUDA 5.0一起发布,并被正式命名为GPU Direct RDMA。 在此之前,传统数据中心的数据传输,始终受困于TCP/IP架构的原生缺陷。在传统传输方案中,内存数据访问与网络数据传输分属两套语义集合,数据传输的核心工作高度依赖CPU:应用程序先申请资源、通知Socket,再由内核态驱动程序完成TCP/IP报文封装,最终通过NIC网络接口发送至对端。数据在发送节点需要依次经过Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷贝,到达接收节点后,还要经过同等次数的反向内存拷贝,完成解封装后才能写入系统物理内存。