在人工智能训练、高性能计算(HPC)和科学计算等领域,GPU计算集群的性能至关重要,而网络互联技术则是影响整体性能的关键因素。随着模型规模扩大和计算需求增长,选择适合的网络技术对于发挥显卡全部潜能至关重要。本文将深入解析InfiniBand(IB)和RoCE两种主流高性能网络技术,分析它们在不同显卡环境下的应用效果,帮助您在构建计算集群时做出最优选择。

1 IB与RoCE:高性能计算网络的核心技术

在传统以太网无法满足高性能计算需求的时代,InfiniBand和RoCE作为支持远程直接内存访问(RDMA)技术的主流方案,解决了网络延迟和CPU开销两大瓶颈问题。

1.1 InfiniBand:专为高性能而生的网络技术

InfiniBand是一种专为高性能计算设计的开放标准网络互连技术。它从架构层面就与传统以太网截然不同,构建了一个独立的、完整的端到端RDMA网络体系。IB原生支持RDMA,数据可以在不经过对方CPU和操作系统内核的情况下,直接在应用内存间传输,大幅降低了延迟和CPU开销。IB网络拥有自己的物理层、链路层、网络层和传输层协议,以及专用的网卡、交换机和线缆,不依赖于TCP/IP协议栈。

IB采用基于队列对(QP) 的通信模型,应用程序通过提交工作请求(Work Request)到QP,由网卡硬件直接处理,实现了从软件到硬件的"零拷贝"通信路径。此外,IB协议内置了完善的、基于信用的端到端流量控制和逐跳拥塞控制机制,这些机制在硬件层面实现,能够迅速对网络拥塞做出反应,保证高吞吐量和公平性。凭借其精简的协议栈和硬件卸载能力,IB网络可提供低于1微秒的端到端延迟和高达400Gbps(目前主流为200G/400G)的带宽。

1.2 RoCE:以太网上的RDMA技术

RoCE(RDMA over Converged Ethernet)的核心思想是"在以太网上跑RDMA"。它试图将以太网的普遍性和成本优势与RDMA的高性能结合起来。RoCE有两个主要版本:RoCE v1基于以太网链路层(L2),只能在单个广播域(同一个VLAN)内运行;RoCE v2基于UDP/IP协议(L3),可以跨IP子网路由,大大提升了部署灵活性,成为当前主流。

RoCE将IB传输层的协议包封装在以太网帧(v1)或UDP/IP数据包(v2)中,使标准RDMA操作能在通用的以太网基础设施上运行。RoCE成功的关键前提是构建无损以太网环境。由于以太网本身是"尽力而为"的,丢包会对RoCE性能造成灾难性影响。因此,RoCE网络必须配置优先级流量控制(PFC) 和显式拥塞通知(ECN) 等技术,在链路拥塞时对特定优先级(RoCE流量)暂停发送,防止丢包。

与IB类似,RoCE也需要支持RoCE的专用网卡来卸载RDMA协议栈,避免内核参与。其最大优势在于可以利用现有的数据中心以太网交换机(需支持PFC/ECN)进行部署,保护了现有投资。

2 显卡与组网技术的搭配选择

不同性能和定位的显卡与网络技术的搭配会产生不同的效果,选择合适的组网方案对于优化成本和性能至关重要。

2.1 高端显卡与IB组网的黄金搭配

对于像NVIDIA A100H100H200这样的高端数据中心GPU,IB组网被视为黄金标准。这些显卡专为大规模AI训练和HPC应用设计,具备强大的计算能力和高速的NVLink互联技术。当这些GPU用于处理千亿参数级别的大模型时,节点间需要频繁交换海量梯度参数,网络带宽和延迟成为整体性能的关键瓶颈。

以配备NVIDIA A100 GPU的云服务器为例,g2na100_ib型号专门内置了IB网卡,支持12.5Gbps至100Gbps的内网带宽,针对"需高速进行数据传输的AI、深度学习和HPC业务场景"。在这种高性能环境中,IB网络能够充分发挥高端GPU的计算潜力,确保在分布式训练过程中,网络不会成为性能瓶颈。

对于NVIDIA最新的Blackwell架构GPU(如B200、GB200),由于其模型规模和互联需求更为巨大,IB网络的优势将更加明显。在这些高端应用场景中,IB网络极致的性能稳定性优势完全抵消了其较高的初始投资成本,成为大规模集群的首选方案。

2.2 中高端显卡与RoCE的性价比之选

对于NVIDIA A100(在部分场景下)、A800H20以及L40S等中高端显卡,以及NVIDIA V100等前代旗舰GPU,RoCE网络提供了极高的性价比。这些显卡通常被用于中等规模的AI训练、推理任务和部门级HPC集群,其中网络需求仍然很高,但预算可能成为重要考量因素。

实践表明,在64 GPU的AI运算环境中,采用H3C S9827系列交换机的RoCE网络与采用NVIDIA QM9700交换机的IB网络在NCCL集合通信库和Llama3大模型测试中表现出"相仿的性能和一致的业务体验"。类似地,使用H3C S9825-G和S9855-G系列交换机的RoCE网络也达到了与IB网络相当的性能水平。

对于国产GPU(如摩尔线程、壁仞科技、燧原科技等产品),RoCE网络同样显示出强大适应性。柏睿数据在国产GPU32台集群(256卡)的混合组网中,采用RoCE方案表现出色,打破了国外技术垄断,为国产替代方案提供了有力支持。在成本方面,柏睿数据的RoCE组网方案在100Gbps速率下比InfiniBand组网方案节省约36%;400Gbps速率下也能达到约14.3%的成本节约。

2.3 消费级显卡的组网考量

对于使用NVIDIA RTX 40904090D等消费级旗舰GPU的小规模研究团队或初创公司,网络选择往往更加复杂。这些显卡通常缺乏正式的多节点互联支持,但通过第三方解决方案仍可进行集群化部署。

在此类场景中,RoCE网络的经济性优势更为明显。通过安装支持RoCE的以太网网卡(如NVIDIA ConnectX-6或ConnectX-7系列)和配置支持PFC的以太网交换机,可以构建一个低成本、高性能的训练集群。值得注意的是,此类配置通常需要更多的调优和测试,以确保网络性能满足需求。

表:不同显卡与组网技术搭配建议

显卡类型 推荐组网技术 典型应用场景 优势 局限性
高端数据中心GPU (A100, H100, H200, B200) InfiniBand 大规模AI训练、科学计算、千亿参数以上模型 极致性能、低延迟、稳定性高 成本高、生态相对封闭
中高端数据中心GPU (A800, H20, L40S)及国产GPU RoCE 中等规模AI训练、推理、部门级HPC 成本效益高、生态开放、易于集成 需要无损网络配置、调优复杂
消费级高端GPU (RTX 4090等) RoCE或高速以太网 小规模研究、实验环境、初创公司 成本极低、灵活性高 性能有限、支持度不一

3 组网性能关键因素分析

在选择组网技术时,需全面考虑多种性能影响因素,以确保充分发挥显卡性能。

3.1 PCIe瓶颈:不可忽视的限制因素

无论选择IB还是RoCE网络,都需要关注PCIe带宽这一潜在瓶颈。以单机8卡A100 GPU主机为例,关键链路带宽存在明显差异:

  • 同一主机上的GPU之间:使用NVLink,双向带宽为600GB/s,单向带宽为300GB/s

  • 同一主机上的GPU与各自的网络接口卡(NIC)之间:利用PCIe Gen4交换芯片,双向带宽为64GB/s,单向带宽为32GB/s

  • 跨主机GPU之间:数据传输依赖于网卡,带宽取决于具体使用的网卡。目前国内常用的A100/A800型号网卡单向带宽主流为100Gbps(12.5GB/s)

这表明主机间通信相比主机内通信性能会大幅下降。200Gbps(25GB/s)已接近PCIe Gen4的单向带宽,因此在PCIe Gen4配置中使用400Gbps网卡不会产生显著好处,需要PCIe Gen5性能才能充分利用400Gbps带宽。在选择网络方案时,必须确保网络带宽与PCIe带宽匹配,避免资源浪费。

3.2 网络架构与拥塞控制

网络架构设计拥塞控制机制对性能有重大影响。IB网络采用原生拥塞控制机制,在硬件层面实现,能够快速响应网络状态变化。而RoCE网络依赖PFC(优先级流量控制) 和ECN(显式拥塞通知) 等机制构建无损网络,配置不当可能导致"队头阻塞"和"PFC死锁"等问题。

新型网络架构如DDC(分布式分解式机箱) 技术采用VOQ(虚拟输出队列)/CELL(信元)交换等先进硬件技术,提升了链路利用率和吞吐量,充分满足HPC和AI业务对传输网络提出的低转发时延、低丢包率的严格要求。测试结果表明,在RoCE网络中,DDC相比传统ECMP hash方式在总线带宽上有较大优势。

对于不同规模的集群,网络架构选择也各不相同。在小规模组网中,建议使用单盒或单框方案,GPU服务器的所有参数网网卡均与交换机互联,针对不同服务器同序号的网卡配置到相同VLAN中,减少通信跳数及通信时延。而在中大规模组网中,国产GPU服务器可采用多轨接入方式,通过Leaf-Spine网络架构实现高效的数据传输。

3.3 软件生态与运维考量

软件生态运维复杂度也是选型的关键因素。IB网络技术上更为成熟,无需复杂参数调优,部署更快,但其生态较为单一,以英伟达为主。RoCE基于以太网,生态较为开放,供应商较多(包括华为、新华三、中兴通讯、锐捷网络等),但需要更复杂的参数调优。

运维方面,IB网络由于专用性,需要专业团队进行管理,而RoCE网络可以利用现有的以太网运维经验和工具链,但对于无损网络的配置和故障排查需要深入学习。从组网规模来看,IB网络可支持万卡GPU规模集群,而RoCEv2在千卡规模集群上表现较好,组网性能仍在持续优化。

4 实际应用场景与选型指南

基于以上分析,我们可以为不同应用场景提供具体的选网建议。

4.1 大规模集群与尖端研究

对于国家级超算中心顶尖AI研究机构大型云服务提供商,其中每微秒的延迟和每瓦特的效能都至关重要,InfiniBand是毋庸置疑的选择。特别是当使用NVIDIA H100H200Blackwell架构GPU等顶级硬件时,IB网络能够确保网络不会成为整体性能的瓶颈。

这类场景通常具有以下特点:

  • 计算集群规模庞大(千卡GPU以上)

  • 预算充足,追求极致性能

  • 拥有专业IB网络运维团队

  • 处理千亿参数级别的超大模型

在这些环境中,IB网络的极致性能成熟稳定性优势最为明显,足以证明其较高的初始投资是合理的。

4.2 中等规模与企业应用

对于企业级数据中心中型AI实验室部门级HPC集群,RoCE网络提供了理想的性价比平衡。这些场景通常:

  • 集群规模在几百至几千卡GPU

  • 需要平衡性能与TCO(总体拥有成本)

  • 运维团队更熟悉以太网技术

  • 使用A100、A800、H20等中高端显卡

此类应用可选择像H3C S9825/9855-G系列这样支持高密度400GE/100GE端口的以太网交换机,配合RoCE网卡构建高性能网络。在实践中,这类配置能够在控制成本的同时,提供与IB网络相近的性能体验。

4.3 小规模与实验环境

对于初创公司学术研究团队开发测试环境,使用消费级显卡或少量数据中心显卡构建集群,RoCE或甚至高速TCP/IP网络都是合理选择。这些场景通常:

  • 集群规模在几十卡GPU以内

  • 预算严格受限

  • 需要快速部署和易于维护

  • 可能包含国产GPU或消费级GPU

在此类环境中,可以优先考虑利用现有以太网基础设施,搭配支持RoCE的网卡,构建经济高效的高性能计算集群。柏睿数据的小规模组网方案提供了单盒或单框解决方案,简化了部署和管理流程。

5 未来技术发展趋势

随着计算需求的持续演进,IB和RoCE技术也在不断发展,呈现出一些明显趋势。

一方面,IB技术持续领跑性能巅峰,下一代IB产品将支持更高带宽和更低延迟,满足未来万亿参数模型训练的需求。另一方面,RoCE技术正在快速成熟,越来越多的优化技术(如DDC、智能网卡等)正在缩小RoCE与IB在极致性能上的差距。

标准化与互操作性方面,RoCE凭借其以太网基础,正在推动更开放的生态系统发展,打破传统IB领域的封闭性。乌镇智库的专家指出:"RoCE网络是一种纯分布式网络,将RDMA技术应用到传统以太网,本质上是一种网卡封装技术",这种特性使得RoCE更容易获得业界广泛支持。

另外,国产化趋势也在推动RoCE技术发展。随着国产GPU和交换机技术的进步,RoCE作为更开放的技术标准,自然成为国产解决方案的首选。国内数据中心交换机厂商(包括华为、新华三、中兴通讯、锐捷网络等)都在积极布局RoCE相关产品。

6 结语

在AI和HPC领域,选择InfiniBand还是RoCE网络,并不仅仅是简单的技术选型,而是需要综合考量显卡类型应用场景集群规模总拥有成本的多维度决策。

对于使用高端数据中心GPU(如H100、A100) 并追求极致性能的大规模集群,InfiniBand仍然是首选方案,其优异的延迟性能和成熟的生态能够为关键任务提供可靠保障。

对于使用中高端GPU(如A800、L40S) 或国产GPU的中等规模集群,RoCE提供了极具吸引力的性价比,能够在控制成本的同时满足大多数应用场景的性能需求。

无论选择哪种技术,都需要注意PCIe带宽网络架构软件调优等关键因素,确保网络不会成为整个计算集群的瓶颈。随着技术不断发展,IB和RoCE的竞争格局可能会发生变化,但目标始终一致:充分发挥每一块显卡的计算潜力,加速科学发现和技术创新

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐