在2026年CES上,英伟达详细公布了所有6款Rubin平台产品:Rubin GPU、Vera CPU、NVLink 6 Switch、ConnectX-9、BlueField-4和Spectrum-6。英伟达第二代rack scale Oberon架构VR NVL72登台亮相。随着竞争对手在rack scale迎头赶上,面对UltraServer中的Trainium 3、AMD MI450X Helios Racks 以及在GB200之前就已经是 rack scale的Google TPU,英伟达以“极致协同设计”的优势进行回应。通过极致协同设计,英伟达将rack scale集成提升到一个新的水平。rack系统成为一个计算单元,一个单一的分布式加速器,并且英伟达设计了整个系统。
对于Vera Rubin平台,Nvidia对系统和机架级设计的控制更加严格。机架级集成和组装变得更加具有挑战性,因为每个组件都被推到了极限,同时也在优化成本效率。VR NVL72在集成效率和吞吐量方面采用了比Grace Blackwell更全面的设计方法,采用了模块化方法。
Nvidia的竞争力随着其极致协同设计的绝对优势而增强。它是唯一一个在Nvidia开创的AI服务器系统设计中,为所有主要的硅内容提供同类最佳或接近同类最佳硅产品的参与者。Nvidia提供最好的加速器、一个SOTA规模的交换机、最好的网络接口卡(NIC)以及最好的以太网网络交换机之一,还有大幅改进的专用CPU。没有其他竞争对手拥有如此完整的集成硅产品套件。
一、极致协同设计
1、Rubin
Rubin的设计是从Blackwell进行的逻辑演进,迁移到3nm工艺,并将I/O分解到芯片级,同时保持2个reticle大小的芯片,包含8堆栈的HBM。35 PFLOPS密集型FP4比Blackwell GB200提升了3.5倍,实现方式为:
将SM计数从160增加到224
将SM中的Tensor Core宽度加倍到32768 FP4 MACs/时钟
将时钟速度提高25%,从1.90GHz提高到2.38GHz
此外,英伟达声称通过更新的3代transformer引擎,可以实现高达50 PFLOPS的FP4性能,该引擎取代了前几代的2:4结构稀疏性。
值得注意的是,张量核心宽度翻倍仅适用于FP4和FP8,BF16和TF32和Blackwell一样保持不变,导致性能提升仅为Blackwell的1.6倍。这一架构决策反映了NVIDIA的观点,即大多数训练和推理工作负载将从TF32和BF16转向FP8和FP4。
在内存方面,转向HBM4意味着每个堆栈的总线宽度翻了一番,运行速度为10.8GT/s,总带宽达到22TB/s,是Blackwell的2.75倍,同时保持与GB300相同的288GB容量。内存带宽从最初在2025年GTC上宣传的13TB/s显著升级。为了赶上AMD MI450的内存带宽,Nvidia要求DRAM供应商提供更高的HBM4引脚速度——远远高于JEDEC HBM4规范中的速度。
NVLink-C2C芯片模块包含用于Vera CPU连接的SerDes,带宽翻倍至1.8TB/s,而芯片另一端的较大NVLink 6芯片模块则有36个定制的‘400G’ SerDes链接,为所有72个Rubin GPU提供2倍的NVLink带宽。晶体管数量增加了60%,达到3360亿。
Rubin中值得注意的遗漏是提到了稀疏FLOPs。在前几代中,2:4结构稀疏被用来翻倍市场营销的FLOPs数字。然而,由于严格的稀疏结构导致精度损失,使得半数的值为零,低精度时采用结构稀疏的情况非常少。程序员基本上忽略了结构稀疏,因为它没有用处,这也导致了硬件设计的改变。Blackwell Ultra GB300在保持稀疏FP4 FLOPs不变的情况下,增加了50%的密集FP4,而AMD的MI355X则停止在MXFP8、MXFP6和MXFP4格式上支持结构稀疏,以节省硅面积。
Rubin 的自适应压缩引擎是在改进的 Transformer引擎里的一个关键特性,通过动态计算稀疏性并消除数据流中的零值,同时不消除非零值,从而重新提升自然稀疏的推理性能。这在不需要新的编程模型或特定优化的情况下,自动应用于为 Blackwell 构建的现有模型。虽然利用 Post Training Quantization 或 Quantization Aware Training 的模型将被调整以最大化自适应压缩速度提升,但动态压缩的优势并不严格需要这些模型。
这意味着,工作负载越稀疏,其性能将越接近50 PFLOPS的营销峰值性能。因此,NVIDIA将50 PFLOPS的数字命名为FP4推理,而35 PFLOPS的FP4训练数字则适用于密集型工作负载。由于精度得以保留,营销团队可以声称Rubin在GB200上拥有5倍的FLOPs性能,将50 PFLOPS的动态压缩FP4与10 PFLOPS的密集FP4进行比较。实际的GEMM性能是否达到50 PFLOPS取决于张量中有多少零。零越多,性能就越接近50 PFLOPS。张量中的零越少,加速效果就越低。总体而言,预计Rubin的自适应稀疏压缩将比结构化稀疏获得更大的关注,这要归功于其自动实现。
话虽如此,许多机器学习系统工程师仍然对这种新的稀疏性形式能否取得良好效果持怀疑态度,并且Nvidia的50 PFLOPS很可能是像之前几代产品一样仅仅用于营销。
Rubin 的芯片级 TDP 相比 Blackwell 增加至最高 2300W,而 Blackwell 的 TDP 为 1000-1400W。供应链传闻表明,有 2 种不同的 "SKU",具有不同的功耗和性能配置文件:一种是 2300W 的 Max-P 变体,另一种是 1800W 的 Max-Q 变体。然而,这些并不是不同的硬件 SKU,而是英伟达根据用户的工作负载需求提供的 2 种默认功耗配置文件。Max-Q 是英伟达认为每瓦性能最佳的配置文件。Max-P 提供最大的绝对性能,但会带来效率惩罚。将 Max-P 设置运行会导致机架功耗增加 20%,但性能提升远低于这 20%的功耗增加。
这些功耗曲线是通过软件管理的。用户也可以选择他们喜欢的最大功耗(只要每个GPU不超过2300W)并且这在之前的GPU代中也一直如此。一些超大规模厂商和实验室选择以较低的功耗运行他们的GPU,以优化每瓦性能并考虑功耗可用性限制。
对于Rubin封装的机械结构,通过增加升级的热分布板和加强板进行了改进。这与只有热分布板盖的Blackwell B200和B300封装形成了对比。热分布板盖允许更多均匀地分配从封装中散发出的热量。它还为封装提供机械支撑,防止翘曲。
对于Rubin来说,散热盖是由两个单独的盖子组成的一个模块。除了散热盖,还在封装结构中增加了一个加强板,以提供更多的机械支撑,避免翘曲。在散热盖的表面,还会有 镀金层。这样做的原因是防止液态金属TIM2在散热盖和冷板之间引起的腐蚀。
2、Vera
通过将Vera迁移到一个3纳米光刻尺寸的计算裸片,并将内存控制器和I/O分解到芯粒中,Vera的性能超过Grace翻倍。核心数从72增加到88,裸片上印刷了91个核心,并留有冗余以提高良率。这些核心标志着NVIDIA定制ARM CPU设计的回归,‘Olympus’核心现在支持SMT多线程,总共拥有176个处理线程。L3缓存的容量也增加了40%,达到162MB。内存总线宽度翻了一番,达到1024位,速度提高到9600MT/s,带宽增加了2.5倍,而最大容量增加了三倍,达到1.5TB,使用了8个SOCAMM模块。NVLink-C2C到Rubin GPU的带宽也翻了一番,达到1.8TB/s。现在还支持PCIe6和CXL3.1。所有这些导致晶体管数量增加了2.2倍,达到227亿。
3、NVLink 6 Switch
尽管机架级交换带宽翻了一番,但每个机架的NVLink Switch芯片数量也翻了一番,达到36个,每个交换托架现在容纳4个Switch芯片。这意味着新的NVLink 6 Switch芯片具有与NVLink5 Switch相同的28.8T带宽,但端口数量减半,使用“400G”双向SerDes运行速度提高一倍。这使得高带宽交换设计仍可以作为一个单一的单片机来实现,从而节省了设计复杂度。布局与英伟达之前的交换机相同,具有2个用于IO的侧面和一个中央逻辑部分交叉开关,并且具有3.6 TFlop SHARP网络内计算加速。
4、ConnectX-9
ConnectX-9在很大程度上是基于ConnectX-8的迭代改进,具有相同的800G网络带宽和48通道PCIe6交换机能力。然而,CX-9现在支持800G以太网,使用4个200G PAM4 SerDes,而CX-8仅在InfiniBand上支持该功能。对于Rubin平台,NVIDIA将每个GPU的NIC数量翻倍,以实现2倍的扩展带宽。
5、BlueField-4
BlueField-4的设计与BlueField-3有显著不同。NVIDIA没有针对计算和网络进行定制设计,而是直接使用了其大型Grace CPU芯片,与ConnectX-9芯片共同封装,制成一个具备强大计算能力的800G DPU。128GB的LPDDR5为Grace CPU提供半速的带宽。这使得BlueField-4的内存容量是BlueField-3的4倍。BlueField-4还可以作为存储控制器,每个Context Memory Storage系统中包含四个BF-4芯片。
6、Spectrum-6
虽然不是Rubin NVL72机架的一部分,但具有双基数设计的Spectrum-6 CPO能够实现更大规模的集群扩展。该设计保留了与Spectrum-5相同的特性,8个IO芯片围绕在主交换芯片周围。通过512个200G SerDes,实现了102.4T的交换带宽。封装上的32个3.2T光引擎将这些电信号转换为光链路,每个链路都带有可拆卸的光纤连接器。SN6810包含其中一个芯片,而SN6800则包含四个芯片,经过多路复用后形成一个409.6T的交换盒。在SN6600中,还将提供带有可插拔OSFP笼的非CPO版本,但非CPO版本将更为常见。
二、Rubin Oberon机架
自从Nvidia GTC 2024上宣布GB200以来,AI服务器系统的概念已经从机箱转变为机架规模系统。虽然HGX外形尺寸仍然存在,但Nvidia的大部分Blackwell GPU都集成在Oberon外形尺寸中。Rubin也将提供于 both HGX 和 Oberon 系统。
Blackwell和Rubin Oberon架构之间的关键区别在于向客户提供SKU的数量。由于Blackwell Oberon是首个采用机架级解决方案、功率密度超过100KW的GB200 NVL72 SKU的大规模部署,许多数据中心的基础设施尚未准备好每机架支持100kw+。Nvidia提供了两种Blackwell Oberon SKU:GB200 NVL72和GB200 NVL36x2。后者是一个较低密度的SKU,为那些基础设施无法处理单个高密度机架的热负荷的客户提供。
与Blackwell不同,Rubin只提供VR NVL72 SKU。设置与GB200/GB300 NVL72非常相似。每个VR NVL72系统包括:
72个Rubin GPU软件包
36个Vera CPU
36 NVLink 6 Switch ASICs
VR NVL72最初被称为VR NVL144,因为2025年GTC上定义的GPU数量是系统中GPU计算芯片的数量(每个封装有2个计算芯片,每个Oberon机架有72个Rubin封装 = 144个计算芯片)。命名在去年12月份被改回VR NVL72,以代表系统中的72个Rubin GPU封装。这正是在CES 2026之前,命名被正式确认为VR NVL72。
CPX形式
尽管英伟达最初计划将CPX加速器整合到VR NVL72机架中,但当前的开发表明,CPX将仅作为独立机架提供,英伟达最初考虑了三种VR NVL72配置:
VR NVL72(常规): 标准 Oberon VR NVL72 无 CPX
VR NVL72 CPX(集成): Rubin GPU 和 Rubin CPX 在同一计算托盘内
VR NVL72 CPX(双机架):Rubin CPX部署在与VR NVL72机架并排的单独机架中
独立/专用机架方向显著改变了部署的计算方式。双机架方法允许超大规模厂商独立扩展预填充和解码容量,优化数据中心的电力预算,并减少与紧密耦合托盘相比的系统级故障域。更重要的是,它正式区分了推理预填充(计算密集型)和解码(带宽密集型)之间的架构解耦。
Rubin CPX最初是基于GDDR7设计的加速器,旨在优化预填充,基于三个关键考虑因素:
填充主要受FLOPs限制,而不是带宽限制,这使得HBM不那么不可或缺。
HBM的带宽在预充填阶段结构性未充分利用。
GDDR7在每GB成本上显著降低,并避免了对2.5D封装的需求。
然而,英伟达开始探索配备HBM的预填充变体,无论是通过修改的CPX配置还是通过较低的内存规格(例如使用HBM3E),这一转变在很大程度上是由不断变化的内存经济学推动的。传统的DRAM价格大幅上涨:随着DDR价格的上涨,HBM的相对溢价压缩了,因为长期合同中的价格锁定使得基于GDDR的CPX和低规格HBM配置之间的成本差距缩小,从而消除了GDDR相对于性能的许多成本优势。虽然在预填充方面与解码相比,内存带宽的重要性不是那么重要,但它仍然是必要的。
三、计算托盘重新设计
VR NVL72 的重大变化之一是在计算托盘内部。这次对计算托盘的重新设计以简化组装为中心,即消除电缆,因为电缆一直是 GB200/300 组装的主要故障点。正如2026 年 CES 上所说,无电缆设计将计算托盘的组装时间从 2 小时缩短到 5 分钟。为了实现这一点,VR NVL72 计算托盘采用了模块化设计,模块通过板对板连接器相互连接。
要理解VR NVL72的计算托盘,必须首先了解构成VR NVL72计算托盘的6个模块:Strata 模块 x 2, Orchid模块x4,计算托盘Midplane x 1,电源传输模块 x 1,BlueField-4 模块 x 1,系统管理模块 x 1。
1、Strata
VR NVL72的Strata模块位于底盘后部,相当于GB200/300的Bianca板。它包含两个Rubin GPU和一个Vera CPU。与Bianca不同,Vera的LPDDR5X内存是通过SOCAMM模块插座的。8个SOCAMM插座位于Vera的左右两侧。提供两种不同容量的SOCAMM模块,192GByte和128GByte,每个Vera最多可达到1,534GByte,最少可达到1,024GByte。由于CX-9移至底盘前部,Connect-X网卡母板模块也被移除。在无缆设计下,所有电缆连接器端口也被移除,并在模块底部更换为Paladin HD2板对板连接器。在另一侧,与 GB200 和 GB300 相同的 Palindrome HD2 背板连接器在模块的背面以相同的方式排列,通过 NVLink 背板连接到 NVLink 6 交换机。
2、Orchid
Orchid模块包含两个ConnectX-9网卡、两个800G光模块槽和一个E1.S模块槽。四个Orchid模块位于机箱的前面。两个Orchid模块堆叠在一起,占据机箱的前左和前右空间。模块的末端有一个Paladin HD2板对板连接器,与中板上的连接器相连。Orchid模块细长,允许PCIe 6信号从中板传送到机箱前面的CX-9网卡。
3、Midplane
Midplane作为两个Strata模块和机箱前面的模块之间的PCIe信号桥。Midplane模块垂直放置在机箱中间,模块两侧都装有Paladin HD2板对板连接器。Strata模块连接到Midplane的一侧,而Orchid模块、BlueField-4模块、PDB模块和管理模块连接到另一侧。
4、BlueField-4
The BlueField-4 DPU 位于机箱前面的中心位置,介于左侧Orchid模块和管理模块之间。BlueField-4 由一个Grace CPU和一个CX-9 NIC组成。该模块还配有128GByte的板载LPDDR5x、512Gbyte的板载可插拔SSD以及来自Aspeed的集成AST2600 BMC。在VR NVL72计算托盘的参考设计中,BlueField-4 作为DPU 提供高达800Gb/s的前端网络能力。然而,就像BlueField-3一样,BlueField-4 只会被少数客户采用,即CoreWeave和其他较小的Neoclouds客户,他们定制能力较弱。对于大多数超大规模者的部署,BlueField-4模块将被他们的内部前端网络模块替换,或者简单地替换为更便宜的CX-9。
谈到BlueField-4,重要的是ICMS,或Inference Context Memory Storage,或CMX,引入了一个全新的、完全独立的网络,专门用于上下文记忆。CMX是一个专用的KV缓存 fabrics。随着长上下文推理将上下文窗口推向数百万个token,并且自主并发扩展到多个用户和服务,当前用于存储KV缓存的内存层次结构开始显得不足。
KV缓存随序列长度线性增长,并且与工作负载并行性乘数性增长,迅速扩展到任何单一内存层级设计所能够容纳的范围之外。GPU HBM,虽然在带宽和延迟方面无与伦比,但仅靠它自己不足以存储KV,尤其是对于在回合之间或工具调用之间越来越受欢迎的长序列长度查询。主机DRAM扩展了容量,但仍然是节点绑定的,并且在面积上有限制,最终容量有限。同时,传统的共享存储—为耐用性而不是延迟而设计—有更多访问时间和功耗开销,使其不适合参与解码循环。
Nvidia的ICMS在本地SSD (G3)和共享存储 (G4)之间插入了一个新的G3.5层,专门针对短暂的、可重新计算的KV缓存进行了优化。ICMS需要一个专有的网络层,专门设计用于KV流量。在该架构中的任何地方使用作为上下文内存网络,与通用数据移动隔离,并优化可预测的解码延迟。
这个挑战是,进入ICMS / CMX的SSD体积被行业严重夸大。BlueField-4将成为这个第三网络的硅锚。它定位在存储阵列上,以线速终止NVMe-oF和RDMA流量,并独立于主机CPU和GPU管理KV移动。通过提供800Gb/s带宽的2×400G SerDes链路、集成的Grace CPU和LPDDR,BlueField-4将作为分布式上下文内存结构的控制器。在首选的DGX风格配置中,每个托盘上的单个BlueField-4可以为四个Rubin处理器服务,专用的DPU仅用于KV缓存流量,不与通用存储I/O共享。
新的CMX/ICMS生态系统可能会包括领先的存储提供商,如Weka、DDN、戴尔科技、NetApp、VAST Data等。
5、电力传输
电源供应模块位于BlueField-4模块的上方。该模块从内部母线电缆接收50V电源。然后,电流通过模块化的电源砖降压至12V。接着,12V电流通过较小的内部母线供应给Orchid模块、BlueField-4模块和管理模块。
6、系统管理
管理模块由多个较小的管理模块组成,这些模块占据了一个长而窄的空间,位于BlueField-4模块和右侧Orchid模块之间。管理模块如下:
系统管理模块 (SMM)
可信平台模块 (TPM)
数据中心安全控制模块 (DC-SCM)
这些模块在计算托盘上提供管理安全功能。超大规模厂商通常有自己内部的管理模块设计。因此,每个终端客户可能都有不同的管理模块。除了BlueField-4,Nvidia允许定制的只有电源供应模块和管理模块这两个组件。一些终端客户正在考虑将管理模块集成到电源供应模块中。然而,这些模块需要遵循Nvidia提供的外形尺寸,以便能够适配计算托盘Midplane的指定连接器。
7、计算托盘拓扑结构
VR NVL72的计算托盘拓扑结构大致类似于GB200和GB300。与Grace Blackwell相比,三个主要区别是GPU和ConnectX网卡之间的连接、与本地NVMe存储的连接以及BlueField-4和ConnectX-9之间的连接。
首先,GPU 与 ConnectX 网卡的连接从 GB200 发展到 GB300,再到 Vera Rubin。对于 GB200,GPU 没有直接访问 ConnectX-7 的权限。相反,B200 通过 C2C 连接与 Grace CPU 连接,然后 Grace CPU 通过 PCIe 5 与 ConnectX-7 通信。对于 GB300,Nvidia 引入了直接连接到 ConnectX-8 的网卡,使 B300 GPU 能够直接与 ConnectX-8 网卡通信,而无需经过 Grace CPU。
本质上,这意味着ConnectX-8有两个主机,Grace CPU和B300 GPU。这提高了后端网络的延迟。然而,对于VR NVL72,Rubin GPU和ConnectX-9之间的直接连接恢复到与GB200相同的设计,因为Rubin没有两个Connect-9的PCIe带宽。Rubin通过C2C链路连接到Vera,然后Vera将通过PCIe6通道连接到ConnectX-9。
其次,Rubin的本地NVMe存储已从Grace Blackwell的NVMe存储位置移至其他地方。之前,本地NVMe存储由BlueField-3管理。对于VR NVL72,本地NVMe存储物理上位于由ConnectX-9管理的Orchid模块上。
最后,BlueField-4 DPU能够控制8个ConnectX-9后端NIC,允许对前端南北网络和后端高速东西网络进行统一管理。因此,这个系统被称为高级安全可信资源架构(Astra),它将资源分配和监控的负担从主机CPU上解脱出来。唯一的缺点是BlueField-4成本较高,因此预计大多数大规模客户将部署他们自己的DPU解决方案。
8、从Blackwell演进
所有这些模块在VR NVL72的计算托盘中,虽然不完全相同,但在GB200/300的计算托盘中都能找到。唯一的区别是Midplane模块,因为这是一个引入的新组件,用于消除计算托盘中的内部电缆。此外,机箱前面的模块(子模块)比Blackwell中的对应模块长得多,以便通过PCB将信号从中间平面连接到前面的I/O端口。
内容来源:X Investor 整理:玻纤技术信息
本图文来自于网络公开信息,不代表本公众号立场,如需采用该文介绍的技术进行应用,请认真进行核实。如果您认为平台推送文章侵犯了您的知识产权,请及时联系我们(54634889@QQ.com),我们将第一时间删除。如何免费获取高清PDF全文资料
更多阅读:
英伟达CEO黄仁勋在台北举办兆元宴,AI产业链伙伴到场
英伟达 CEO 黄仁勋亲自拜访日本日东纺(Nittobo),T-glass供不应求
T-glass供不应求,国内玻纤巨头持续加码低膨胀纤维电子纱项目,新增产能240吨
宏和科技:一种低热膨胀系数玻璃纤维拉丝漏板及窑炉发明专利取得授权
日东纺(Nittobo)2025年度第3四半期决算说明会主要质疑応答
日东纺Nittobo发布中期股东报告,特种玻璃销售良好
台玻公司TS-Glass如何成为英伟达GB200的救星
国际复材加速Low-CTE纤维项目,新上超低介电超低膨胀系数电子级玻璃纤维开发项目
国际复材持续加码低介电,又一低介电技改项目启动设备招标
国际复材加速推进3600万米高频高速电子布项目,已发起项目EPC工程总承包招标
宏和科技拟投资7.2亿元建设年产1254吨高性能玻纤纱产线等项目,抢占AI风口
宏和科技,在AI材料领域持续突破
日东纺(nittobo)中期业绩说明会,T玻璃供不应求,竞争者供应量未达到足够水平
泰山玻纤:打破国外独家垄断,为AI芯片“贴”上国产“退热贴”
中材科技:低介电电子布项目发行A股股票申请获深圳证券交易所受理
# 扫描上方二维码,添加小编微信 #
# 申请请备注公司+姓名+职位 #
更多关于
玻璃纤维/复合材料/碳纤/电子纱/PCB/玄武岩纤维
LOW-DK/LOW-CET/CCL等
对于Vera Rubin平台,Nvidia对系统和机架级设计的控制更加严格。机架级集成和组装变得更加具有挑战性,因为每个组件都被推到了极限,同时也在优化成本效率。VR NVL72在集成效率和吞吐量方面采用了比Grace Blackwell更全面的设计方法,采用了模块化方法。
Nvidia的竞争力随着其极致协同设计的绝对优势而增强。它是唯一一个在Nvidia开创的AI服务器系统设计中,为所有主要的硅内容提供同类最佳或接近同类最佳硅产品的参与者。Nvidia提供最好的加速器、一个SOTA规模的交换机、最好的网络接口卡(NIC)以及最好的以太网网络交换机之一,还有大幅改进的专用CPU。没有其他竞争对手拥有如此完整的集成硅产品套件。
一、极致协同设计
1、Rubin
Rubin的设计是从Blackwell进行的逻辑演进,迁移到3nm工艺,并将I/O分解到芯片级,同时保持2个reticle大小的芯片,包含8堆栈的HBM。35 PFLOPS密集型FP4比Blackwell GB200提升了3.5倍,实现方式为:
将SM计数从160增加到224
将SM中的Tensor Core宽度加倍到32768 FP4 MACs/时钟
将时钟速度提高25%,从1.90GHz提高到2.38GHz
此外,英伟达声称通过更新的3代transformer引擎,可以实现高达50 PFLOPS的FP4性能,该引擎取代了前几代的2:4结构稀疏性。
值得注意的是,张量核心宽度翻倍仅适用于FP4和FP8,BF16和TF32和Blackwell一样保持不变,导致性能提升仅为Blackwell的1.6倍。这一架构决策反映了NVIDIA的观点,即大多数训练和推理工作负载将从TF32和BF16转向FP8和FP4。
在内存方面,转向HBM4意味着每个堆栈的总线宽度翻了一番,运行速度为10.8GT/s,总带宽达到22TB/s,是Blackwell的2.75倍,同时保持与GB300相同的288GB容量。内存带宽从最初在2025年GTC上宣传的13TB/s显著升级。为了赶上AMD MI450的内存带宽,Nvidia要求DRAM供应商提供更高的HBM4引脚速度——远远高于JEDEC HBM4规范中的速度。
NVLink-C2C芯片模块包含用于Vera CPU连接的SerDes,带宽翻倍至1.8TB/s,而芯片另一端的较大NVLink 6芯片模块则有36个定制的‘400G’ SerDes链接,为所有72个Rubin GPU提供2倍的NVLink带宽。晶体管数量增加了60%,达到3360亿。
Rubin中值得注意的遗漏是提到了稀疏FLOPs。在前几代中,2:4结构稀疏被用来翻倍市场营销的FLOPs数字。然而,由于严格的稀疏结构导致精度损失,使得半数的值为零,低精度时采用结构稀疏的情况非常少。程序员基本上忽略了结构稀疏,因为它没有用处,这也导致了硬件设计的改变。Blackwell Ultra GB300在保持稀疏FP4 FLOPs不变的情况下,增加了50%的密集FP4,而AMD的MI355X则停止在MXFP8、MXFP6和MXFP4格式上支持结构稀疏,以节省硅面积。
Rubin 的自适应压缩引擎是在改进的 Transformer引擎里的一个关键特性,通过动态计算稀疏性并消除数据流中的零值,同时不消除非零值,从而重新提升自然稀疏的推理性能。这在不需要新的编程模型或特定优化的情况下,自动应用于为 Blackwell 构建的现有模型。虽然利用 Post Training Quantization 或 Quantization Aware Training 的模型将被调整以最大化自适应压缩速度提升,但动态压缩的优势并不严格需要这些模型。
这意味着,工作负载越稀疏,其性能将越接近50 PFLOPS的营销峰值性能。因此,NVIDIA将50 PFLOPS的数字命名为FP4推理,而35 PFLOPS的FP4训练数字则适用于密集型工作负载。由于精度得以保留,营销团队可以声称Rubin在GB200上拥有5倍的FLOPs性能,将50 PFLOPS的动态压缩FP4与10 PFLOPS的密集FP4进行比较。实际的GEMM性能是否达到50 PFLOPS取决于张量中有多少零。零越多,性能就越接近50 PFLOPS。张量中的零越少,加速效果就越低。总体而言,预计Rubin的自适应稀疏压缩将比结构化稀疏获得更大的关注,这要归功于其自动实现。
话虽如此,许多机器学习系统工程师仍然对这种新的稀疏性形式能否取得良好效果持怀疑态度,并且Nvidia的50 PFLOPS很可能是像之前几代产品一样仅仅用于营销。
Rubin 的芯片级 TDP 相比 Blackwell 增加至最高 2300W,而 Blackwell 的 TDP 为 1000-1400W。供应链传闻表明,有 2 种不同的 "SKU",具有不同的功耗和性能配置文件:一种是 2300W 的 Max-P 变体,另一种是 1800W 的 Max-Q 变体。然而,这些并不是不同的硬件 SKU,而是英伟达根据用户的工作负载需求提供的 2 种默认功耗配置文件。Max-Q 是英伟达认为每瓦性能最佳的配置文件。Max-P 提供最大的绝对性能,但会带来效率惩罚。将 Max-P 设置运行会导致机架功耗增加 20%,但性能提升远低于这 20%的功耗增加。
这些功耗曲线是通过软件管理的。用户也可以选择他们喜欢的最大功耗(只要每个GPU不超过2300W)并且这在之前的GPU代中也一直如此。一些超大规模厂商和实验室选择以较低的功耗运行他们的GPU,以优化每瓦性能并考虑功耗可用性限制。
对于Rubin封装的机械结构,通过增加升级的热分布板和加强板进行了改进。这与只有热分布板盖的Blackwell B200和B300封装形成了对比。热分布板盖允许更多均匀地分配从封装中散发出的热量。它还为封装提供机械支撑,防止翘曲。
对于Rubin来说,散热盖是由两个单独的盖子组成的一个模块。除了散热盖,还在封装结构中增加了一个加强板,以提供更多的机械支撑,避免翘曲。在散热盖的表面,还会有 镀金层。这样做的原因是防止液态金属TIM2在散热盖和冷板之间引起的腐蚀。
2、Vera
通过将Vera迁移到一个3纳米光刻尺寸的计算裸片,并将内存控制器和I/O分解到芯粒中,Vera的性能超过Grace翻倍。核心数从72增加到88,裸片上印刷了91个核心,并留有冗余以提高良率。这些核心标志着NVIDIA定制ARM CPU设计的回归,‘Olympus’核心现在支持SMT多线程,总共拥有176个处理线程。L3缓存的容量也增加了40%,达到162MB。内存总线宽度翻了一番,达到1024位,速度提高到9600MT/s,带宽增加了2.5倍,而最大容量增加了三倍,达到1.5TB,使用了8个SOCAMM模块。NVLink-C2C到Rubin GPU的带宽也翻了一番,达到1.8TB/s。现在还支持PCIe6和CXL3.1。所有这些导致晶体管数量增加了2.2倍,达到227亿。
3、NVLink 6 Switch
尽管机架级交换带宽翻了一番,但每个机架的NVLink Switch芯片数量也翻了一番,达到36个,每个交换托架现在容纳4个Switch芯片。这意味着新的NVLink 6 Switch芯片具有与NVLink5 Switch相同的28.8T带宽,但端口数量减半,使用“400G”双向SerDes运行速度提高一倍。这使得高带宽交换设计仍可以作为一个单一的单片机来实现,从而节省了设计复杂度。布局与英伟达之前的交换机相同,具有2个用于IO的侧面和一个中央逻辑部分交叉开关,并且具有3.6 TFlop SHARP网络内计算加速。
4、ConnectX-9
ConnectX-9在很大程度上是基于ConnectX-8的迭代改进,具有相同的800G网络带宽和48通道PCIe6交换机能力。然而,CX-9现在支持800G以太网,使用4个200G PAM4 SerDes,而CX-8仅在InfiniBand上支持该功能。对于Rubin平台,NVIDIA将每个GPU的NIC数量翻倍,以实现2倍的扩展带宽。
5、BlueField-4
BlueField-4的设计与BlueField-3有显著不同。NVIDIA没有针对计算和网络进行定制设计,而是直接使用了其大型Grace CPU芯片,与ConnectX-9芯片共同封装,制成一个具备强大计算能力的800G DPU。128GB的LPDDR5为Grace CPU提供半速的带宽。这使得BlueField-4的内存容量是BlueField-3的4倍。BlueField-4还可以作为存储控制器,每个Context Memory Storage系统中包含四个BF-4芯片。
6、Spectrum-6
虽然不是Rubin NVL72机架的一部分,但具有双基数设计的Spectrum-6 CPO能够实现更大规模的集群扩展。该设计保留了与Spectrum-5相同的特性,8个IO芯片围绕在主交换芯片周围。通过512个200G SerDes,实现了102.4T的交换带宽。封装上的32个3.2T光引擎将这些电信号转换为光链路,每个链路都带有可拆卸的光纤连接器。SN6810包含其中一个芯片,而SN6800则包含四个芯片,经过多路复用后形成一个409.6T的交换盒。在SN6600中,还将提供带有可插拔OSFP笼的非CPO版本,但非CPO版本将更为常见。
二、Rubin Oberon机架
自从Nvidia GTC 2024上宣布GB200以来,AI服务器系统的概念已经从机箱转变为机架规模系统。虽然HGX外形尺寸仍然存在,但Nvidia的大部分Blackwell GPU都集成在Oberon外形尺寸中。Rubin也将提供于 both HGX 和 Oberon 系统。
Blackwell和Rubin Oberon架构之间的关键区别在于向客户提供SKU的数量。由于Blackwell Oberon是首个采用机架级解决方案、功率密度超过100KW的GB200 NVL72 SKU的大规模部署,许多数据中心的基础设施尚未准备好每机架支持100kw+。Nvidia提供了两种Blackwell Oberon SKU:GB200 NVL72和GB200 NVL36x2。后者是一个较低密度的SKU,为那些基础设施无法处理单个高密度机架的热负荷的客户提供。
与Blackwell不同,Rubin只提供VR NVL72 SKU。设置与GB200/GB300 NVL72非常相似。每个VR NVL72系统包括:
72个Rubin GPU软件包
36个Vera CPU
36 NVLink 6 Switch ASICs
VR NVL72最初被称为VR NVL144,因为2025年GTC上定义的GPU数量是系统中GPU计算芯片的数量(每个封装有2个计算芯片,每个Oberon机架有72个Rubin封装 = 144个计算芯片)。命名在去年12月份被改回VR NVL72,以代表系统中的72个Rubin GPU封装。这正是在CES 2026之前,命名被正式确认为VR NVL72。
CPX形式
尽管英伟达最初计划将CPX加速器整合到VR NVL72机架中,但当前的开发表明,CPX将仅作为独立机架提供,英伟达最初考虑了三种VR NVL72配置:
VR NVL72(常规): 标准 Oberon VR NVL72 无 CPX
VR NVL72 CPX(集成): Rubin GPU 和 Rubin CPX 在同一计算托盘内
VR NVL72 CPX(双机架):Rubin CPX部署在与VR NVL72机架并排的单独机架中
独立/专用机架方向显著改变了部署的计算方式。双机架方法允许超大规模厂商独立扩展预填充和解码容量,优化数据中心的电力预算,并减少与紧密耦合托盘相比的系统级故障域。更重要的是,它正式区分了推理预填充(计算密集型)和解码(带宽密集型)之间的架构解耦。
Rubin CPX最初是基于GDDR7设计的加速器,旨在优化预填充,基于三个关键考虑因素:
填充主要受FLOPs限制,而不是带宽限制,这使得HBM不那么不可或缺。
HBM的带宽在预充填阶段结构性未充分利用。
GDDR7在每GB成本上显著降低,并避免了对2.5D封装的需求。
然而,英伟达开始探索配备HBM的预填充变体,无论是通过修改的CPX配置还是通过较低的内存规格(例如使用HBM3E),这一转变在很大程度上是由不断变化的内存经济学推动的。传统的DRAM价格大幅上涨:随着DDR价格的上涨,HBM的相对溢价压缩了,因为长期合同中的价格锁定使得基于GDDR的CPX和低规格HBM配置之间的成本差距缩小,从而消除了GDDR相对于性能的许多成本优势。虽然在预填充方面与解码相比,内存带宽的重要性不是那么重要,但它仍然是必要的。
三、计算托盘重新设计
VR NVL72 的重大变化之一是在计算托盘内部。这次对计算托盘的重新设计以简化组装为中心,即消除电缆,因为电缆一直是 GB200/300 组装的主要故障点。正如2026 年 CES 上所说,无电缆设计将计算托盘的组装时间从 2 小时缩短到 5 分钟。为了实现这一点,VR NVL72 计算托盘采用了模块化设计,模块通过板对板连接器相互连接。
要理解VR NVL72的计算托盘,必须首先了解构成VR NVL72计算托盘的6个模块:Strata 模块 x 2, Orchid模块x4,计算托盘Midplane x 1,电源传输模块 x 1,BlueField-4 模块 x 1,系统管理模块 x 1。
1、Strata
VR NVL72的Strata模块位于底盘后部,相当于GB200/300的Bianca板。它包含两个Rubin GPU和一个Vera CPU。与Bianca不同,Vera的LPDDR5X内存是通过SOCAMM模块插座的。8个SOCAMM插座位于Vera的左右两侧。提供两种不同容量的SOCAMM模块,192GByte和128GByte,每个Vera最多可达到1,534GByte,最少可达到1,024GByte。由于CX-9移至底盘前部,Connect-X网卡母板模块也被移除。在无缆设计下,所有电缆连接器端口也被移除,并在模块底部更换为Paladin HD2板对板连接器。在另一侧,与 GB200 和 GB300 相同的 Palindrome HD2 背板连接器在模块的背面以相同的方式排列,通过 NVLink 背板连接到 NVLink 6 交换机。
2、Orchid
Orchid模块包含两个ConnectX-9网卡、两个800G光模块槽和一个E1.S模块槽。四个Orchid模块位于机箱的前面。两个Orchid模块堆叠在一起,占据机箱的前左和前右空间。模块的末端有一个Paladin HD2板对板连接器,与中板上的连接器相连。Orchid模块细长,允许PCIe 6信号从中板传送到机箱前面的CX-9网卡。
3、Midplane
Midplane作为两个Strata模块和机箱前面的模块之间的PCIe信号桥。Midplane模块垂直放置在机箱中间,模块两侧都装有Paladin HD2板对板连接器。Strata模块连接到Midplane的一侧,而Orchid模块、BlueField-4模块、PDB模块和管理模块连接到另一侧。
4、BlueField-4
The BlueField-4 DPU 位于机箱前面的中心位置,介于左侧Orchid模块和管理模块之间。BlueField-4 由一个Grace CPU和一个CX-9 NIC组成。该模块还配有128GByte的板载LPDDR5x、512Gbyte的板载可插拔SSD以及来自Aspeed的集成AST2600 BMC。在VR NVL72计算托盘的参考设计中,BlueField-4 作为DPU 提供高达800Gb/s的前端网络能力。然而,就像BlueField-3一样,BlueField-4 只会被少数客户采用,即CoreWeave和其他较小的Neoclouds客户,他们定制能力较弱。对于大多数超大规模者的部署,BlueField-4模块将被他们的内部前端网络模块替换,或者简单地替换为更便宜的CX-9。
谈到BlueField-4,重要的是ICMS,或Inference Context Memory Storage,或CMX,引入了一个全新的、完全独立的网络,专门用于上下文记忆。CMX是一个专用的KV缓存 fabrics。随着长上下文推理将上下文窗口推向数百万个token,并且自主并发扩展到多个用户和服务,当前用于存储KV缓存的内存层次结构开始显得不足。
KV缓存随序列长度线性增长,并且与工作负载并行性乘数性增长,迅速扩展到任何单一内存层级设计所能够容纳的范围之外。GPU HBM,虽然在带宽和延迟方面无与伦比,但仅靠它自己不足以存储KV,尤其是对于在回合之间或工具调用之间越来越受欢迎的长序列长度查询。主机DRAM扩展了容量,但仍然是节点绑定的,并且在面积上有限制,最终容量有限。同时,传统的共享存储—为耐用性而不是延迟而设计—有更多访问时间和功耗开销,使其不适合参与解码循环。
Nvidia的ICMS在本地SSD (G3)和共享存储 (G4)之间插入了一个新的G3.5层,专门针对短暂的、可重新计算的KV缓存进行了优化。ICMS需要一个专有的网络层,专门设计用于KV流量。在该架构中的任何地方使用作为上下文内存网络,与通用数据移动隔离,并优化可预测的解码延迟。
这个挑战是,进入ICMS / CMX的SSD体积被行业严重夸大。BlueField-4将成为这个第三网络的硅锚。它定位在存储阵列上,以线速终止NVMe-oF和RDMA流量,并独立于主机CPU和GPU管理KV移动。通过提供800Gb/s带宽的2×400G SerDes链路、集成的Grace CPU和LPDDR,BlueField-4将作为分布式上下文内存结构的控制器。在首选的DGX风格配置中,每个托盘上的单个BlueField-4可以为四个Rubin处理器服务,专用的DPU仅用于KV缓存流量,不与通用存储I/O共享。
新的CMX/ICMS生态系统可能会包括领先的存储提供商,如Weka、DDN、戴尔科技、NetApp、VAST Data等。
5、电力传输
电源供应模块位于BlueField-4模块的上方。该模块从内部母线电缆接收50V电源。然后,电流通过模块化的电源砖降压至12V。接着,12V电流通过较小的内部母线供应给Orchid模块、BlueField-4模块和管理模块。
6、系统管理
管理模块由多个较小的管理模块组成,这些模块占据了一个长而窄的空间,位于BlueField-4模块和右侧Orchid模块之间。管理模块如下:
系统管理模块 (SMM)
可信平台模块 (TPM)
数据中心安全控制模块 (DC-SCM)
这些模块在计算托盘上提供管理安全功能。超大规模厂商通常有自己内部的管理模块设计。因此,每个终端客户可能都有不同的管理模块。除了BlueField-4,Nvidia允许定制的只有电源供应模块和管理模块这两个组件。一些终端客户正在考虑将管理模块集成到电源供应模块中。然而,这些模块需要遵循Nvidia提供的外形尺寸,以便能够适配计算托盘Midplane的指定连接器。
7、计算托盘拓扑结构
VR NVL72的计算托盘拓扑结构大致类似于GB200和GB300。与Grace Blackwell相比,三个主要区别是GPU和ConnectX网卡之间的连接、与本地NVMe存储的连接以及BlueField-4和ConnectX-9之间的连接。
首先,GPU 与 ConnectX 网卡的连接从 GB200 发展到 GB300,再到 Vera Rubin。对于 GB200,GPU 没有直接访问 ConnectX-7 的权限。相反,B200 通过 C2C 连接与 Grace CPU 连接,然后 Grace CPU 通过 PCIe 5 与 ConnectX-7 通信。对于 GB300,Nvidia 引入了直接连接到 ConnectX-8 的网卡,使 B300 GPU 能够直接与 ConnectX-8 网卡通信,而无需经过 Grace CPU。
本质上,这意味着ConnectX-8有两个主机,Grace CPU和B300 GPU。这提高了后端网络的延迟。然而,对于VR NVL72,Rubin GPU和ConnectX-9之间的直接连接恢复到与GB200相同的设计,因为Rubin没有两个Connect-9的PCIe带宽。Rubin通过C2C链路连接到Vera,然后Vera将通过PCIe6通道连接到ConnectX-9。
其次,Rubin的本地NVMe存储已从Grace Blackwell的NVMe存储位置移至其他地方。之前,本地NVMe存储由BlueField-3管理。对于VR NVL72,本地NVMe存储物理上位于由ConnectX-9管理的Orchid模块上。
最后,BlueField-4 DPU能够控制8个ConnectX-9后端NIC,允许对前端南北网络和后端高速东西网络进行统一管理。因此,这个系统被称为高级安全可信资源架构(Astra),它将资源分配和监控的负担从主机CPU上解脱出来。唯一的缺点是BlueField-4成本较高,因此预计大多数大规模客户将部署他们自己的DPU解决方案。
8、从Blackwell演进
所有这些模块在VR NVL72的计算托盘中,虽然不完全相同,但在GB200/300的计算托盘中都能找到。唯一的区别是Midplane模块,因为这是一个引入的新组件,用于消除计算托盘中的内部电缆。此外,机箱前面的模块(子模块)比Blackwell中的对应模块长得多,以便通过PCB将信号从中间平面连接到前面的I/O端口。


