芝能智芯出品
2025年的数据中心,正在被一场看不见的热浪吞噬。新一代处理器的性能越高,耗电和发热就越疯狂,冷却系统已经被逼到极限。
过去几十年,CPU凭借通用性成为计算的绝对主角——无论是数据中心还是个人电脑,它们承担了几乎所有类型的工作负载。
但为了适配一切而牺牲能效的“通用”逻辑,正在成为负担。AI、图形计算、数据流处理……越来越多的专用架构开始在服务器机房抢占CPU的地盘。
从支持C++可编程的第二代NPU,到像Efficient Computer这样摒弃指令提取、直接让数据在片上流动的处理器;
再到Vaire Computing用可逆计算回收能量的激进尝试——硬件设计师正试图跳出传统冯·诺依曼架构的框架,寻找比“加更多风扇”更根本的节能方式。
问题是,处理器不仅是硬件,还背着操作系统、编译器、测试工具、开发习惯这些沉重的生态。即便是节能100倍的设计,也必须穿过这层厚重的商业与技术护城河,才能活下来。
Part 1
基于数据流的处理器架构:
减少冗余、优化数据路径
传统通用处理器为了适应多样化的计算任务,设计上包含了大量通用功能单元和复杂的指令执行机制。这种“全能型”设计保证了灵活性,却牺牲了能效。
在数据中心等对功耗高度敏感的场景中,通用架构的高能耗成为长期难以回避的问题。
数据流处理器(Dataflow Processor)的核心思想,是让数据在处理单元之间以预先设定的路径直接流动,减少指令提取、解码和动态调度等环节所带来的能耗损失。
以 Efficient Computer 的设计为例,处理器由一系列计算块(Tile)构成,每个块在配置阶段被静态分配固定的指令,加载后无需周期性重新提取。这种模式使得指令与数据传输路径固定化,从而减少了通用架构中频繁变化所需的控制逻辑能耗。
片上网络(NoC)采用电路交换方式而非分组交换。一旦建立连接,数据即可持续流动,不必经过复杂的缓存和仲裁机制。这种点对点的连接方式降低了延迟和通信能耗,尤其适合重复性高、数据依赖明确的任务。
为了适应更大规模和更复杂的程序,数据流处理器引入了动态重新加载机制。
当某段计算完成时,系统可在流水线的下游加载新的代码片段,实现“分布式完成度”控制。这种方式保证了资源利用率,同时减少了等待和空转带来的功耗浪费。
架构还支持指令融合,即在同一个 Tile 内同时编码多条互相关联的操作。这种融合可以减少 Tile 间数据传输的次数,从而进一步降低能耗。不同 Tile 根据功能差异(如乘法运算、浮点运算等)分配指令,编译器在代码分析阶段自动完成映射,最大化并行度。
这一架构在理论上能实现比传统 CPU 低一个数量级甚至两个数量级的能耗。然而,其通用性仍受限于 Tile 阵列规模、内存带宽和 I/O 系统的能力扩展。对于大型动态工作负载,其编译器与调度算法的成熟度也决定了性能上限。
Part 2
可逆计算与能量回收:
从物理层面重构能效
与数据流处理器在体系结构层面减少能耗不同,可逆计算(Reversible Computing)直接从电路物理原理入手,试图回收运算过程中损失的能量。
传统 CMOS 电路在逻辑状态切换时,会将用于表示比特的全部信号能量转化为热量,这一过程不可逆且无法回收。
Vaire Computing 提出的可逆计算方案,通过在电路节点引入谐振电源,将切换过程变为近似绝热(adiabatic)的能量转移。
在这种设计中,电感和电容构成的谐振腔可暂存能量,并在逻辑反向切换时将其回收。
理论上,能量损耗仅与漏电流和谐振器的品质因数(Q值)相关,可以被压缩到极低水平。保留了数字计算的逻辑特性,但在时序上与传统 CPU 存在显著差异。能量回收需要时间,因此单个时钟周期需容纳更多子步骤,使得时钟频率降低约 50%。
不过,通过增加并行度,特别是在 AI 模型训练等天然具备高度并行性的任务中,这种频率下降的影响可以被部分抵消。
可逆计算的设计还需遵守严格的电路控制规则,例如避免在有电压降时导通晶体管,或在有电流流动时关断晶体管。电路拓扑和时钟信号的精确控制是实现可逆性的关键。这些设计要求使得其制造和验证复杂度显著高于传统电路。
目前,该技术仍处于早期原型阶段,距离商业化应用还有数年时间。除了硬件制造挑战,生态系统也是一大难题——现有的软件栈并未针对可逆计算优化,编译器、调试工具和操作系统支持都需要从零构建。
无论是数据流处理器还是可逆计算,二者都在技术上展示了显著的节能潜力。前者通过架构优化减少冗余操作和不必要的数据移动,后者则在物理层面回收信号能量,接近热力学极限的能效。
然而,能否从实验室走向主流市场,取决于多重因素:
◎ 生态成熟度:处理器不仅是硬件,更依赖完整的软件工具链与开发者支持。
◎ 通用性与性能平衡:节能优势必须与足够的通用计算能力结合,才能适应多样化工作负载。
◎ 经济驱动:只有当数据中心运营成本或能耗压力足够大时,市场才会为新架构的高初期投入买单。
从纯技术角度看,打破传统架构的能效瓶颈是可能的,半导体行业倾向于渐进式演进,而非彻底颠覆。未来的新架构或许会在特定细分领域率先落地,逐步渗透到更广泛的计算市场。
小结
技术上,节能的可能性并不缺乏。阻碍它们落地的,从来不是芯片的设计,而是现实世界的经济账。新架构必须有足够大的市场、足够完整的工具链、足够强的生态合作,才能摆脱“实验室奇迹”的命运。
在数据中心的耗电曲线持续上扬的背景下,改变的压力正逼近,但业界依旧在“渐进优化”与“彻底革命”之间犹豫不决。
未来几年,我们可能会看到更多极端节能的处理器诞生,但能否冲破生态的封锁线,决定了它们是成为下一个GPU式的颠覆者,还是被遗忘在论文里的名字。
精彩评论