谷歌在推理时代的架构Ironwood TPU | HotChips2025
@芝能汽车:
芝能智芯出品 在 2025 年 Hot Chips 大会上,谷歌详解介绍了 Ironwood 的新一代张量处理单元(TPU),并以此成为大会机器学习专场的焦点。 与以往的 TPU 产品相比,Ironwood 最大的特点在于它是谷歌首次明确定位于大规模推理而非训练的计算芯片,从单纯的模型训练走向大规模推理部署的现实需求。 Part 1 推理为核心: Ironwood 的定位与架构突破 长期以来,TPU 的设计更多面向训练任务,强调在极大规模参数下的矩阵计算能力,大模型逐步进入实际应用场景,推理任务所需的算力和能效比已经成为新的瓶颈。 Ironwood 并非是训练与推理通用的折中方案,真正针对推理优化的体系架构。 从硬件组织层面来看,Ironwood 最大的变化体现在 SuperPod 的扩展能力。通过光路交换机(OCS)的引入,一个 Pod 内最多能够支持 9,216 颗芯片,远超上一代 TPUv4 的 4,096 芯片规模。 谷歌在构建超大规模 AI 集群时,可以在单一体系下提供高达 42.5 百亿亿次浮点运算的峰值性能。 更为关键的是,OCS 的灵活互联让系统能够在硬件失效时通过检查点恢复和重构,保持整体可用性,这对于需要长时间运行、几乎不允许宕机的推理服务而言至关重要。 在存储架构上,Ironwood 采用了最新的 HBM3e 技术,单芯片配置 192GB 高带宽内存,总体可扩展至 1.77PB 的共享寻址空间,提升了对大模型参数的直接加载能力,也降低了因频繁数据交换带来的延迟与功耗。 谷歌强调,内存系统是其架构中最重要的优化方向之一,这与大语言模型在推理时对内存带宽和容量的极高依赖高度契合。 Ironwood 还是谷歌首次采用多计算芯片组的 TPU,每个封装内集成两个计算芯片。 通过突破单一光罩尺寸的限制,谷歌能够在不牺牲良率的前提下进一步提升单芯片的计算密度,标志着