微软正式推出最新一代自研 AI 加速器Microsoft Azure Maia 200。
这是微软Maia GPU 系列的第二代产品,定位为服务器级 AI 推理芯片,目标十分明确:在推理性能、能效和成本控制上,全面对标并超越亚马逊和谷歌的定制芯片方案。
微软将 Maia 200 形容为其迄今部署的“最高效推理系统”。官方宣传几乎围绕两点展开:性能大幅提升,以及在高算力下尽可能降低能耗,减少碳排放。
微软称,Maia 200 的性价比相比上一代 Maia 100 提升了约 30%。考虑到新一代芯片TDP 提高了 50%,这一能效与成本优化,确实称得上进步明显。
从制程和硬件规格来看,Maia 200 采用台积电 3nm 工艺,集成1400 亿个晶体管,属于当前最先进的一档水平。
在算力方面,微软给出的数据相当激进:
FP4 算力最高可达 10 PFLOPS,
是亚马逊Trainium3 的 3 倍。
内存配置同样堆满:
板载216GB HBM3e,
内存带宽高达 7TB/s,
另配272MB 片上 SRAM,以降低访存延迟、提升执行效率。
从原始算力指标来看,Maia 200 不仅明显优于亚马逊的自研芯片,与英伟达顶级 GPU 相比也颇具竞争力。
不过,直接横向对比意义并不大:一方面,Maia 200 并不对外销售,只在 Azure 内部部署;另一方面,英伟达 Blackwell B300 Ultra 的定位和功耗等级明显更高,同时还拥有无可比拟的软件生态优势。
相比单纯堆算力,Maia 200 更突出的卖点其实是能效比。
其TDP 为 750W,几乎只有英伟达 B300 Ultra 的一半(约 1400W)。
而且按照 Maia 100 的经验,新一代芯片的实际运行功耗很可能低于理论 TDP:Maia 100 的设计功耗为 700W,但实际运行通常被限制在500W 左右。
在当前外界对AI 能耗和碳排放高度关注的背景下,这一优势极具吸引力,也符合微软近年来在“绿色算力”上的战略方向。
在产品定位上,Maia 200明显是为 AI 推理场景量身定制,而非通用训练型加速器。
其架构重点优化 FP4 和 FP8 运算,特别适合大模型推理阶段对低精度、高吞吐的需求,而不追求极端复杂计算能力。
微软将大量研发资源投入到了内存层级架构设计中。Maia 200 采用272MB 高效 SRAM,并构建了多层集群级 SRAM(CSRAM)+ Tile 级 SRAM(TSRAM)的混合结构,使数据在 HBM 与 SRAM 之间实现更智能的调度,从而:
降低访问延迟
提升内存利用率
优化整机能效
平衡各计算单元负载
这也解释了为什么 Maia 200 在推理效率与能耗控制上表现突出。
由于微软公布的Maia 200 与 Maia 100 性能指标几乎没有重叠维度,因此很难精确量化代际提升幅度。目前可以确认的是:
运行温度更高(功耗提升所致)
性价比提升约 30%
结合 3nm 制程、HBM3e 升级和内存架构重构来看,Maia 200 的进化方向十分清晰:围绕推理场景,追求更低成本、更高能效、更好部署密度。
马斯克一开口,股市先冲了
暴跌11%,英特尔太令人失望了
1510亿美元,英特尔拿下美“硬核订单”

