AI 时代，GPU 有两种死法_老虎社区_美港股上老虎

AI 时代，GPU 有两种死法

如果给英伟达最先进的 GPU，配上十年前的内存和网络，会发生什么？

答案很简单：它几乎跑不起来。

这听起来很反直觉。大多数人觉得，AI 时代最重要的是 GPU。但研究越久我越发现——GPU 只是发动机。真正决定这台机器能不能跑起来的，是带宽。

先接上上一篇。

我在《存储，根本不是一个东西》里讲过一个判断：HBM 这种内存，表面上是在卖存储，本质上是在卖带宽。它值钱，不是因为能存多少，是因为能多快地把数据喂给 GPU。

当时这个判断，是存储篇的终点。但我后来发现，它其实是另一件事的起点。

因为"把数据快速喂给 GPU"这件事，HBM 只解决了一半。

为什么这么说？

你可以把一颗 GPU，想象成一个饭量大得惊人的大胃王。它一秒钟能吃下的数据，多到普通内存根本来不及端上桌。

如果数据喂得太慢，GPU 会饿死——算力再强，喂不饱，就是空转。你买了最贵的芯片，它却有一大半时间在干等着上菜。

这就是 HBM 要解决的问题：它是一条超宽的传送带，拼命把数据快速塞给 GPU，让它吃得饱。

而今天，这第一种死法，其实已经基本被解决了。 HBM 已经让 GPU 越来越吃得饱。

但一个新问题冒出来了：一颗 GPU，不够用了。

今天训练一个大模型，要成千上万颗 GPU 一起干活。这些 GPU 不是各吃各的，它们必须时时刻刻互相交换数据、对齐进度——像一个几万人的工厂，每个工位都要和其他工位实时同步。

于是第二种死法出现了。

GPU 的第二种死法，叫堵车。

就算每一颗 GPU 都喂饱了，可它们之间如果连不动、传不快，整个集群照样跑不起来——几万颗最贵的芯片，卡在"互相传数据"这一步上，集体堵在路上。算力再多，连不动，就是浪费。

所以 GPU 其实有两种死法：

一种是吃不饱——饿死。一种是跑不动——堵车。

这两个问题，本质上是同一个东西在作怪：带宽不够。

只不过：

* 饿死，是喂数据的带宽不够——这是 HBM 已经在解决的。

* 堵车，是传数据的带宽不够——这是光互联要解决的。

而成千上万颗 GPU 之间的数据流动，正在成为 AI 时代新的瓶颈。

这就是为什么，黄仁勋专门提出过一个词，叫"I/O 墙"。

他的意思是：芯片的算力，可以靠制程和堆叠继续往上涨；但芯片和芯片之间传数据的能力，涨不了那么快。算力越堆越高，传输却撞上了一堵墙。

这堵墙，就是 GPU"堵车"的根源。而推倒这堵墙的方法，就是把传数据的线，从铜，换成光。

如果说 HBM 的出现，是存储行业的"ChatGPT 时刻"——让所有人突然意识到"原来内存是在卖带宽"；那么"I/O 墙"，就是光互联的"ChatGPT 时刻"——让所有人开始意识到，连接芯片的能力，正在变得和芯片本身一样贵。

讲到这里，整件事就串起来了。

存储篇，讲的是带宽在哪里产生——HBM 让 GPU 吃得饱。光篇，要讲的是带宽如何流动——光互联让 GPU 跑得动。

一个解决"饿死"，一个解决"堵车"。它们是 AI 算力系统的左膀右臂，缺一不可。

而"光互联"这件事，远比大多数人以为的复杂——它根本不是"光模块"一个东西，而是一整套正在重构的产业链。这也是为什么我要专门开一个光篇，一层一层把它拆开。

最后，留一个问题给你，也给我自己。

存储篇研究到最后，我们发现一件事：真正赚走大部分利润的，不是所有存储公司，而是 HBM——是海力士、是那条最窄、最贵的赛道。

那么光篇呢？

当资本市场所有人都盯着光模块的时候，真正赚走大部分利润的，会不会根本不是光模块？

是被称作"光互联心跳"的激光器？是把光直接做进芯片的硅光？是决定成败的先进封装？还是某个我们现在还没看清的环节？

这正是接下来几篇，我想和你一起拆开看的。

因为 AI 带来的最大变化，从来不是创造了新公司，而是重新定价了整个旧世界——这一次，轮到"光"了。

下一篇，我们先回答一个最基础、却很少有人讲清楚的问题：为什么说 AI 集群，根本不是一堆 GPU，而是一张带宽网络？

实盘观察，不是投资建议。

AI世界 vs 旧世界·光篇

① AI 时代，GPU 有两种死法（本篇）

② AI 集群不是一堆 GPU，而是一张带宽网络（预告）

③ 铜，为什么突然不行了？（预告）

④ 为什么英伟达正在把铜换成光？（预告）

⑤ 光模块不是终点，钱正在往哪里搬？（预告）

$迈威尔科技(MRVL)$ $Lumentum Holdings Inc.(LITE)$ $COHERENT(COHR)$

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

AI 时代，GPU 有两种死法

评论

热议股票