+关注
james duan
年少时亲手射出的子弹 多年后猛地一回头 正中眉心
IP属地:广东
70
关注
352
粉丝
3
主题
0
勋章
主贴
热门
james duan
06-18 18:53
这么技术化谁看得懂
万字解读AMD的CDNA 4 架构
james duan
06-17 17:35
$美国超微公司(AMD)$
房子已经压上去了 给我冲 上200
james duan
06-15
$纳斯达克(.IXIC)$
伊朗和以色列开战 美国阅兵 下周一定暴涨
james duan
06-14
哈哈哈 你做生意间接性把我杀了别人还敢跟你合作吗
james duan
06-14
波音肯定有问题 高管都喊话不敢坐自家飞机 只不过波音是军方背景资本比较雄厚
james duan
06-12
$波音(BA)$
这次不到100 是回不来了
james duan
06-12
$波音(BA)$
787都能坠毁 这个公司的王牌产品 基本宣告波音废了
james duan
06-12
$波音(BA)$
狠狠的空它 这个公司真实草菅人命啊
james duan
06-09
$美国超微公司(AMD)$
终于起来了 压上房子
james duan
06-06
$特斯拉(TSLA)$
老马真惨 非得去和政治家一起玩 完了没有利用价值就一脚踢开 还被被刺一刀
james duan
06-06
$美国超微公司(AMD)$
不是涨回去了吗 怎么又跌了 快让马斯克做总统 这**川普
james duan
06-06
$Circle Internet Corp.(CRCL)$
看到1000 估计要和美债一个价
james duan
06-05
$Circle Internet Corp.(CRCL)$
啥情况
james duan
06-05
$Circle Internet Corp.(CRCL)$
啥时候开盘啊
james duan
06-03
$博通(AVGO)$
太后悔了 没有上车这个
james duan
06-03
$美国超微公司(AMD)$
房子压你上面了 冲啊
james duan
06-03
$美国超微公司(AMD)$
舒服啊 快点涨
james duan
06-03
$美国超微公司(AMD)$
这周不涨回前高的位置及岌岌可危
james duan
05-30
$美国超微公司(AMD)$
这个股 坑杀了无数散户啊
james duan
05-30
$美国超微公司(AMD)$
搞个鸡毛啊 又跌
去老虎APP查看更多动态
{"i18n":{"language":"zh_CN"},"userPageInfo":{"id":"3440897161812160","uuid":"3440897161812160","gmtCreate":1477803142409,"gmtModify":1748377806595,"name":"james duan","pinyin":"jamesduanjamesduan","introduction":"","introductionEn":"","signature":"年少时亲手射出的子弹 多年后猛地一回头 正中眉心","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","hat":"https://static.tigerbbs.com/b073a07f77dbe6b3bec6b12311fde6bd","hatId":"ca_profile_frame_Mpy1eK","hatName":"","vip":1,"status":2,"fanSize":352,"headSize":70,"tweetSize":868,"questionSize":0,"limitLevel":900,"accountStatus":4,"level":{"id":3,"name":"书生虎","nameTw":"書生虎","represent":"努力向上","factor":"发布10条非转发主帖,其中5条获得他人回复或点赞","iconColor":"3C9E83","bgColor":"A2F1D9"},"themeCounts":3,"badgeCounts":0,"badges":[],"moderator":false,"superModerator":false,"manageSymbols":null,"badgeLevel":null,"boolIsFan":false,"boolIsHead":false,"favoriteSize":11,"symbols":null,"coverImage":null,"realNameVerified":null,"userBadges":[{"badgeId":"e50ce593bb40487ebfb542ca54f6a561-4","templateUuid":"e50ce593bb40487ebfb542ca54f6a561","name":"明星虎友","description":"加入老虎社区2000天","bigImgUrl":"https://static.tigerbbs.com/dddf24b906c7011de2617d4fb3f76987","smallImgUrl":"https://static.tigerbbs.com/53d58ad32c97254c6f74db8b97e6ec49","grayImgUrl":"https://static.tigerbbs.com/6304700d92ad91c7a33e2e92ec32ecc1","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2022.04.23","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1001},{"badgeId":"228c86a078844d74991fff2b7ab2428d-3","templateUuid":"228c86a078844d74991fff2b7ab2428d","name":"投资合伙人虎","description":"证券账户累计交易金额达到100万美元","bigImgUrl":"https://static.tigerbbs.com/fbeac6bb240db7da8b972e5183d050ba","smallImgUrl":"https://static.tigerbbs.com/436cdf80292b99f0a992e78750ac4e3a","grayImgUrl":"https://static.tigerbbs.com/506a259a7b456f037592c3b23c779599","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.22","exceedPercentage":"93.27%","individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1101},{"badgeId":"976c19eed35f4cd78f17501c2e99ef37-1","templateUuid":"976c19eed35f4cd78f17501c2e99ef37","name":"博闻投资者","description":"累计交易超过10只正股","bigImgUrl":"https://static.tigerbbs.com/e74cc24115c4fbae6154ec1b1041bf47","smallImgUrl":"https://static.tigerbbs.com/d48265cbfd97c57f9048db29f22227b0","grayImgUrl":"https://static.tigerbbs.com/76c6d6898b073c77e1c537ebe9ac1c57","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.21","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1102},{"badgeId":"518b5610c3e8410da5cfad115e4b0f5a-1","templateUuid":"518b5610c3e8410da5cfad115e4b0f5a","name":"实盘交易者","description":"完成一笔实盘交易","bigImgUrl":"https://static.tigerbbs.com/2e08a1cc2087a1de93402c2c290fa65b","smallImgUrl":"https://static.tigerbbs.com/4504a6397ce1137932d56e5f4ce27166","grayImgUrl":"https://static.tigerbbs.com/4b22c79415b4cd6e3d8ebc4a0fa32604","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":0,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.21","exceedPercentage":null,"individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1100},{"badgeId":"35ec162348d5460f88c959321e554969-3","templateUuid":"35ec162348d5460f88c959321e554969","name":"传说交易员","description":"证券或期货账户累计交易次数达到300次","bigImgUrl":"https://static.tigerbbs.com/656db16598a0b8f21429e10d6c1cb033","smallImgUrl":"https://static.tigerbbs.com/03f10910d4dd9234f9b5702a3342193a","grayImgUrl":"https://static.tigerbbs.com/0c767e35268feb729d50d3fa9a386c5a","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":1,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.21","exceedPercentage":"93.08%","individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1100}],"userBadgeCount":5,"currentWearingBadge":{"badgeId":"35ec162348d5460f88c959321e554969-3","templateUuid":"35ec162348d5460f88c959321e554969","name":"传说交易员","description":"证券或期货账户累计交易次数达到300次","bigImgUrl":"https://static.tigerbbs.com/656db16598a0b8f21429e10d6c1cb033","smallImgUrl":"https://static.tigerbbs.com/03f10910d4dd9234f9b5702a3342193a","grayImgUrl":"https://static.tigerbbs.com/0c767e35268feb729d50d3fa9a386c5a","redirectLinkEnabled":0,"redirectLink":null,"hasAllocated":1,"isWearing":1,"stamp":null,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.21","exceedPercentage":"93.19%","individualDisplayEnabled":0,"backgroundColor":null,"fontColor":null,"individualDisplaySort":0,"categoryType":1100},"individualDisplayBadges":null,"crmLevel":1,"crmLevelSwitch":0,"location":"广东","starInvestorFollowerNum":0,"starInvestorFlag":false,"starInvestorOrderShareNum":0,"subscribeStarInvestorNum":3,"ror":null,"winRationPercentage":null,"showRor":false,"investmentPhilosophy":null,"starInvestorSubscribeFlag":false},"baikeInfo":{},"tab":"post","tweets":[{"id":447374758191152,"gmtCreate":1750244036948,"gmtModify":1750244037974,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"这么技术化谁看得懂","listText":"这么技术化谁看得懂","text":"这么技术化谁看得懂","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/447374758191152","repostId":"2544176649","repostType":2,"repost":{"id":"2544176649","kind":"news","pubTimestamp":1750210074,"share":"https://www.laohu8.com/m/news/2544176649?lang=&edition=full","pubTime":"2025-06-18 09:27","market":"us","language":"zh","title":"万字解读AMD的CDNA 4 架构","url":"https://stock-news.laohu8.com/highlight/detail?id=2544176649","media":"半导体行业观察","summary":"CDNA 4 是 AMD 最新的面向计算的 GPU 架构,在 CDNA 3 的基础上进行了适度更新。同时,CDNA 4 致力于保持 AMD 在更广泛应用的矢量运算方面的领先地位。为此,CDNA 4 在很大程度上采用了与 CDNA 3 相同的系统级架构。在 16 位和 8 位数据类型范围内,B200 SM 的每时钟吞吐量是 CDNA 4 CU 的两倍。在 CDNA 4 CU 上,这个数字将增加到 10 个工作组。CDNA 4 增强了 GLOBAL_LOAD_LDS 指令,使其支持每通道最多 128 位的移动,而 CDNA 3 上每通道仅支持 32 位。CDNA 4 还引入了读取转置 LDS 指令。","content":"<p>CDNA 4 是 AMD 最新的面向计算的 GPU 架构,在 CDNA 3 的基础上进行了适度更新。CDNA 4 主要致力于提升 AMD 在低精度数据类型下的<a href=\"https://laohu8.com/S/301365\">矩阵</a>乘法性能。这些运算对于机器学习工作负载至关重要,因为机器学习工作负载通常可以在极低精度类型下保持可接受的准确度。同时,CDNA 4 致力于保持 AMD 在更广泛应用的矢量运算方面的领先地位。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/37e6b44b923b6d392f0ff79bef384a56\" tg-width=\"1055\" tg-height=\"758\"></p><p>为此,CDNA 4 在很大程度上采用了与 CDNA 3 相同的系统级架构。它采用大规模芯片组设置,与 AMD 在 CPU 产品中成功运用芯片组的做法类似。加速器计算芯片(XCD)包含 CDNA 计算单元,其作用类似于 AMD CPU 产品上的核心复合芯片 (CCD)。八个 XCD 位于四个基础芯片之上,这些基础芯片实现了 256 MB 的内存侧缓存。AMD 的 Infinity Fabric 技术可在整个系统中提供一致的内存访问,并可跨越多个芯片。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e7c1117cdcf222f5761f23d187146442\" tg-width=\"1005\" tg-height=\"581\"></p><p>与基于 CDNA 3 的 MI300X 相比,搭载 CDNA 4 的 MI355X 略微减少了每个 XCD 的 CU 数量,并禁用了更多 CU 以维持良率。由此产生的 GPU 宽度略小,但更高的时钟速度弥补了大部分差距。与 Nvidia 的 B200 相比,MI355X 和 MI300 都是更大的 GPU,拥有更多基本构建模块。Nvidia 的 B200 确实采用了多芯片策略,打破了长期以来使用单片设计的传统。然而,AMD 的 chiplet 设置更加激进,并试图在具有大型计算 GPU 的 CPU 设计中复制其扩展成功。</p><p><strong>计算单元变化</strong></p><p>CDNA 3 的矢量吞吐量优势远超 Nvidia 的 H100,但在机器学习工作负载方面则更为复杂。得益于成熟的软件生态系统以及对矩阵乘法吞吐量(张量核心)的高度关注,Nvidia 通常能够接近名义上规模更大的 MI300X。当然,如果 H100 的显存耗尽,AMD 仍然保持着巨大的优势,但 AMD 肯定还有改进的空间。</p><p>CDNA 4 重新平衡了其执行单元,使其更专注于低精度数据类型的矩阵乘法,而这正是机器学习工作负载所需的。在许多情况下,每 CU 的矩阵吞吐量翻倍,CDNA 4 CU 在 FP6 中与 Nvidia 的 B200 SM 匹敌。不过,在其他方面,Nvidia 仍然更加注重低精度矩阵吞吐量。在 16 位和 8 位数据类型范围内,B200 SM 的每时钟吞吐量是 CDNA 4 CU 的两倍。AMD 继续依靠拥有更大、更高时钟频率的 GPU 来保持整体吞吐量领先地位。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/6e769812c3066160a46d55b33999b060\" tg-width=\"369\" tg-height=\"238\"></p><p>凭借矢量运算和更高精度的数据类型,AMD 延续了 MI300X 的巨大优势。每个 CDNA 4 CU 继续拥有 128 条 FP32 通道,计算 FMA 运算时每周期可提供 256 FLOPS 的计算能力。MI355X 较低的 CU 数量确实导致矢量性能与 MI300X 相比略有下降。但与 Nvidia 的 Blackwell 相比,AMD 更高的核心数量和更高的时钟速度使其在矢量吞吐量方面保持了巨大的领先优势。因此,AMD 的 CDNA 产品线在高性能计算工作负载方面仍然表现不俗。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/361e32680a5b0c0e436d175b3063f66b\" tg-width=\"752\" tg-height=\"452\"></p><p>Nvidia 专注于机器学习和矩阵运算,尽管运行频率较低的 SM 数量较少,但 Nvidia 在该领域仍保持着极强的竞争力。AMD 的巨型 GPU MI355X 在许多数据类型上都处于领先地位,但 AMD 与 Nvidia 最强 GPU 之间的差距远不及矢量计算那么大。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/b0213b00c2d069e4e815ef42ea3ff255\" tg-width=\"1080\" tg-height=\"650\"></p><p><strong>更大的 LDS</strong></p><p>GPU 提供了一个软件管理的暂存器,用于本地一组线程(通常是在同一核心上运行的线程)。AMD GPU 使用本地数据共享 (LDS) 来实现此目的。Nvidia 将其类似的结构称为共享内存。CDNA 3 拥有一个 64 KB 的 LDS,延续了 AMD GCN GPU 早在 2012 年就采用的类似设计。该 LDS 拥有 32 个 2 KB 的存储体,每个存储体宽度为 32 位,在没有存储体冲突的情况下,每个周期最多可提供 128 个字节。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/b52e94aee8be922eba1ffd33fc390f0a\" tg-width=\"1080\" tg-height=\"398\"></p><p>CDNA 4 将 LDS 容量提升至 160 KB,并将读取带宽翻倍至每时钟 256 字节。GPU 原生运行于 32 位元素,因此可以合理地假设 AMD 通过增加存储体数量来翻倍带宽。如果是这样,那么每个存储体现在可能拥有 2.5 KB 的容量。另一种可能性是将存储体数量增加到 80 个,同时将存储体大小保持在 2 KB,但这不太可能,因为这会使存储体选择变得复杂。64 个存储体的 LDS 自然可以支持 64 位宽的波前访问,每个存储体服务于一个通道。此外,2 的幂次方个存储体数量允许通过地址位子集轻松选择存储体。</p><p>更大的 LDS 空间允许软件将更多数据保存在靠近执行单元的位置。内核可以分配更多 LDS 容量,而不必担心 LDS 容量限制导致占用率降低。例如,分配 16 KB LDS 的内核可以在 CDNA 3 CU 上运行 4 个工作组。在 CDNA 4 CU 上,这个数字将增加到 10 个工作组。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/423d3f1b5b6e014ff7df48be2f45191e\" tg-width=\"1080\" tg-height=\"604\"></p><p>软件必须显式地将数据移入 LDS 才能利用它,与使用硬件管理的缓存相比,这可能会增加开销。CDNA 3 具有 GLOBAL_LOAD_LDS 指令,允许内核将数据复制到 LDS 中,而无需经过向量寄存器文件。CDNA 4 增强了 GLOBAL_LOAD_LDS 指令,使其支持每通道最多 128 位的移动,而 CDNA 3 上每通道仅支持 32 位。也就是说,GLOBAL_LOAD_LDS 指令可以接受 1、2、4、12 或 16 个 DWORDS(32 位元素)的大小,而 CDNA 3 上只能接受 1、2 或 4 个 DWORDS 。</p><p>CDNA 4 还引入了读取转置 LDS 指令。矩阵乘法涉及将一个矩阵中某一行的元素与另一个矩阵中相应列的元素相乘。这通常会对至少一个矩阵造成低效的内存访问模式,具体取决于数据是按行主序还是列主序排列。转置矩阵可以将笨拙的行列操作转换为更自然的行行操作。对于 AMD 的架构来说,在 LDS 上处理转置也很自然,因为 LDS 已经有一个交叉开关,可以将存储体输出映射到通道(swizzle)。</p><p>即使 LDS 容量增加了,AMD 的 GPU 核心中的数据存储空间仍然比 Nvidia 要小。Blackwell 的 SM 有一个 256 KB 的存储块,既可用作 L1 缓存,又可用作共享内存。最多可分配 228 KB 用作共享内存。如果分配 164 KB 共享内存,接近 AMD 的 160 KB LDS,Nvidia 仍有 92 KB 可用于 L1 缓存。CDNA 4 与 CDNA 3 一样,每个 CU 都有 32 KB L1 矢量缓存。因此,Blackwell SM 可以拥有更多的软件管理存储,同时仍具有比 CDNA 4 CU 更大的 L1 缓存。当然,AMD 更高的 CU 数量意味着整个 GPU 有 40 MB 的 LDS 容量,而 Nvidia 在 B200 上只有约 33 MB 的共享内存,最大共享内存分配为 228 KB。</p><p><strong>系统架构</strong></p><p>为了满足海量计算单元阵列的需求,MI355X 在很大程度上采用了与 MI300X 相同的系统级架构。不过,MI355X 确实有一些增强功能。二级缓存可以“回写脏数据并保留行副本”。“脏”是指已在回写缓存中修改,但尚未传播到内存子系统较低级别的数据。当脏行被清除以腾出空间容纳新数据时,其内容将被写回到下一级缓存;如果是最后一级缓存,则写回到 DRAM。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/5cb51bcfdee239b193df3f5d8103fafc\" tg-width=\"1080\" tg-height=\"611\"></p><p>AMD 可能正在寻求在内存子系统负载较低时适时使用写入带宽,以平滑由缓存填充请求和写回操作引起的带宽需求峰值。或者,如果写入的数据可能被系统中的其他线程读取,但预计短期内不会再次被修改,AMD 可能会采取一些特殊措施,让 L2 缓存将一条数据线转换为干净状态。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f10633f36b16f14d82c9a4f15db62b71\" tg-width=\"1080\" tg-height=\"605\"></p><p>MI355X 的 DRAM 子系统已升级为使用 HBM3E,相比其前代产品,带宽和容量均有显著提升。这也使 AMD 保持了对 Nvidia 竞争对手的领先优势。Nvidia 的 B200 也使用了 HBM3E,后者似乎也拥有八个 HBM3E 堆栈。然而,B200 的最大容量为 180 GB,带宽为 7.7 TB/s,而 MI355X 的最大容量为 288 GB,带宽为 8 TB/s。当 H100 的 DRAM 容量耗尽时,MI300X 可能比 Nvidia 的旧款 H100 拥有显著优势,而 AMD 很可能希望保持这一优势。</p><p>HBM3E 带来的更高带宽也有助于提升 MI355X 的计算带宽比。MI300X 每 FP32 FLOP 的 DRAM 带宽约为 0.03 字节,而 MI355X 则提升至 0.05 字节。相比之下,Blackwell 每 FP32 FLOP 的 DRAM 带宽约为 0.10 字节。虽然 Nvidia 增加了 Blackwell 的末级缓存容量,但 AMD 仍然更依赖大缓存,而 Nvidia 则更依赖 DRAM 带宽。</p><p><strong>最后的话</strong></p><p>CDNA 2 和 CDNA 3 与前代产品相比进行了彻底的改变。CDNA 4 的变化则更为平淡。与从 Zen 3 到 Zen 4 类似,MI355X 保留了类似的芯片组排列,但计算和 IO 芯片组被替换为改进版本。AMD 并没有改变其总体战略,而是专注于优化 CDNA 3。更少、更高时钟频率的计算单元更易于利用,而更高的内存带宽也有助于提高利用率。更高的矩阵乘法吞吐量也有助于 AMD 在机器学习工作负载方面与 Nvidia 展开竞争。</p><p>在某些方面,AMD 在这一代 GPU 上的做法与 Nvidia 颇为相似。从矢量执行的角度来看,Blackwell SM 与 Hopper 基本相同,改进主要集中在矩阵方面。Nvidia 可能认为他们找到了制胜法宝,因为他们过去几代 GPU 无疑都取得了成功。AMD 的 CDNA 3 或许也找到了制胜法宝。MI300A 是 MI300X 的 iGPU <a href=\"https://laohu8.com/S/002562\">兄弟</a>,它为 TOP500 六月榜单中排名最高的超级计算机提供动力。4在成功的基础上继续发展可能是一种安全且回报丰厚的策略,而 CDNA 4 或许正是如此。</p><p><strong>AMD CDNA 4 架构深度解读</strong></p><p>GPU 和加速计算彻底改变了数据中心的格局。加速计算最初在科学界被广泛接受,用于补充现有的<a href=\"https://laohu8.com/S/601500\">通用</a> CPU,以应对地震分析和分子动力学等特定工作负载。在此基础上,加速器不断发展,支持越来越通用的编程语言(例如 C++ 和 Python)以及更多样化的应用。机器学习(尤其是在计算机视觉领域)很早就利用了新的加速器,并催生了深度学习领域,该领域明确依赖 GPU 等加速器来训练和部署神经网络。</p><p>在经典科学计算和新兴机器学习及人工智能工作负载之间,GPU 的设计日益注重规模化运行,为全球最大的超级计算机提供动力。基于 Transformer 的神经网络的发现拓展了 GPU 的视野,并最终推动了生成式人工智能的爆炸式增长。生成式人工智能是迄今为止要求最高的应用领域之一,其应用范围远远超出了科学计算,涵盖了消费者和企业用户。</p><p>对计算能力和效率的需求如此巨大,以至于架构师不得不竭尽全力,不断重新审视计算领域的基本假设。最初,加速器采用了新的内存模型,但保留了熟悉的数据类型。现在,浮点数值表示法与新算法一起不断发展,以降低精度,从而提高性能、内存占用和能效。与此同时,GPU 在集成度方面也不断突破极限——首先采用先进的封装技术将 HBM 与加速器紧密耦合,现在则使用更先进的封装技术,摆脱单片硅片实现。</p><p>AMD 一直走在这场革命的前沿,为 GPU 开发新颖的软件和系统架构,以实现更强大的性能和功能。在软件方面,AMD CDNA 2 架构通过缓存一致性<a href=\"https://laohu8.com/S/600506\">统一</a>了 CPU 和 GPU 计算,为软件生态系统释放了新的应用和机遇。 AMD CDNA 3 架构彻底改变了加速器的构建方式,采用先进的封装技术,实现了异构集成,并将处理器重新划分到十几个不同的芯片组上。</p><p>如下图 1 所示,AMD CDNA 4 架构建立在先前 3D 封装技术的基础上,并在异构封装中重新平衡了处理器的元素。每个 AMD Instinct MI350 系列 GPU 集成了 8 个垂直堆叠的加速器复合芯片 (XCD) 和 2 个包含系统基础架构的 I/O 芯片 (IOD),并与 AMD 的 AMD Infinity Fabric 封装技术紧密相连,并连接到 8 个 12-Hi 高带宽内存堆栈 (HBM3E)。XCD 结合了最新的制程技术并支持新的降低精度数据类型,从而提升了 AI 的吞吐量和效率,而重新划分的 IOD 则有助于改善通信和内存流量的延迟和效率。外部方面,AMD Instinct MI350系列产品采用Infinity Fabric技术,在单个节点上直接连接8个GPU。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c8ca8c9ed1e5882771e4088976702b60\" tg-width=\"1080\" tg-height=\"742\"></p><p>这种设计提供了多功能性,可快速开发和部署基于 AMD CDNA 4 架构的产品系列,以满足客户多样化的需求——兼顾易用性和极致性能。AMD Instinct MI350 系列包含风冷 (AC) Instinct MI350X GPU,其 1000W 功率采用 OCP UBB8 基板,该基板旨在与上一代 AMD Instinct™ MI325X 平台和系统直接兼容,从而快速部署到现有生态系统中并快速实现价值。为了在无与伦比的密度下实现更高的性能和效率,AMD Instinct MI355X GPU (1400W) 提供直接液冷 (DLC) 平台,同样采用 UBB8 基板,适用于支持更高功率和冷却能力的基础设施。</p><p>与上一代 AMD Instinct MI325X GPU 相比,AMD Instinct MI355X GPU 将现有机器学习专用 16 位和 8 位矩阵数据类型的峰值吞吐量几乎提高了一倍,并引入了对其他低精度数值格式的支持,将 FP6/FP4 的 10TFLOP/s 理论峰值与 MI325X 的 FP8 的 2.61 PFLOPS 理论峰值性能相比,性能提高了 3.85 倍。MI350-005 MI355X 还将内存容量提升至 288GB HBM3E,带宽高达 8TB/s,通信带宽超过 1TB/s。 CDNA 4 架构旨在与<a href=\"https://laohu8.com/S/01215\">开源</a>驱动的 ROCm 软件生态系统协同工作,并通过 Kubernetes® 提供卓越的开箱即用科学计算和企业编排功能,并支持领先的 AI 训练和推理堆栈以及对流行生成式 AI 模型的 Day 0 支持。</p><p><strong>Chiplet架构</strong></p><p>AMD CDNA 3 架构是一次范式转变——它采用了基于芯片组(chiplet-based)的现代方法,充分利用了异构集成技术,并将众多专用芯片组与 Infinity Fabric 架构整合到一个高度优化的计算平台中。与过去几十年占据主导地位的单片架构相比,这是对芯片设计和架构的一次根本性反思,有望为<a href=\"https://laohu8.com/S/600532\">未来</a>数代产品带来性能和可扩展性。</p><p>CDNA 4 架构继承了这一革命性基础,并通过精心优化每个组件来提供最佳性能、效率和可制造性,充分展现了这种灵活策略的优势。八个计算芯片组(XCD)受益于最新的制程工艺,并采用<a href=\"https://laohu8.com/S/TSM\">台积电</a> (TSMC) 尖端的 N3P 制程技术实现,其芯片尺寸和占位面积与上一代产品相似,以实现最佳性能和效率。 IOD 中的内存和通信功能主要由大型 AMD Infinity Cache和互连芯片承担,而这些芯片无法有效扩展,无法充分利用最新工艺技术提供的性能。利用异构架构中的独立扩展功能,这些功能保留在台积电高效且经济实惠的 N6 工艺上,但重新平衡了两个大型 IOD(而非四个)的部署,从而优化了性能和能效,同时保持了<a href=\"https://laohu8.com/S/00406\">有利</a>的可制造性。</p><p><strong>AMD CDNA 4 计算</strong></p><p>AMD CDNA 4 架构凸显了基于 Chiplet 的异构计算平台构建方法的一大优势——每个 Chiplet 都可以使用合适的制程技术,从而实现更高效的演进。加速器复合芯片 (XCD) 包含处理器的计算部分以及对性能最为敏感的缓存层级的最低层。AMD CDNA 4 XCD 采用台积电最新的 N3P 制程技术,充分利用了相比上一代 N5 制程更高的逻辑密度和性能。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/85f54c9f6f3dd2d4d2e6913417efa584\" tg-width=\"1080\" tg-height=\"379\"></p><p>如图 2 所示,AMD CDNA 4 架构重新平衡了 XCD,通过提升每个计算单元 (CU) 的功能来提升性能,尤其适用于要求最苛刻的 AI 工作负载——实现对新数据类型的硬件支持,并显著提高矢量和矩阵工作负载的计算吞吐量和效率,如下表 1 所示。</p><p>AMD CDNA 4 XCD 中的 CU 数量与上一代相比略有减少,但每个 CU 通过一系列新功能的组合变得更加强大。因此,调度程序、硬件队列和将计算着色器工作组发送到计算单元 (CU) 的异步计算引擎 (ACE) 等全局资源仅需进行少量增强。</p><p>每个 XCD 包含 36 个 AMD CDNA 4 计算单元,这些计算单元被组织成四个阵列,每个阵列包含 9 个 CU,其中 32 个处于活动状态,剩下 4 个可能处于禁用状态,以实现高产量和高效的工作频率。与上一代产品一样,L2 缓存会将 XCD 中的所有流量合并,然后散布到连接系统其余部分的 Infinity Fabric 架构。该处理器跨越 8 个 XCD,最多可支持 256 个计算单元——略少于上一代产品,但在某些情况下,与 AMD Instinct MI300 系列 GPU 相比,计算吞吐量翻了一番。</p><p><strong>AMD CNDA 4 计算单元架构</strong></p><p>如下图 3 所示,AMD CDNA 4 架构计算单元 (CU) 实例化了完整的处理器流水线,能够高度线程化地并行执行标量、矢量和矩阵指令以及数据类型,并拥有包含 L1 数据缓存和显式寻址本地数据共享的内存流水线。AMD CDNA 4 CU 相较于上一代产品略有增强,增强了内存层次结构,并着重于采用新的低精度数值格式,并提升了对机器学习应用至关重要的矢量和矩阵吞吐量,最高可达 3.9 倍 (FP4/FP8)。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/fd9c451a588241504f462dbc179bf36c\" tg-width=\"1080\" tg-height=\"613\"></p><p>由于大多数工作负载将跨越多个计算单元 (CU),因此两个相邻的计算单元共享 64KB、8 路组相联指令缓存,从而有效利用缓存和区域。</p><p>AMD CDNA 4 CU 中,矩阵核心是本世代性能提升中最重要的部分,这些核心专注于 AI 和机器学习,不仅增加了对新<a href=\"https://laohu8.com/S/600302\">标准</a>化数值格式的硬件支持,也增加了现有数据类型的原始计算资源。低精度数值格式是提升 AI 性能最有效、最强大的技术之一。较小的数据类型可以提高计算吞吐量,从而更有效地利用有限的数据路径——本质上,在功耗略有提升的情况下,显著提升了计算能力。此外,较小的数据也能更好地利用整个处理器的宝贵资源,例如内存或缓存带宽和容量,通常能够显著提高能效。</p><p>在机器学习的早期,单精度浮点 (FP32) 数据很常见,但在过去十年中,人工智能社区采用了 FP16、BF16、INT8 和 FP8 格式来提升性能和效率。这些更紧凑的浮点格式用更少的位数表示张量中的每个数据元素,并为每个张量添加了一个缩放因子,以捕获完整的动态范围并避免下溢和上溢。AMD CDNA 3 计算单元引入了对 OCP 8 位浮点规范中描述的两种 FP8 数据类型变体的支持:一种是用于训练的 2 位尾数和 5 位指数 (E5M2),另一种是用于推理的 3 位尾数和 4 位指数 (E4M3)。</p><p>最近,业界围绕 OCP MX 标准中体现的微缩放概念展开了联合,将降低的精度提升到了一个新的水平。微缩放背后的核心概念是让硬件支持一个在张量内的数据元素块(通常为 32 个)之间共享的比例因子,而不是整个张量只使用一个比例因子。与传统的 FP8 相比,微缩放的 MXFP8 格式具有更细的粒度,这使得在 AI 工作负载中,可以在更广泛的张量上使用精度更低的格式。此外,微缩放还为更高的压缩率开辟了道路,并引入了诸如 MXFP6(包含 E3M2 和 E2M3 变体)和 MXFP4(指定 E2M1)等格式。下图 4 显示了最新 AMD CDNA 4 架构支持的部分数值数据格式。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e0301e1f7f2a4aec415ea22f52d4a5f7\" tg-width=\"1080\" tg-height=\"660\"></p><p>AMD CDNA 4 架构最显著的改进之一在于矩阵核心。顺应行业降低精度的趋势,AMD CDNA 4 计算单元 (CU) 引入了对行业标准微扩展格式(包括 MXFP8、MXFP6 和 MXFP4)的指令和硬件支持。</p><p>此外,N3P 工艺提供的额外资源用于将 16 位及更小紧凑数据类型的执行资源增加一倍,如下表 1 所示。这两项改进的结合意味着每个 CU 在单个周期内可执行的运算数量几乎增加了四倍,如下图所示,与上一代 (FP4/FP8) 相比,机器学习能力大幅提升。上一代产品完全硬件支持专有的 TF32 数字格式。</p><p>经过与客户和生态系统的广泛讨论,该格式已从硬件中移除,并通过使用 BF16 数据类型的软件仿真来支持。最终结果是,对于低精度 AI 数值数据格式,AMD CDNA 4 架构的计算吞吐量翻了一番,同时大多数模型的精度保持不变。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/5ca3b07356828aacab59ecd0c684cd33\" tg-width=\"1080\" tg-height=\"844\"></p><p>矩阵核心的增强功能提升了人工智能工作负载中常见的矩阵运算的计算吞吐量——这对于构成现代大型语言模型 (LLM) 基础的 Transformer 尤为重要。人工智能应用通常将矩阵运算的输出馈送到向量激活运算。对于卷积神经网络,通常使用修正线性单元 (ReLU);而在基于 Transformer 的网络中,softmax 是最常见的激活函数。为了与矩阵核心的大幅提升保持一致,<a href=\"https://laohu8.com/S/301049\">超越</a>率也提升了 2 倍,以辅助注意力加速,从而确保均衡的性能曲线。最后,AMD CDNA 4 计算单元还引入了多种数据转换指令,以确保新格式的易用性。</p><p>虽然矩阵核心的设计备受关注,但 AMD CDNA 4 架构中的内存层次结构也得到了增强,尤其注重本地数据共享 (LDS) 以及针对基于 Transformer 的神经网络的优化。 AMD CDNA 3 架构及前几代架构中的逻辑数据结构 (LDS) 采用直接寻址结构,包含 32 个存储体,每个存储体包含 512 个 32 位数据条目,总计 64KB 数据。每个存储体可以读写 32 位值,LDS 集成了冲突检测和调度逻辑、复杂的交叉开关和混合单元以及原子执行单元。AMD CDNA 4 架构中的 LDS 大小为 160KB,通过增加存储体数量,容量增加了一倍以上,读取带宽也翻倍至每时钟 256 字节。由于数据复用程度较高,额外的容量和带宽对于提高计算单元 (CU) 中用于矩阵乘法例程的矢量和矩阵执行资源的利用率至关重要。AMD CDNA 4 LDS 也比之前的设计更高效,支持直接从一级数据缓存加载数据,从而减少矢量寄存器的使用和延迟。这两项 LDS 优化对于矩阵乘法尤其重要,而矩阵乘法是现代基于 Transformer 的神经网络的支柱。</p><p>每个 AMD CDNA 4 计算单元 (CU) 中的 L1 矢量数据缓存与上一代基本相同,拥有 128B 缓存行和 32KB 容量,并支持 64 路组相联。此外,还有一个共享的 4MB、16 路组相联 L2 缓存,为 XCD 中的所有计算单元 (CU) 提供服务。L2 缓存拥有 16 个并行通道,每个通道每个周期能够执行完整的 128B 缓存行读取和 64B 写入操作。完全一致的 L2 缓存旨在通过写回和写入分配策略,减少从 XCD 溢出并跨越 Infinity Fabric 到达系统其他部分的流量。AMD CDNA 4 架构中的 L2 缓存还进行了一些额外的一致性优化。它现在可以缓存来自 DRAM 的非相干数据,并且可以写回脏数据并保留该行的副本。</p><p><strong>AMD CDNA 4 架构内存</strong></p><p>AMD CDNA 4 架构的内存层级始于计算单元 (CU),二级缓存 (L2) 充当整个 XCD 通往连接处理器的 AMD Infinity Fabric 网络的网关。内存层级的共享部分(包括 AMD Infinity Cache™ 和内存控制器)位于垂直堆叠在 XCD 下方的 IOD 中。AMD CDNA 3 架构中引入的基于芯片组的异构方法使得每个芯片组的硅片实现能够独立演进,从而最大限度地提高性能,同时提供卓越的可制造性。在 AMD CDNA 4 架构中,XCD 利用最新制程技术的密度来提升处理器的计算性能,这很容易证明增加的成本是合理的。然而,IOD 主要包含诸如 SRAM 和 I/O 之类的组件,这些组件无法从更先进的制程中获益,也无法证明其成本是合理的。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/b1177aea61abf1290d4b3a209932b3c0\" tg-width=\"1080\" tg-height=\"780\"></p><p>IOD 采用台积电 N6 工艺实现。如上图 5 所示,AMD CDNA 4 架构采用两个较大的 IOD 并直接连接,而非上一代的四个较小的 IOD。这简化了封装内的 Infinity Fabric 网络,从而降低了许多通信模式的延迟并降低了功耗,从而为处理器的其他部分释放了更多空间。IOD 之间更简单的直接连接比 AMD CDNA 3 架构的速度提高了约 14%,从而提升了许多通信模式的性能。</p><p>AMD CDNA 4 架构中的 Infinity Cache 在组织结构上基本保持不变。它仍然充当一个共享的 256MB、16 路组相联内存端缓存,并扇出 8 个内存堆栈。对于每个堆栈,Infinity Cache 包含 16 个 64 字节宽的并行通道,以实现高带宽,并与 2MB 的存储数据阵列绑定。AMD CDNA 4 架构中的两个 IOD 均包含四个显著增强的内存控制器。HBM3E 内存接口的运行速度为 8 Gbps,比 AMD Instinct MI325X 快 33% 以上,并提供惊人的 8TB/s 峰值理论内存带宽。MI350-002 同样至关重要的是,每个堆栈的内存容量已提升至 36GB,单个处理器最高可达 288GB,从而满足了 AI 训练和推理领域日益增长的内存需求。</p><p>在过去几年中,尖端大型语言模型的参数数量呈爆炸式增长。 2020年年中,OpenAI 首次发布了 GPT3,其参数数量高达 1750 亿,然而到 2024 年底,研究人员已经在尝试使用一万亿甚至更多的参数。在参数数量不断增长的时代,提升内存容量可以为训练高级模型的研究人员释放更多<a href=\"https://laohu8.com/S/C76.SI\">创新</a>和能力。内存容量对于推理也至关重要。LLM 的上下文窗口决定了模型可以处理的输入量,并直接影响用户体验。GPT3 的上下文窗口为 2048 个 token,大约相当于 1500 个单词或几页文本。为了给用户提供更大的灵活性和能力,现代 LLM 提供高达 200 万个 token 的上下文窗口,比大多数书籍的篇幅还要长。但这是有代价的,因为键值缓存的内存使用量会随着上下文窗口的大小线性增长,这凸显了内存容量在推理中的重要性。</p><p><strong>AMD CDNA 4 计算和内存分区</strong></p><p>与上一代 AMD Instinct MI300X GPU 一样,AMD Instinct MI350 系列 GPU 可在计算和内存两个维度上进行分区。在计算分区方面,AMD CDNA 4 架构系列与上一代类似,可以沿 XCD 线进行空间分区。对于 AI 训练等较大问题,所有 XCD 可以协同处理单个任务。如下图 6 所示,GPU 还可以划分为两个、四个或八个计算分区,每个分区分别包含四个、两个和一个 XCD,从而为较小任务提供完全隔离。例如,单个处理器可以划分为多达八个实例,以同时为较小的推理模型提供服务。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/56948286e9280836b832938e34e1d719\" tg-width=\"1080\" tg-height=\"1344\"></p><p>AMD CDNA 4 架构的内存分区与上一代相比发生了显著变化,这主要是由于转向了两个 IOD。AMD CDNA 4 架构可以将内存交错分布在所有八个 HBM 堆栈上,跨越两个 IOD,或者将 288GB 内存划分为两个 144GB 的内存池,每个 IOD 一个。第一种配置称为 NPS1(每插槽数字内存),通常更易于应用程序移植,并且对于内存访问模式极其均匀的工作负载非常有效。在 NPS2 模式下,所有内存流量都停留在单个 IOD 及其关联的 XCD 内,从而减少了在两个 IOD 之间跨越 AMD Infinity Fabric 网络的开销,并改善了延迟、带宽和功耗,从而提升了整体性能和效率。比较两代最高效运行模式下的性能,AMD CDNA 4 中的 DPX+NPS2 和 AMD CDNA 3 中的 QPX+NPS4,可以看出 IOD 重新分区带来的显著进步。高效的 AMD CDNA 4 分区拥有 7.7 倍的峰值计算吞吐量、2.25 倍的内存容量和 2.67 倍的内存带宽,能够以卓越的效率应对更具挑战性的问题。</p><p><strong>通信、扩展和系统</strong></p><p>AMD Instinct MI350 系列 GPU 旨在满足两类不同的需求。对于某些客户而言,上一代产品的直接兼容升级是理想之选——它能够快速部署,并保留现有的基础设施和生态系统投资。但其他客户则专注于追求最佳性能和效率,并愿意采用功耗和散热需求更高的处理器和系统。为了满足这双重需求,AMD CDNA 4 架构系列沿用了与上一代产品类似的通信和扩展方法,以实现直接兼容,同时进行渐进式改进,以支持最高性能的系统。</p><p>AMD CDNA 4 架构包含 8 条 AMD Infinity Fabric 链路,这些链路宽度为 16 位,完全双向,用于单个服务器节点内的程序包间通信。在上一代产品中,这些链路分布在四个 IOD 上,并以 32Gbps 的速率运行。 AMD CDNA 4 架构中的 Infinity Fabric 链路运行速度比上一代提升高达 20%,达到 38.4Gbps,单向总链路带宽达到 76.8GB/s,每个重新分区的 IOD 包含四条链路。MI350-007 每个 GPU 可在节点内提供 >1TB/s 的通信带宽,其中一条 Infinity Fabric 链路配置为 PCIe Gen 5,用于连接存储和网络等 I/O 设备。</p><p><strong>AMD Instinct MI350 系列平台:</strong></p><p><strong>8 OAM + AMD UBB 节点示例</strong></p><p>如下图 7 所示,AMD Instinct MI350 系列的系统架构与上一代产品相同,采用全连接 8 GPU 系统。每个 GPU 使用一条 PCIe®Gen 5 链路连接到主机处理器和 I/O 设备;这种拓扑结构可以灵活地处理服务器节点内的所有通信模式。AMD Instinct MI350 系列沿用 OAM 外形规格,提供 1000W 和 1400W 两种功率版本。前者与之前部署的 AMD Instinct MI325X 代设计兼容,而后者仍然兼容,但需要适应更高的功率和散热要求*。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/333430c653f5029a6c623001bb491bcd\" tg-width=\"1080\" tg-height=\"1164\"></p><p>AMD Instinct MI350 系列 GPU 包含两款不同功率级别的产品。AMD Instinct MI350X 是一款 1000W 的风冷 GPU,通过 UBB8 基板部署,该基板与上一代 AMD Instinct MI325X GPU 系统设计兼容,采用 4 机架单元 (RU) 托盘高度。更高功率的 AMD Instinct MI355X GPU 采用 1400W DLC(直接液冷)解决方案,采用 2RU 托盘高度,专为那些继续采用直接液冷技术以实现更高密度和效率的系统构建者和客户而设计。对于更高密度的解决方案,MI355X 还将提供 1OU 解决方案。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/13d2a7cf07025847ec984a5552d2054f\" tg-width=\"1080\" tg-height=\"1049\"></p><p>虽然 AMD Instinct MI350 系列各成员在处理器和服务器层面的原始性能差异相对较小,但直接液冷在机架层面却有着巨大的影响,如上图 8 所示。对于现有的 120kW 或 130kW 54U 机架基础设施,AMD Instinct MI350X 平台 (AC) 可容纳多达 8 台服务器,并提供 0.6 EFLOP/s 的 FP8 稀疏计算能力。AMD Instinct MI355X 平台 (DLC) 在合理配置的 200kW 机架中可容纳 16 台服务器,并在同等占用空间内提供约 118% 的计算能力提升。</p><p><strong>适用于 AMD INSTINCT GPU 的</strong></p><p><strong>AMD ROCm软件堆栈</strong></p><p>软件对于加速计算的成功至关重要——它能够轻松部署和管理,并充分利用底层硬件来运行要求最苛刻的应用程序。AMD 软件战略建立在开源基础之上——AMD ROCm 生态系统,它将开发者、客户和整个社区凝聚在一起。这种开源方法让每个人都能洞察复杂精密的堆栈,并根据自身需求进行检查和调整。该战略已得到一些全球规模最大、要求最高的客户的认可和验证,例如百亿亿次级 El Capitan 和 Frontier 超级计算机。反过来,这种采用推动了良性循环,使生态系统有机会快速成熟并扩大规模。</p><p>AMD Instinct MI350 系列和整体软件战略的指导原则是注重易用性,同时提供定制化服务。从软件的角度来看,这意味着在编译器、数学库和调试器等基础元素之上构建,以提供高级功能并减少大规模摩擦。这使客户能够快速轻松地管理、训练和部署AI系统,并灵活地应对快速变化的环境,同时还能为那些值得进行更大规模投资的企业提供深度优化。</p><p>AMD已采用Kubernetes来编排AI基础架构,使客户能够轻松部署用于大规模训练和推理服务的容器,并以成熟的云或本地企业环境中所期望的安全功能和可靠性进行管理。作为赋能生态系统的一部分,AMD创建了GPU Operator软件包,它通过一套用于节点发现、插件安装、健康检查、故障排除、可观察性等工具增强了Kubernetes。这种云原生方法使AMD能够与生态系统合作伙伴携手,创建一个丰富的容器库,造福整个社区,尤其侧重于生成式AI。</p><p>在训练方面,AMD 与 JAX 和 PyTorch 等领先的框架合作,提供优化的 ROCm 支持。ROCm 生态系统包含适用于分布式训练框架的容器,这些框架对于要求最严苛的生成式 AI 应用至关重要,例如 JAX 的 Maxtext,以及 PyTorch 的 Megatron LM 和 Torchtitan。对于开发流程的后期部分,例如微调和其他类似技术,Torchtune 库也已针对 ROCm 进行了优化。这些框架和工具链已提前进行调整,以充分利用 AMD GPU 的架构特性,尤其是大内存容量或 Flash Attention v3 和滑动窗口注意力等关键技术。此外,AMD 还致力于优化一些最广泛使用的开放模型,例如 <a href=\"https://laohu8.com/S/META\">Meta</a> 的 Llama 系列。</p><p>在推理方面,AMD 与领先的服务框架 vLLM 和 SGLang 合作,创建了高度优化的容器,可随时部署生成式 AI 进行大规模推理,包括为最流行的生成式 AI 模型提供 Day 0 支持。vLLM 被推荐为一款出色的通用解决方案,AMD 通过每两周发布一次稳定版本和每周发布一次开发版本来支持该框架。对于代理工作负载、Deepseek 和其他特定用例,SGLang 是首选方案,并每周发布一次稳定版本。除了服务框架之外,AMD 还优化了 Llama 系列、Gemma 3、Deepseek 和 Qwen 系列等领先模型,并提供 Day 0 支持,以便生态系统能够在不断变化的 AI 格局中轻松采用最新模型。</p><p>对于追求卓越性能的客户,ROCm 生态系统包含丰富的内核级优化工具,包括端到端分析器、预构建且高度优化的内核和运算符,以及对 Triton 语言的广泛支持。</p><p>下表 2 提供了 AMD Instinct MI350 系列 GPU 产品规格和特性。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/ce11d1a9d58662aa22b5d8a6eb86c823\" tg-width=\"1080\" tg-height=\"1240\"></p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/84ae2db3e0f4952f55c226a157a4bd63\" tg-width=\"1080\" tg-height=\"1278\"></p><p><strong>结论</strong></p><p>AMD CDNA 4 架构是第二代百亿亿次级架构,它充分利用了异构集成的优势,并将处理器部署在与 AMD Infinity Fabric 连接的专用芯片组中,从而在 AMD Instinct MI350 系列 GPU 中提供突破性的性能和效率,并具备卓越的可制造性。AMD CDNA 4 架构在上一代架构的基础上,继续采用先进的 3D 封装技术,将 XCD 计算芯片组垂直堆叠在专注于内存和通信的 IOD 芯片组之上,并独立调整每个组件。八个 AMD CDNA 4 XCD 计算芯片组采用最新的制程技术,并添加了新的行业标准低精度数据类型、本地数据共享容量和带宽以及执行资源,从而显著提升了计算吞吐量,尤其适用于生成式 AI。承载内存和通信功能的 IOD 采用与上一代相同的工艺,但被整合为两个芯片组,从而降低了延迟并提升了效率,并通过采用 HBM3E 技术实现了更大的内存容量和带宽。</p><p>AMD Instinct MI350 系列通过这些精心的架构优化,将性能和功能提升到了一个全新的水平。 AMD Instinct MI355X 型号可将现有低精度矩阵数据类型的计算吞吐量提升近一倍,并使用全新行业标准低精度 FP4 或 FP6 数据类型,将峰值性能提升 3.9 倍,为生成式 AI 应用实现超过 10TFLOP/s 的计算吞吐量。MI350-005 同时,这些 GPU 将内存容量提升至 288GB HBM3E,并将内存带宽提升 33% 至 8TB/s,并将通信带宽提升至 1TB/s 以上,以应对规模最大、要求最高的科学或 AI 应用。MI350-002 GPU 的精心重新分区进一步提升了最高效分区模式的功能,峰值计算吞吐量提升 7.7 倍,内存容量提升 2.25 倍,内存带宽提升 2.67 倍。</p><p>从系统和软件角度来看,AMD Instinct MI350 系列不仅易于使用、部署简便,还能提供最大化性能、效率和密度的选项。基础 8 GPU 节点的系统架构在逻辑上与上一代相同,AMD Instinct MI350X UBB8 基板可与现有系统设计直接兼容,从而重复利用现有生态系统投资,并尽可能简化部署。对于追求最高性能和密度的客户,AMD Instinct MI355X GPU 提供直接液冷规格,可在 200kW 机架中容纳多达 128 个 GPU,提供超过 2.5 ExaFLOP/s 的峰值 FP4 计算能力,并具备稀疏性能。</p><p>AMD 对开源 ROCm 生态系统的投入体现了这一理念,在几代对科学计算的卓越支持基础上,为使用 Kubernetes 进行大规模编排提供广泛的开箱即用支持。对于尖端的生成式 AI 工作负载,ROCm 生态系统包含 PyTorch 和 JAX 等框架、Megatron 和 Maxtext 等分布式训练包,以及 vLLM 和 SGLang 等服务框架。AMD 还与领先的 AI 开发者合作,为该生态系统提供最热门的生成式 AI 模型的 Day 0 支持。这些投入共同为客户提供了卓越的开箱即用体验,而丰富的工具链则让开发者能够通过自定义内核和其他优化来追求更高性能。</p><p>AMD CDNA 4 架构的灵活性使 AMD 能够突破 AMD Instinct MI350 系列的性能、功能和效率极限,同时提供便捷的部署和采用,帮助客户尽快释放潜力。这确保客户可以信赖 AMD,以合适的解决方案帮助他们应对从科学计算到生成式 AI 等最严苛的工作负载。</p>","source":"tencent","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>万字解读AMD的CDNA 4 架构</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n万字解读AMD的CDNA 4 架构\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-06-18 09:27 北京时间 <a href=http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20250618093142a4af76d4&s=b><strong>半导体行业观察</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>CDNA 4 是 AMD 最新的面向计算的 GPU 架构,在 CDNA 3 的基础上进行了适度更新。CDNA 4 主要致力于提升 AMD 在低精度数据类型下的矩阵乘法性能。这些运算对于机器学习工作负载至关重要,因为机器学习工作负载通常可以在极低精度类型下保持可接受的准确度。同时,CDNA 4 致力于保持 AMD 在更广泛应用的矢量运算方面的领先地位。为此,CDNA 4 在很大程度上采用了与 ...</p>\n\n<a href=\"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20250618093142a4af76d4&s=b\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"","relate_stocks":{"LU1951200564.SGD":"Natixis Thematics AI & Robotics Fund R/A SGD","BK4573":"虚拟现实","LU0127658192.USD":"EASTSPRING INVESTMENTS GLOBAL TECHNOLOGY \"A\" (USD) ACC","IE0009356076.USD":"JANUS HENDERSON GLOBAL TECHNOLOGY AND INNOVATION \"A2\" (USD) ACC","LU2054465674.USD":"UBS (LUX) KEY SELEC SICAV DIGITAL TRANSFORMATION T \"P\" (USD) ACC","BK4512":"苹果概念","LU1316542783.SGD":"Janus Henderson Horizon Global Technology Leaders A2 SGD","CDNA":"CareDx","LU2098885051.SGD":"JPMorgan Funds - Multi-Manager Alternatives A (acc) SGD","LU1880398471.USD":"AMUNDI FUNDS GLOBAL EQUITY \"A2\" (USD) ACC","LU2458330169.SGD":"FRANKLIN SHARIAH TECHNOLOGY \"A\" (SGD) ACC","LU1880398554.USD":"AMUNDI FUNDS GLOBAL EQUITY \"A2\" (USD) INC","IE0004445239.USD":"JANUS HENDERSON US FORTY \"A2\" (USD) ACC","BK4529":"IDC概念","LU2250418816.HKD":"BGF WORLD TECHNOLOGY \"A\" (HKD) ACC","LU1988902786.USD":"FULLERTON LUX FUNDS GLOBAL ABSOLUTE ALPHA \"I\" (USD) ACC","LU0642271901.SGD":"Janus Henderson Horizon Global Technology Leaders A2 SGD-H","LU0082616367.USD":"摩根大通美国科技A(dist)","LU0823421333.USD":"BNP PARIBAS DISRUPTIVE TECHNOLOGY \"C\" (USD) ACC","LU2360106780.USD":"BGF WORLD TECHNOLOGY \"A4\" (USD) INC","BK4532":"文艺复兴科技持仓","LU0390134368.USD":"FRANKLIN GLOBAL GROWTH \"A\" (USD) ACC","BK4612":"AI芯片","LU0719512351.SGD":"JPMorgan Funds - US Technology A (acc) SGD","LU0056508442.USD":"贝莱德世界科技基金A2","LU0823421416.USD":"BNP PARIBAS DISRUPTIVE TECHNOLOGY \"C\" (USD) INC","BK4554":"元宇宙及AR概念","LU1242518857.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"I\" (USD) ACC","BK4614":"Manus概念股","LU1989764664.SGD":"CPR Invest - Global Disruptive Opportunities A2 Acc SGD-H","BK4534":"瑞士信贷持仓","IE00BMPRXR70.SGD":"Neuberger Berman 5G Connectivity A Acc SGD-H","AMD":"美国超微公司","BK4139":"生物科技","GFS":"GLOBALFOUNDRIES Inc.","IE00BMPRXN33.USD":"NEUBERGER BERMAN 5G CONNECTIVITY \"A\" (USD) ACC","LU0109392836.USD":"富兰克林科技股A","BK4566":"资本集团","LU2264538146.SGD":"Fullerton Lux Funds - Global Absolute Alpha A Acc SGD","LU1242518931.SGD":"Fullerton Lux Funds - Asia Absolute Alpha A Acc SGD","BK4543":"AI","LU0979878070.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"A\" (USD) ACC","BK4588":"碎股","BK4141":"半导体产品","LU1852331112.SGD":"Blackrock World Technology Fund A2 SGD-H","BK4605":"半导体精选","LU0198837287.USD":"UBS (LUX) EQUITY SICAV - USA GROWTH \"P\" (USD) ACC","LU0823434583.USD":"BNP PARIBAS US GROWTH \"C\" (USD) ACC","LU1064131342.USD":"Fullerton Lux Funds - Global Absolute Alpha A Acc USD","LU0823434740.USD":"BNP PARIBAS US GROWTH \"C\" (USD) INC"},"source_url":"http://gu.qq.com/resources/shy/news/detail-v2/index.html#/?id=nesSN20250618093142a4af76d4&s=b","is_english":false,"share_image_url":"https://static.laohu8.com/9a95c1376e76363c1401fee7d3717173","article_id":"2544176649","content_text":"CDNA 4 是 AMD 最新的面向计算的 GPU 架构,在 CDNA 3 的基础上进行了适度更新。CDNA 4 主要致力于提升 AMD 在低精度数据类型下的矩阵乘法性能。这些运算对于机器学习工作负载至关重要,因为机器学习工作负载通常可以在极低精度类型下保持可接受的准确度。同时,CDNA 4 致力于保持 AMD 在更广泛应用的矢量运算方面的领先地位。为此,CDNA 4 在很大程度上采用了与 CDNA 3 相同的系统级架构。它采用大规模芯片组设置,与 AMD 在 CPU 产品中成功运用芯片组的做法类似。加速器计算芯片(XCD)包含 CDNA 计算单元,其作用类似于 AMD CPU 产品上的核心复合芯片 (CCD)。八个 XCD 位于四个基础芯片之上,这些基础芯片实现了 256 MB 的内存侧缓存。AMD 的 Infinity Fabric 技术可在整个系统中提供一致的内存访问,并可跨越多个芯片。与基于 CDNA 3 的 MI300X 相比,搭载 CDNA 4 的 MI355X 略微减少了每个 XCD 的 CU 数量,并禁用了更多 CU 以维持良率。由此产生的 GPU 宽度略小,但更高的时钟速度弥补了大部分差距。与 Nvidia 的 B200 相比,MI355X 和 MI300 都是更大的 GPU,拥有更多基本构建模块。Nvidia 的 B200 确实采用了多芯片策略,打破了长期以来使用单片设计的传统。然而,AMD 的 chiplet 设置更加激进,并试图在具有大型计算 GPU 的 CPU 设计中复制其扩展成功。计算单元变化CDNA 3 的矢量吞吐量优势远超 Nvidia 的 H100,但在机器学习工作负载方面则更为复杂。得益于成熟的软件生态系统以及对矩阵乘法吞吐量(张量核心)的高度关注,Nvidia 通常能够接近名义上规模更大的 MI300X。当然,如果 H100 的显存耗尽,AMD 仍然保持着巨大的优势,但 AMD 肯定还有改进的空间。CDNA 4 重新平衡了其执行单元,使其更专注于低精度数据类型的矩阵乘法,而这正是机器学习工作负载所需的。在许多情况下,每 CU 的矩阵吞吐量翻倍,CDNA 4 CU 在 FP6 中与 Nvidia 的 B200 SM 匹敌。不过,在其他方面,Nvidia 仍然更加注重低精度矩阵吞吐量。在 16 位和 8 位数据类型范围内,B200 SM 的每时钟吞吐量是 CDNA 4 CU 的两倍。AMD 继续依靠拥有更大、更高时钟频率的 GPU 来保持整体吞吐量领先地位。凭借矢量运算和更高精度的数据类型,AMD 延续了 MI300X 的巨大优势。每个 CDNA 4 CU 继续拥有 128 条 FP32 通道,计算 FMA 运算时每周期可提供 256 FLOPS 的计算能力。MI355X 较低的 CU 数量确实导致矢量性能与 MI300X 相比略有下降。但与 Nvidia 的 Blackwell 相比,AMD 更高的核心数量和更高的时钟速度使其在矢量吞吐量方面保持了巨大的领先优势。因此,AMD 的 CDNA 产品线在高性能计算工作负载方面仍然表现不俗。Nvidia 专注于机器学习和矩阵运算,尽管运行频率较低的 SM 数量较少,但 Nvidia 在该领域仍保持着极强的竞争力。AMD 的巨型 GPU MI355X 在许多数据类型上都处于领先地位,但 AMD 与 Nvidia 最强 GPU 之间的差距远不及矢量计算那么大。更大的 LDSGPU 提供了一个软件管理的暂存器,用于本地一组线程(通常是在同一核心上运行的线程)。AMD GPU 使用本地数据共享 (LDS) 来实现此目的。Nvidia 将其类似的结构称为共享内存。CDNA 3 拥有一个 64 KB 的 LDS,延续了 AMD GCN GPU 早在 2012 年就采用的类似设计。该 LDS 拥有 32 个 2 KB 的存储体,每个存储体宽度为 32 位,在没有存储体冲突的情况下,每个周期最多可提供 128 个字节。CDNA 4 将 LDS 容量提升至 160 KB,并将读取带宽翻倍至每时钟 256 字节。GPU 原生运行于 32 位元素,因此可以合理地假设 AMD 通过增加存储体数量来翻倍带宽。如果是这样,那么每个存储体现在可能拥有 2.5 KB 的容量。另一种可能性是将存储体数量增加到 80 个,同时将存储体大小保持在 2 KB,但这不太可能,因为这会使存储体选择变得复杂。64 个存储体的 LDS 自然可以支持 64 位宽的波前访问,每个存储体服务于一个通道。此外,2 的幂次方个存储体数量允许通过地址位子集轻松选择存储体。更大的 LDS 空间允许软件将更多数据保存在靠近执行单元的位置。内核可以分配更多 LDS 容量,而不必担心 LDS 容量限制导致占用率降低。例如,分配 16 KB LDS 的内核可以在 CDNA 3 CU 上运行 4 个工作组。在 CDNA 4 CU 上,这个数字将增加到 10 个工作组。软件必须显式地将数据移入 LDS 才能利用它,与使用硬件管理的缓存相比,这可能会增加开销。CDNA 3 具有 GLOBAL_LOAD_LDS 指令,允许内核将数据复制到 LDS 中,而无需经过向量寄存器文件。CDNA 4 增强了 GLOBAL_LOAD_LDS 指令,使其支持每通道最多 128 位的移动,而 CDNA 3 上每通道仅支持 32 位。也就是说,GLOBAL_LOAD_LDS 指令可以接受 1、2、4、12 或 16 个 DWORDS(32 位元素)的大小,而 CDNA 3 上只能接受 1、2 或 4 个 DWORDS 。CDNA 4 还引入了读取转置 LDS 指令。矩阵乘法涉及将一个矩阵中某一行的元素与另一个矩阵中相应列的元素相乘。这通常会对至少一个矩阵造成低效的内存访问模式,具体取决于数据是按行主序还是列主序排列。转置矩阵可以将笨拙的行列操作转换为更自然的行行操作。对于 AMD 的架构来说,在 LDS 上处理转置也很自然,因为 LDS 已经有一个交叉开关,可以将存储体输出映射到通道(swizzle)。即使 LDS 容量增加了,AMD 的 GPU 核心中的数据存储空间仍然比 Nvidia 要小。Blackwell 的 SM 有一个 256 KB 的存储块,既可用作 L1 缓存,又可用作共享内存。最多可分配 228 KB 用作共享内存。如果分配 164 KB 共享内存,接近 AMD 的 160 KB LDS,Nvidia 仍有 92 KB 可用于 L1 缓存。CDNA 4 与 CDNA 3 一样,每个 CU 都有 32 KB L1 矢量缓存。因此,Blackwell SM 可以拥有更多的软件管理存储,同时仍具有比 CDNA 4 CU 更大的 L1 缓存。当然,AMD 更高的 CU 数量意味着整个 GPU 有 40 MB 的 LDS 容量,而 Nvidia 在 B200 上只有约 33 MB 的共享内存,最大共享内存分配为 228 KB。系统架构为了满足海量计算单元阵列的需求,MI355X 在很大程度上采用了与 MI300X 相同的系统级架构。不过,MI355X 确实有一些增强功能。二级缓存可以“回写脏数据并保留行副本”。“脏”是指已在回写缓存中修改,但尚未传播到内存子系统较低级别的数据。当脏行被清除以腾出空间容纳新数据时,其内容将被写回到下一级缓存;如果是最后一级缓存,则写回到 DRAM。AMD 可能正在寻求在内存子系统负载较低时适时使用写入带宽,以平滑由缓存填充请求和写回操作引起的带宽需求峰值。或者,如果写入的数据可能被系统中的其他线程读取,但预计短期内不会再次被修改,AMD 可能会采取一些特殊措施,让 L2 缓存将一条数据线转换为干净状态。MI355X 的 DRAM 子系统已升级为使用 HBM3E,相比其前代产品,带宽和容量均有显著提升。这也使 AMD 保持了对 Nvidia 竞争对手的领先优势。Nvidia 的 B200 也使用了 HBM3E,后者似乎也拥有八个 HBM3E 堆栈。然而,B200 的最大容量为 180 GB,带宽为 7.7 TB/s,而 MI355X 的最大容量为 288 GB,带宽为 8 TB/s。当 H100 的 DRAM 容量耗尽时,MI300X 可能比 Nvidia 的旧款 H100 拥有显著优势,而 AMD 很可能希望保持这一优势。HBM3E 带来的更高带宽也有助于提升 MI355X 的计算带宽比。MI300X 每 FP32 FLOP 的 DRAM 带宽约为 0.03 字节,而 MI355X 则提升至 0.05 字节。相比之下,Blackwell 每 FP32 FLOP 的 DRAM 带宽约为 0.10 字节。虽然 Nvidia 增加了 Blackwell 的末级缓存容量,但 AMD 仍然更依赖大缓存,而 Nvidia 则更依赖 DRAM 带宽。最后的话CDNA 2 和 CDNA 3 与前代产品相比进行了彻底的改变。CDNA 4 的变化则更为平淡。与从 Zen 3 到 Zen 4 类似,MI355X 保留了类似的芯片组排列,但计算和 IO 芯片组被替换为改进版本。AMD 并没有改变其总体战略,而是专注于优化 CDNA 3。更少、更高时钟频率的计算单元更易于利用,而更高的内存带宽也有助于提高利用率。更高的矩阵乘法吞吐量也有助于 AMD 在机器学习工作负载方面与 Nvidia 展开竞争。在某些方面,AMD 在这一代 GPU 上的做法与 Nvidia 颇为相似。从矢量执行的角度来看,Blackwell SM 与 Hopper 基本相同,改进主要集中在矩阵方面。Nvidia 可能认为他们找到了制胜法宝,因为他们过去几代 GPU 无疑都取得了成功。AMD 的 CDNA 3 或许也找到了制胜法宝。MI300A 是 MI300X 的 iGPU 兄弟,它为 TOP500 六月榜单中排名最高的超级计算机提供动力。4在成功的基础上继续发展可能是一种安全且回报丰厚的策略,而 CDNA 4 或许正是如此。AMD CDNA 4 架构深度解读GPU 和加速计算彻底改变了数据中心的格局。加速计算最初在科学界被广泛接受,用于补充现有的通用 CPU,以应对地震分析和分子动力学等特定工作负载。在此基础上,加速器不断发展,支持越来越通用的编程语言(例如 C++ 和 Python)以及更多样化的应用。机器学习(尤其是在计算机视觉领域)很早就利用了新的加速器,并催生了深度学习领域,该领域明确依赖 GPU 等加速器来训练和部署神经网络。在经典科学计算和新兴机器学习及人工智能工作负载之间,GPU 的设计日益注重规模化运行,为全球最大的超级计算机提供动力。基于 Transformer 的神经网络的发现拓展了 GPU 的视野,并最终推动了生成式人工智能的爆炸式增长。生成式人工智能是迄今为止要求最高的应用领域之一,其应用范围远远超出了科学计算,涵盖了消费者和企业用户。对计算能力和效率的需求如此巨大,以至于架构师不得不竭尽全力,不断重新审视计算领域的基本假设。最初,加速器采用了新的内存模型,但保留了熟悉的数据类型。现在,浮点数值表示法与新算法一起不断发展,以降低精度,从而提高性能、内存占用和能效。与此同时,GPU 在集成度方面也不断突破极限——首先采用先进的封装技术将 HBM 与加速器紧密耦合,现在则使用更先进的封装技术,摆脱单片硅片实现。AMD 一直走在这场革命的前沿,为 GPU 开发新颖的软件和系统架构,以实现更强大的性能和功能。在软件方面,AMD CDNA 2 架构通过缓存一致性统一了 CPU 和 GPU 计算,为软件生态系统释放了新的应用和机遇。 AMD CDNA 3 架构彻底改变了加速器的构建方式,采用先进的封装技术,实现了异构集成,并将处理器重新划分到十几个不同的芯片组上。如下图 1 所示,AMD CDNA 4 架构建立在先前 3D 封装技术的基础上,并在异构封装中重新平衡了处理器的元素。每个 AMD Instinct MI350 系列 GPU 集成了 8 个垂直堆叠的加速器复合芯片 (XCD) 和 2 个包含系统基础架构的 I/O 芯片 (IOD),并与 AMD 的 AMD Infinity Fabric 封装技术紧密相连,并连接到 8 个 12-Hi 高带宽内存堆栈 (HBM3E)。XCD 结合了最新的制程技术并支持新的降低精度数据类型,从而提升了 AI 的吞吐量和效率,而重新划分的 IOD 则有助于改善通信和内存流量的延迟和效率。外部方面,AMD Instinct MI350系列产品采用Infinity Fabric技术,在单个节点上直接连接8个GPU。这种设计提供了多功能性,可快速开发和部署基于 AMD CDNA 4 架构的产品系列,以满足客户多样化的需求——兼顾易用性和极致性能。AMD Instinct MI350 系列包含风冷 (AC) Instinct MI350X GPU,其 1000W 功率采用 OCP UBB8 基板,该基板旨在与上一代 AMD Instinct™ MI325X 平台和系统直接兼容,从而快速部署到现有生态系统中并快速实现价值。为了在无与伦比的密度下实现更高的性能和效率,AMD Instinct MI355X GPU (1400W) 提供直接液冷 (DLC) 平台,同样采用 UBB8 基板,适用于支持更高功率和冷却能力的基础设施。与上一代 AMD Instinct MI325X GPU 相比,AMD Instinct MI355X GPU 将现有机器学习专用 16 位和 8 位矩阵数据类型的峰值吞吐量几乎提高了一倍,并引入了对其他低精度数值格式的支持,将 FP6/FP4 的 10TFLOP/s 理论峰值与 MI325X 的 FP8 的 2.61 PFLOPS 理论峰值性能相比,性能提高了 3.85 倍。MI350-005 MI355X 还将内存容量提升至 288GB HBM3E,带宽高达 8TB/s,通信带宽超过 1TB/s。 CDNA 4 架构旨在与开源驱动的 ROCm 软件生态系统协同工作,并通过 Kubernetes® 提供卓越的开箱即用科学计算和企业编排功能,并支持领先的 AI 训练和推理堆栈以及对流行生成式 AI 模型的 Day 0 支持。Chiplet架构AMD CDNA 3 架构是一次范式转变——它采用了基于芯片组(chiplet-based)的现代方法,充分利用了异构集成技术,并将众多专用芯片组与 Infinity Fabric 架构整合到一个高度优化的计算平台中。与过去几十年占据主导地位的单片架构相比,这是对芯片设计和架构的一次根本性反思,有望为未来数代产品带来性能和可扩展性。CDNA 4 架构继承了这一革命性基础,并通过精心优化每个组件来提供最佳性能、效率和可制造性,充分展现了这种灵活策略的优势。八个计算芯片组(XCD)受益于最新的制程工艺,并采用台积电 (TSMC) 尖端的 N3P 制程技术实现,其芯片尺寸和占位面积与上一代产品相似,以实现最佳性能和效率。 IOD 中的内存和通信功能主要由大型 AMD Infinity Cache和互连芯片承担,而这些芯片无法有效扩展,无法充分利用最新工艺技术提供的性能。利用异构架构中的独立扩展功能,这些功能保留在台积电高效且经济实惠的 N6 工艺上,但重新平衡了两个大型 IOD(而非四个)的部署,从而优化了性能和能效,同时保持了有利的可制造性。AMD CDNA 4 计算AMD CDNA 4 架构凸显了基于 Chiplet 的异构计算平台构建方法的一大优势——每个 Chiplet 都可以使用合适的制程技术,从而实现更高效的演进。加速器复合芯片 (XCD) 包含处理器的计算部分以及对性能最为敏感的缓存层级的最低层。AMD CDNA 4 XCD 采用台积电最新的 N3P 制程技术,充分利用了相比上一代 N5 制程更高的逻辑密度和性能。如图 2 所示,AMD CDNA 4 架构重新平衡了 XCD,通过提升每个计算单元 (CU) 的功能来提升性能,尤其适用于要求最苛刻的 AI 工作负载——实现对新数据类型的硬件支持,并显著提高矢量和矩阵工作负载的计算吞吐量和效率,如下表 1 所示。AMD CDNA 4 XCD 中的 CU 数量与上一代相比略有减少,但每个 CU 通过一系列新功能的组合变得更加强大。因此,调度程序、硬件队列和将计算着色器工作组发送到计算单元 (CU) 的异步计算引擎 (ACE) 等全局资源仅需进行少量增强。每个 XCD 包含 36 个 AMD CDNA 4 计算单元,这些计算单元被组织成四个阵列,每个阵列包含 9 个 CU,其中 32 个处于活动状态,剩下 4 个可能处于禁用状态,以实现高产量和高效的工作频率。与上一代产品一样,L2 缓存会将 XCD 中的所有流量合并,然后散布到连接系统其余部分的 Infinity Fabric 架构。该处理器跨越 8 个 XCD,最多可支持 256 个计算单元——略少于上一代产品,但在某些情况下,与 AMD Instinct MI300 系列 GPU 相比,计算吞吐量翻了一番。AMD CNDA 4 计算单元架构如下图 3 所示,AMD CDNA 4 架构计算单元 (CU) 实例化了完整的处理器流水线,能够高度线程化地并行执行标量、矢量和矩阵指令以及数据类型,并拥有包含 L1 数据缓存和显式寻址本地数据共享的内存流水线。AMD CDNA 4 CU 相较于上一代产品略有增强,增强了内存层次结构,并着重于采用新的低精度数值格式,并提升了对机器学习应用至关重要的矢量和矩阵吞吐量,最高可达 3.9 倍 (FP4/FP8)。由于大多数工作负载将跨越多个计算单元 (CU),因此两个相邻的计算单元共享 64KB、8 路组相联指令缓存,从而有效利用缓存和区域。AMD CDNA 4 CU 中,矩阵核心是本世代性能提升中最重要的部分,这些核心专注于 AI 和机器学习,不仅增加了对新标准化数值格式的硬件支持,也增加了现有数据类型的原始计算资源。低精度数值格式是提升 AI 性能最有效、最强大的技术之一。较小的数据类型可以提高计算吞吐量,从而更有效地利用有限的数据路径——本质上,在功耗略有提升的情况下,显著提升了计算能力。此外,较小的数据也能更好地利用整个处理器的宝贵资源,例如内存或缓存带宽和容量,通常能够显著提高能效。在机器学习的早期,单精度浮点 (FP32) 数据很常见,但在过去十年中,人工智能社区采用了 FP16、BF16、INT8 和 FP8 格式来提升性能和效率。这些更紧凑的浮点格式用更少的位数表示张量中的每个数据元素,并为每个张量添加了一个缩放因子,以捕获完整的动态范围并避免下溢和上溢。AMD CDNA 3 计算单元引入了对 OCP 8 位浮点规范中描述的两种 FP8 数据类型变体的支持:一种是用于训练的 2 位尾数和 5 位指数 (E5M2),另一种是用于推理的 3 位尾数和 4 位指数 (E4M3)。最近,业界围绕 OCP MX 标准中体现的微缩放概念展开了联合,将降低的精度提升到了一个新的水平。微缩放背后的核心概念是让硬件支持一个在张量内的数据元素块(通常为 32 个)之间共享的比例因子,而不是整个张量只使用一个比例因子。与传统的 FP8 相比,微缩放的 MXFP8 格式具有更细的粒度,这使得在 AI 工作负载中,可以在更广泛的张量上使用精度更低的格式。此外,微缩放还为更高的压缩率开辟了道路,并引入了诸如 MXFP6(包含 E3M2 和 E2M3 变体)和 MXFP4(指定 E2M1)等格式。下图 4 显示了最新 AMD CDNA 4 架构支持的部分数值数据格式。AMD CDNA 4 架构最显著的改进之一在于矩阵核心。顺应行业降低精度的趋势,AMD CDNA 4 计算单元 (CU) 引入了对行业标准微扩展格式(包括 MXFP8、MXFP6 和 MXFP4)的指令和硬件支持。此外,N3P 工艺提供的额外资源用于将 16 位及更小紧凑数据类型的执行资源增加一倍,如下表 1 所示。这两项改进的结合意味着每个 CU 在单个周期内可执行的运算数量几乎增加了四倍,如下图所示,与上一代 (FP4/FP8) 相比,机器学习能力大幅提升。上一代产品完全硬件支持专有的 TF32 数字格式。经过与客户和生态系统的广泛讨论,该格式已从硬件中移除,并通过使用 BF16 数据类型的软件仿真来支持。最终结果是,对于低精度 AI 数值数据格式,AMD CDNA 4 架构的计算吞吐量翻了一番,同时大多数模型的精度保持不变。矩阵核心的增强功能提升了人工智能工作负载中常见的矩阵运算的计算吞吐量——这对于构成现代大型语言模型 (LLM) 基础的 Transformer 尤为重要。人工智能应用通常将矩阵运算的输出馈送到向量激活运算。对于卷积神经网络,通常使用修正线性单元 (ReLU);而在基于 Transformer 的网络中,softmax 是最常见的激活函数。为了与矩阵核心的大幅提升保持一致,超越率也提升了 2 倍,以辅助注意力加速,从而确保均衡的性能曲线。最后,AMD CDNA 4 计算单元还引入了多种数据转换指令,以确保新格式的易用性。虽然矩阵核心的设计备受关注,但 AMD CDNA 4 架构中的内存层次结构也得到了增强,尤其注重本地数据共享 (LDS) 以及针对基于 Transformer 的神经网络的优化。 AMD CDNA 3 架构及前几代架构中的逻辑数据结构 (LDS) 采用直接寻址结构,包含 32 个存储体,每个存储体包含 512 个 32 位数据条目,总计 64KB 数据。每个存储体可以读写 32 位值,LDS 集成了冲突检测和调度逻辑、复杂的交叉开关和混合单元以及原子执行单元。AMD CDNA 4 架构中的 LDS 大小为 160KB,通过增加存储体数量,容量增加了一倍以上,读取带宽也翻倍至每时钟 256 字节。由于数据复用程度较高,额外的容量和带宽对于提高计算单元 (CU) 中用于矩阵乘法例程的矢量和矩阵执行资源的利用率至关重要。AMD CDNA 4 LDS 也比之前的设计更高效,支持直接从一级数据缓存加载数据,从而减少矢量寄存器的使用和延迟。这两项 LDS 优化对于矩阵乘法尤其重要,而矩阵乘法是现代基于 Transformer 的神经网络的支柱。每个 AMD CDNA 4 计算单元 (CU) 中的 L1 矢量数据缓存与上一代基本相同,拥有 128B 缓存行和 32KB 容量,并支持 64 路组相联。此外,还有一个共享的 4MB、16 路组相联 L2 缓存,为 XCD 中的所有计算单元 (CU) 提供服务。L2 缓存拥有 16 个并行通道,每个通道每个周期能够执行完整的 128B 缓存行读取和 64B 写入操作。完全一致的 L2 缓存旨在通过写回和写入分配策略,减少从 XCD 溢出并跨越 Infinity Fabric 到达系统其他部分的流量。AMD CDNA 4 架构中的 L2 缓存还进行了一些额外的一致性优化。它现在可以缓存来自 DRAM 的非相干数据,并且可以写回脏数据并保留该行的副本。AMD CDNA 4 架构内存AMD CDNA 4 架构的内存层级始于计算单元 (CU),二级缓存 (L2) 充当整个 XCD 通往连接处理器的 AMD Infinity Fabric 网络的网关。内存层级的共享部分(包括 AMD Infinity Cache™ 和内存控制器)位于垂直堆叠在 XCD 下方的 IOD 中。AMD CDNA 3 架构中引入的基于芯片组的异构方法使得每个芯片组的硅片实现能够独立演进,从而最大限度地提高性能,同时提供卓越的可制造性。在 AMD CDNA 4 架构中,XCD 利用最新制程技术的密度来提升处理器的计算性能,这很容易证明增加的成本是合理的。然而,IOD 主要包含诸如 SRAM 和 I/O 之类的组件,这些组件无法从更先进的制程中获益,也无法证明其成本是合理的。IOD 采用台积电 N6 工艺实现。如上图 5 所示,AMD CDNA 4 架构采用两个较大的 IOD 并直接连接,而非上一代的四个较小的 IOD。这简化了封装内的 Infinity Fabric 网络,从而降低了许多通信模式的延迟并降低了功耗,从而为处理器的其他部分释放了更多空间。IOD 之间更简单的直接连接比 AMD CDNA 3 架构的速度提高了约 14%,从而提升了许多通信模式的性能。AMD CDNA 4 架构中的 Infinity Cache 在组织结构上基本保持不变。它仍然充当一个共享的 256MB、16 路组相联内存端缓存,并扇出 8 个内存堆栈。对于每个堆栈,Infinity Cache 包含 16 个 64 字节宽的并行通道,以实现高带宽,并与 2MB 的存储数据阵列绑定。AMD CDNA 4 架构中的两个 IOD 均包含四个显著增强的内存控制器。HBM3E 内存接口的运行速度为 8 Gbps,比 AMD Instinct MI325X 快 33% 以上,并提供惊人的 8TB/s 峰值理论内存带宽。MI350-002 同样至关重要的是,每个堆栈的内存容量已提升至 36GB,单个处理器最高可达 288GB,从而满足了 AI 训练和推理领域日益增长的内存需求。在过去几年中,尖端大型语言模型的参数数量呈爆炸式增长。 2020年年中,OpenAI 首次发布了 GPT3,其参数数量高达 1750 亿,然而到 2024 年底,研究人员已经在尝试使用一万亿甚至更多的参数。在参数数量不断增长的时代,提升内存容量可以为训练高级模型的研究人员释放更多创新和能力。内存容量对于推理也至关重要。LLM 的上下文窗口决定了模型可以处理的输入量,并直接影响用户体验。GPT3 的上下文窗口为 2048 个 token,大约相当于 1500 个单词或几页文本。为了给用户提供更大的灵活性和能力,现代 LLM 提供高达 200 万个 token 的上下文窗口,比大多数书籍的篇幅还要长。但这是有代价的,因为键值缓存的内存使用量会随着上下文窗口的大小线性增长,这凸显了内存容量在推理中的重要性。AMD CDNA 4 计算和内存分区与上一代 AMD Instinct MI300X GPU 一样,AMD Instinct MI350 系列 GPU 可在计算和内存两个维度上进行分区。在计算分区方面,AMD CDNA 4 架构系列与上一代类似,可以沿 XCD 线进行空间分区。对于 AI 训练等较大问题,所有 XCD 可以协同处理单个任务。如下图 6 所示,GPU 还可以划分为两个、四个或八个计算分区,每个分区分别包含四个、两个和一个 XCD,从而为较小任务提供完全隔离。例如,单个处理器可以划分为多达八个实例,以同时为较小的推理模型提供服务。AMD CDNA 4 架构的内存分区与上一代相比发生了显著变化,这主要是由于转向了两个 IOD。AMD CDNA 4 架构可以将内存交错分布在所有八个 HBM 堆栈上,跨越两个 IOD,或者将 288GB 内存划分为两个 144GB 的内存池,每个 IOD 一个。第一种配置称为 NPS1(每插槽数字内存),通常更易于应用程序移植,并且对于内存访问模式极其均匀的工作负载非常有效。在 NPS2 模式下,所有内存流量都停留在单个 IOD 及其关联的 XCD 内,从而减少了在两个 IOD 之间跨越 AMD Infinity Fabric 网络的开销,并改善了延迟、带宽和功耗,从而提升了整体性能和效率。比较两代最高效运行模式下的性能,AMD CDNA 4 中的 DPX+NPS2 和 AMD CDNA 3 中的 QPX+NPS4,可以看出 IOD 重新分区带来的显著进步。高效的 AMD CDNA 4 分区拥有 7.7 倍的峰值计算吞吐量、2.25 倍的内存容量和 2.67 倍的内存带宽,能够以卓越的效率应对更具挑战性的问题。通信、扩展和系统AMD Instinct MI350 系列 GPU 旨在满足两类不同的需求。对于某些客户而言,上一代产品的直接兼容升级是理想之选——它能够快速部署,并保留现有的基础设施和生态系统投资。但其他客户则专注于追求最佳性能和效率,并愿意采用功耗和散热需求更高的处理器和系统。为了满足这双重需求,AMD CDNA 4 架构系列沿用了与上一代产品类似的通信和扩展方法,以实现直接兼容,同时进行渐进式改进,以支持最高性能的系统。AMD CDNA 4 架构包含 8 条 AMD Infinity Fabric 链路,这些链路宽度为 16 位,完全双向,用于单个服务器节点内的程序包间通信。在上一代产品中,这些链路分布在四个 IOD 上,并以 32Gbps 的速率运行。 AMD CDNA 4 架构中的 Infinity Fabric 链路运行速度比上一代提升高达 20%,达到 38.4Gbps,单向总链路带宽达到 76.8GB/s,每个重新分区的 IOD 包含四条链路。MI350-007 每个 GPU 可在节点内提供 >1TB/s 的通信带宽,其中一条 Infinity Fabric 链路配置为 PCIe Gen 5,用于连接存储和网络等 I/O 设备。AMD Instinct MI350 系列平台:8 OAM + AMD UBB 节点示例如下图 7 所示,AMD Instinct MI350 系列的系统架构与上一代产品相同,采用全连接 8 GPU 系统。每个 GPU 使用一条 PCIe®Gen 5 链路连接到主机处理器和 I/O 设备;这种拓扑结构可以灵活地处理服务器节点内的所有通信模式。AMD Instinct MI350 系列沿用 OAM 外形规格,提供 1000W 和 1400W 两种功率版本。前者与之前部署的 AMD Instinct MI325X 代设计兼容,而后者仍然兼容,但需要适应更高的功率和散热要求*。AMD Instinct MI350 系列 GPU 包含两款不同功率级别的产品。AMD Instinct MI350X 是一款 1000W 的风冷 GPU,通过 UBB8 基板部署,该基板与上一代 AMD Instinct MI325X GPU 系统设计兼容,采用 4 机架单元 (RU) 托盘高度。更高功率的 AMD Instinct MI355X GPU 采用 1400W DLC(直接液冷)解决方案,采用 2RU 托盘高度,专为那些继续采用直接液冷技术以实现更高密度和效率的系统构建者和客户而设计。对于更高密度的解决方案,MI355X 还将提供 1OU 解决方案。虽然 AMD Instinct MI350 系列各成员在处理器和服务器层面的原始性能差异相对较小,但直接液冷在机架层面却有着巨大的影响,如上图 8 所示。对于现有的 120kW 或 130kW 54U 机架基础设施,AMD Instinct MI350X 平台 (AC) 可容纳多达 8 台服务器,并提供 0.6 EFLOP/s 的 FP8 稀疏计算能力。AMD Instinct MI355X 平台 (DLC) 在合理配置的 200kW 机架中可容纳 16 台服务器,并在同等占用空间内提供约 118% 的计算能力提升。适用于 AMD INSTINCT GPU 的AMD ROCm软件堆栈软件对于加速计算的成功至关重要——它能够轻松部署和管理,并充分利用底层硬件来运行要求最苛刻的应用程序。AMD 软件战略建立在开源基础之上——AMD ROCm 生态系统,它将开发者、客户和整个社区凝聚在一起。这种开源方法让每个人都能洞察复杂精密的堆栈,并根据自身需求进行检查和调整。该战略已得到一些全球规模最大、要求最高的客户的认可和验证,例如百亿亿次级 El Capitan 和 Frontier 超级计算机。反过来,这种采用推动了良性循环,使生态系统有机会快速成熟并扩大规模。AMD Instinct MI350 系列和整体软件战略的指导原则是注重易用性,同时提供定制化服务。从软件的角度来看,这意味着在编译器、数学库和调试器等基础元素之上构建,以提供高级功能并减少大规模摩擦。这使客户能够快速轻松地管理、训练和部署AI系统,并灵活地应对快速变化的环境,同时还能为那些值得进行更大规模投资的企业提供深度优化。AMD已采用Kubernetes来编排AI基础架构,使客户能够轻松部署用于大规模训练和推理服务的容器,并以成熟的云或本地企业环境中所期望的安全功能和可靠性进行管理。作为赋能生态系统的一部分,AMD创建了GPU Operator软件包,它通过一套用于节点发现、插件安装、健康检查、故障排除、可观察性等工具增强了Kubernetes。这种云原生方法使AMD能够与生态系统合作伙伴携手,创建一个丰富的容器库,造福整个社区,尤其侧重于生成式AI。在训练方面,AMD 与 JAX 和 PyTorch 等领先的框架合作,提供优化的 ROCm 支持。ROCm 生态系统包含适用于分布式训练框架的容器,这些框架对于要求最严苛的生成式 AI 应用至关重要,例如 JAX 的 Maxtext,以及 PyTorch 的 Megatron LM 和 Torchtitan。对于开发流程的后期部分,例如微调和其他类似技术,Torchtune 库也已针对 ROCm 进行了优化。这些框架和工具链已提前进行调整,以充分利用 AMD GPU 的架构特性,尤其是大内存容量或 Flash Attention v3 和滑动窗口注意力等关键技术。此外,AMD 还致力于优化一些最广泛使用的开放模型,例如 Meta 的 Llama 系列。在推理方面,AMD 与领先的服务框架 vLLM 和 SGLang 合作,创建了高度优化的容器,可随时部署生成式 AI 进行大规模推理,包括为最流行的生成式 AI 模型提供 Day 0 支持。vLLM 被推荐为一款出色的通用解决方案,AMD 通过每两周发布一次稳定版本和每周发布一次开发版本来支持该框架。对于代理工作负载、Deepseek 和其他特定用例,SGLang 是首选方案,并每周发布一次稳定版本。除了服务框架之外,AMD 还优化了 Llama 系列、Gemma 3、Deepseek 和 Qwen 系列等领先模型,并提供 Day 0 支持,以便生态系统能够在不断变化的 AI 格局中轻松采用最新模型。对于追求卓越性能的客户,ROCm 生态系统包含丰富的内核级优化工具,包括端到端分析器、预构建且高度优化的内核和运算符,以及对 Triton 语言的广泛支持。下表 2 提供了 AMD Instinct MI350 系列 GPU 产品规格和特性。结论AMD CDNA 4 架构是第二代百亿亿次级架构,它充分利用了异构集成的优势,并将处理器部署在与 AMD Infinity Fabric 连接的专用芯片组中,从而在 AMD Instinct MI350 系列 GPU 中提供突破性的性能和效率,并具备卓越的可制造性。AMD CDNA 4 架构在上一代架构的基础上,继续采用先进的 3D 封装技术,将 XCD 计算芯片组垂直堆叠在专注于内存和通信的 IOD 芯片组之上,并独立调整每个组件。八个 AMD CDNA 4 XCD 计算芯片组采用最新的制程技术,并添加了新的行业标准低精度数据类型、本地数据共享容量和带宽以及执行资源,从而显著提升了计算吞吐量,尤其适用于生成式 AI。承载内存和通信功能的 IOD 采用与上一代相同的工艺,但被整合为两个芯片组,从而降低了延迟并提升了效率,并通过采用 HBM3E 技术实现了更大的内存容量和带宽。AMD Instinct MI350 系列通过这些精心的架构优化,将性能和功能提升到了一个全新的水平。 AMD Instinct MI355X 型号可将现有低精度矩阵数据类型的计算吞吐量提升近一倍,并使用全新行业标准低精度 FP4 或 FP6 数据类型,将峰值性能提升 3.9 倍,为生成式 AI 应用实现超过 10TFLOP/s 的计算吞吐量。MI350-005 同时,这些 GPU 将内存容量提升至 288GB HBM3E,并将内存带宽提升 33% 至 8TB/s,并将通信带宽提升至 1TB/s 以上,以应对规模最大、要求最高的科学或 AI 应用。MI350-002 GPU 的精心重新分区进一步提升了最高效分区模式的功能,峰值计算吞吐量提升 7.7 倍,内存容量提升 2.25 倍,内存带宽提升 2.67 倍。从系统和软件角度来看,AMD Instinct MI350 系列不仅易于使用、部署简便,还能提供最大化性能、效率和密度的选项。基础 8 GPU 节点的系统架构在逻辑上与上一代相同,AMD Instinct MI350X UBB8 基板可与现有系统设计直接兼容,从而重复利用现有生态系统投资,并尽可能简化部署。对于追求最高性能和密度的客户,AMD Instinct MI355X GPU 提供直接液冷规格,可在 200kW 机架中容纳多达 128 个 GPU,提供超过 2.5 ExaFLOP/s 的峰值 FP4 计算能力,并具备稀疏性能。AMD 对开源 ROCm 生态系统的投入体现了这一理念,在几代对科学计算的卓越支持基础上,为使用 Kubernetes 进行大规模编排提供广泛的开箱即用支持。对于尖端的生成式 AI 工作负载,ROCm 生态系统包含 PyTorch 和 JAX 等框架、Megatron 和 Maxtext 等分布式训练包,以及 vLLM 和 SGLang 等服务框架。AMD 还与领先的 AI 开发者合作,为该生态系统提供最热门的生成式 AI 模型的 Day 0 支持。这些投入共同为客户提供了卓越的开箱即用体验,而丰富的工具链则让开发者能够通过自定义内核和其他优化来追求更高性能。AMD CDNA 4 架构的灵活性使 AMD 能够突破 AMD Instinct MI350 系列的性能、功能和效率极限,同时提供便捷的部署和采用,帮助客户尽快释放潜力。这确保客户可以信赖 AMD,以合适的解决方案帮助他们应对从科学计算到生成式 AI 等最严苛的工作负载。","news_type":1,"symbols_score_info":{"AMD":1,"CDNA":1,"GFS":1}},"isVote":1,"tweetType":1,"viewCount":20,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":447002628719056,"gmtCreate":1750152900908,"gmtModify":1750152902079,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>房子已经压上去了 给我冲 上200","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>房子已经压上去了 给我冲 上200","text":"$美国超微公司(AMD)$ 房子已经压上去了 给我冲 上200","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/447002628719056","isVote":1,"tweetType":1,"viewCount":128,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":446287685365816,"gmtCreate":1749963306495,"gmtModify":1749963307671,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/.IXIC\">$纳斯达克(.IXIC)$ </a><v-v data-views=\"1\"></v-v> 伊朗和以色列开战 美国阅兵 下周一定暴涨","listText":"<a href=\"https://laohu8.com/S/.IXIC\">$纳斯达克(.IXIC)$ </a><v-v data-views=\"1\"></v-v> 伊朗和以色列开战 美国阅兵 下周一定暴涨","text":"$纳斯达克(.IXIC)$ 伊朗和以色列开战 美国阅兵 下周一定暴涨","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/446287685365816","isVote":1,"tweetType":1,"viewCount":218,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":445856496050816,"gmtCreate":1749857549193,"gmtModify":1749864740448,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"哈哈哈 你做生意间接性把我杀了别人还敢跟你合作吗","listText":"哈哈哈 你做生意间接性把我杀了别人还敢跟你合作吗","text":"哈哈哈 你做生意间接性把我杀了别人还敢跟你合作吗","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/445856496050816","isVote":1,"tweetType":1,"viewCount":162,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":445855727423952,"gmtCreate":1749857338448,"gmtModify":1749864741226,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"波音肯定有问题 高管都喊话不敢坐自家飞机 只不过波音是军方背景资本比较雄厚","listText":"波音肯定有问题 高管都喊话不敢坐自家飞机 只不过波音是军方背景资本比较雄厚","text":"波音肯定有问题 高管都喊话不敢坐自家飞机 只不过波音是军方背景资本比较雄厚","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/445855727423952","isVote":1,"tweetType":1,"viewCount":120,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":445232647774216,"gmtCreate":1749720675128,"gmtModify":1749727595643,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a>这次不到100 是回不来了","listText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a>这次不到100 是回不来了","text":"$波音(BA)$ 这次不到100 是回不来了","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/445232647774216","isVote":1,"tweetType":1,"viewCount":157,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":445232355881776,"gmtCreate":1749720572155,"gmtModify":1749727595680,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a>787都能坠毁 这个公司的王牌产品 基本宣告波音废了","listText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a>787都能坠毁 这个公司的王牌产品 基本宣告波音废了","text":"$波音(BA)$ 787都能坠毁 这个公司的王牌产品 基本宣告波音废了","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":4,"repostSize":0,"link":"https://laohu8.com/post/445232355881776","isVote":1,"tweetType":1,"viewCount":2053,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3472532348212000","authorId":"3472532348212000","name":"chenx32401","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":4,"crmLevelSwitch":0,"authorIdStr":"3472532348212000","idStr":"3472532348212000"},"content":"别那么外行 还没查清原因","text":"别那么外行 还没查清原因","html":"别那么外行 还没查清原因"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":445230791598248,"gmtCreate":1749720504907,"gmtModify":1749721722986,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a>狠狠的空它 这个公司真实草菅人命啊","listText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a>狠狠的空它 这个公司真实草菅人命啊","text":"$波音(BA)$ 狠狠的空它 这个公司真实草菅人命啊","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/445230791598248","isVote":1,"tweetType":1,"viewCount":87,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":444244067160376,"gmtCreate":1749479454380,"gmtModify":1749479455515,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>终于起来了 压上房子","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>终于起来了 压上房子","text":"$美国超微公司(AMD)$ 终于起来了 压上房子","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/444244067160376","isVote":1,"tweetType":1,"viewCount":270,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442861907694456,"gmtCreate":1749143385958,"gmtModify":1749143387070,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$ </a>老马真惨 非得去和政治家一起玩 完了没有利用价值就一脚踢开 还被被刺一刀","listText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$ </a>老马真惨 非得去和政治家一起玩 完了没有利用价值就一脚踢开 还被被刺一刀","text":"$特斯拉(TSLA)$ 老马真惨 非得去和政治家一起玩 完了没有利用价值就一脚踢开 还被被刺一刀","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442861907694456","isVote":1,"tweetType":1,"viewCount":294,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442859962471168,"gmtCreate":1749142463127,"gmtModify":1749144744913,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>不是涨回去了吗 怎么又跌了 快让马斯克做总统 这**川普","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>不是涨回去了吗 怎么又跌了 快让马斯克做总统 这**川普","text":"$美国超微公司(AMD)$ 不是涨回去了吗 怎么又跌了 快让马斯克做总统 这**川普","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442859962471168","isVote":1,"tweetType":1,"viewCount":258,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442858891231552,"gmtCreate":1749142048089,"gmtModify":1749142049125,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/CRCL\">$Circle Internet Corp.(CRCL)$ </a>看到1000 估计要和美债一个价","listText":"<a href=\"https://laohu8.com/S/CRCL\">$Circle Internet Corp.(CRCL)$ </a>看到1000 估计要和美债一个价","text":"$Circle Internet Corp.(CRCL)$ 看到1000 估计要和美债一个价","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442858891231552","isVote":1,"tweetType":1,"viewCount":420,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442833046098464,"gmtCreate":1749135740351,"gmtModify":1749135741561,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/CRCL\">$Circle Internet Corp.(CRCL)$ </a>啥情况","listText":"<a href=\"https://laohu8.com/S/CRCL\">$Circle Internet Corp.(CRCL)$ </a>啥情况","text":"$Circle Internet Corp.(CRCL)$ 啥情况","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442833046098464","isVote":1,"tweetType":1,"viewCount":459,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442809867206784,"gmtCreate":1749130737571,"gmtModify":1749130738636,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/CRCL\">$Circle Internet Corp.(CRCL)$ </a>啥时候开盘啊","listText":"<a href=\"https://laohu8.com/S/CRCL\">$Circle Internet Corp.(CRCL)$ </a>啥时候开盘啊","text":"$Circle Internet Corp.(CRCL)$ 啥时候开盘啊","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":1,"repostSize":0,"link":"https://laohu8.com/post/442809867206784","isVote":1,"tweetType":1,"viewCount":2105,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442121769808320,"gmtCreate":1748962087950,"gmtModify":1749018888033,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AVGO\">$博通(AVGO)$ </a>太后悔了 没有上车这个","listText":"<a href=\"https://laohu8.com/S/AVGO\">$博通(AVGO)$ </a>太后悔了 没有上车这个","text":"$博通(AVGO)$ 太后悔了 没有上车这个","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":1,"repostSize":0,"link":"https://laohu8.com/post/442121769808320","isVote":1,"tweetType":1,"viewCount":501,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3458903913570876","authorId":"3458903913570876","name":"阿尔法林","avatar":"https://static.tigerbbs.com/83ecb94e36646f8918fd9d9b296369f0","crmLevel":6,"crmLevelSwitch":0,"authorIdStr":"3458903913570876","idStr":"3458903913570876"},"content":"180多我上车了,结果贸易战干下去一些,后面补了一些,这票的确强","text":"180多我上车了,结果贸易战干下去一些,后面补了一些,这票的确强","html":"180多我上车了,结果贸易战干下去一些,后面补了一些,这票的确强"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442104253038672,"gmtCreate":1748958237668,"gmtModify":1748958238659,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>房子压你上面了 冲啊","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>房子压你上面了 冲啊","text":"$美国超微公司(AMD)$ 房子压你上面了 冲啊","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442104253038672","isVote":1,"tweetType":1,"viewCount":395,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442103539934016,"gmtCreate":1748958214573,"gmtModify":1748959145970,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>舒服啊 快点涨","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>舒服啊 快点涨","text":"$美国超微公司(AMD)$ 舒服啊 快点涨","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442103539934016","isVote":1,"tweetType":1,"viewCount":361,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":442028875079976,"gmtCreate":1748939753011,"gmtModify":1748939754164,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a><v-v data-views=\"1\"></v-v> 这周不涨回前高的位置及岌岌可危","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a><v-v data-views=\"1\"></v-v> 这周不涨回前高的位置及岌岌可危","text":"$美国超微公司(AMD)$ 这周不涨回前高的位置及岌岌可危","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/442028875079976","isVote":1,"tweetType":1,"viewCount":537,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":440620205097072,"gmtCreate":1748612092460,"gmtModify":1748612093764,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>这个股 坑杀了无数散户啊","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>这个股 坑杀了无数散户啊","text":"$美国超微公司(AMD)$ 这个股 坑杀了无数散户啊","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":2,"repostSize":0,"link":"https://laohu8.com/post/440620205097072","isVote":1,"tweetType":1,"viewCount":1035,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":440355130851472,"gmtCreate":1748546847434,"gmtModify":1748554171680,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"authorIdStr":"3440897161812160","idStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>搞个鸡毛啊 又跌","listText":"<a href=\"https://laohu8.com/S/AMD\">$美国超微公司(AMD)$ </a>搞个鸡毛啊 又跌","text":"$美国超微公司(AMD)$ 搞个鸡毛啊 又跌","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/440355130851472","isVote":1,"tweetType":1,"viewCount":301,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0}],"hots":[{"id":386197711941920,"gmtCreate":1735314173584,"gmtModify":1735314175114,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://www.laohu8.com/S/AILE\">$iLearningEngines(AILE)$ </a>这个股票black rock竟然还有股份 拿住不卖了","listText":"<a href=\"https://www.laohu8.com/S/AILE\">$iLearningEngines(AILE)$ </a>这个股票black rock竟然还有股份 拿住不卖了","text":"$iLearningEngines(AILE)$ 这个股票black rock竟然还有股份 拿住不卖了","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":4,"repostSize":0,"link":"https://laohu8.com/post/386197711941920","isVote":1,"tweetType":1,"viewCount":1723,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"4195653189495512","authorId":"4195653189495512","name":"知行合一低开横盘","avatar":"https://static.tigerbbs.com/83ba6b28d1dc28fd283716bda389ba6f","crmLevel":1,"crmLevelSwitch":0,"idStr":"4195653189495512","authorIdStr":"4195653189495512"},"content":"退市了还能卖出去吗?","text":"退市了还能卖出去吗?","html":"退市了还能卖出去吗?"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":382278388277688,"gmtCreate":1734373815057,"gmtModify":1734373816960,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a><v-v data-views=\"0\"></v-v> 道琼斯为什么不去除波音","listText":"<a href=\"https://laohu8.com/S/BA\">$波音(BA)$ </a><v-v data-views=\"0\"></v-v> 道琼斯为什么不去除波音","text":"$波音(BA)$ 道琼斯为什么不去除波音","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":4,"repostSize":0,"link":"https://laohu8.com/post/382278388277688","isVote":1,"tweetType":1,"viewCount":3179,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3489198824710334","authorId":"3489198824710334","name":"河的第三岸","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":8,"crmLevelSwitch":0,"idStr":"3489198824710334","authorIdStr":"3489198824710334"},"content":"最近不是涨的挺好的吗,140左右进的,涨的慢一点就是","text":"最近不是涨的挺好的吗,140左右进的,涨的慢一点就是","html":"最近不是涨的挺好的吗,140左右进的,涨的慢一点就是"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":243496729567392,"gmtCreate":1700467155170,"gmtModify":1700467156298,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/MSFT\">$微软(MSFT)$ </a><v-v data-views=\"1\"></v-v>要起飞了 刚出的消息奥特曼要加入微软","listText":"<a href=\"https://laohu8.com/S/MSFT\">$微软(MSFT)$ </a><v-v data-views=\"1\"></v-v>要起飞了 刚出的消息奥特曼要加入微软","text":"$微软(MSFT)$ 要起飞了 刚出的消息奥特曼要加入微软","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":5,"commentSize":4,"repostSize":0,"link":"https://laohu8.com/post/243496729567392","isVote":1,"tweetType":1,"viewCount":3372,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3452936632054541","authorId":"3452936632054541","name":"Juliusdk","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":9,"crmLevelSwitch":1,"idStr":"3452936632054541","authorIdStr":"3452936632054541"},"content":"吐血 周五盘后应该抄底的","text":"吐血 周五盘后应该抄底的","html":"吐血 周五盘后应该抄底的"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":232228698972464,"gmtCreate":1697732767968,"gmtModify":1697732769132,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/.SPX\">$标普500(.SPX)$ </a><v-v data-views=\"0\"></v-v> 全力做空 目标4100","listText":"<a href=\"https://laohu8.com/S/.SPX\">$标普500(.SPX)$ </a><v-v data-views=\"0\"></v-v> 全力做空 目标4100","text":"$标普500(.SPX)$ 全力做空 目标4100","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":1,"repostSize":0,"link":"https://laohu8.com/post/232228698972464","isVote":1,"tweetType":1,"viewCount":1637,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"125194940475664","authorId":"125194940475664","name":"独立分析师","avatar":"https://static.laohu8.com/80756a3bdeb5c29a5cc7e822601b2183","crmLevel":2,"crmLevelSwitch":0,"idStr":"125194940475664","authorIdStr":"125194940475664"},"content":"全力做空,目标4100,恭喜你发财了 ,这么高,正好逢高做空啊 [龇牙]","text":"全力做空,目标4100,恭喜你发财了 ,这么高,正好逢高做空啊 [龇牙]","html":"全力做空,目标4100,恭喜你发财了 ,这么高,正好逢高做空啊 [龇牙]"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":332823264,"gmtCreate":1610373304558,"gmtModify":1703743861118,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/NIO\">$蔚来(NIO)$</a>资本炒作罢了,没卖多少车,市值炒那么高,蔚来是没有未来的,话先放这,目前的三傻10年内没一个能活下来。","listText":"<a href=\"https://laohu8.com/S/NIO\">$蔚来(NIO)$</a>资本炒作罢了,没卖多少车,市值炒那么高,蔚来是没有未来的,话先放这,目前的三傻10年内没一个能活下来。","text":"$蔚来(NIO)$资本炒作罢了,没卖多少车,市值炒那么高,蔚来是没有未来的,话先放这,目前的三傻10年内没一个能活下来。","images":[],"top":1,"highlighted":2,"essential":1,"paper":1,"likeSize":6,"commentSize":13,"repostSize":0,"link":"https://laohu8.com/post/332823264","isVote":1,"tweetType":1,"viewCount":3173,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3478555995154966","authorId":"3478555995154966","name":"史哲涵","avatar":"https://static.tigerbbs.com/e7a38a2c1b0edfaf635cfdd74ea60ce9","crmLevel":2,"crmLevelSwitch":0,"idStr":"3478555995154966","authorIdStr":"3478555995154966"},"content":"操那么多心干什么,你在投资股票,不是发展企业","text":"操那么多心干什么,你在投资股票,不是发展企业","html":"操那么多心干什么,你在投资股票,不是发展企业"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":245836,"gmtCreate":1534531327612,"gmtModify":1704770720337,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"$宜人贷(YRD)$ 亏成狗","listText":"$宜人贷(YRD)$ 亏成狗","text":"$宜人贷(YRD)$ 亏成狗","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":15,"repostSize":0,"link":"https://laohu8.com/post/245836","isVote":1,"tweetType":1,"viewCount":680,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3484560404320383","authorId":"3484560404320383","name":"闲适居主人","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"idStr":"3484560404320383","authorIdStr":"3484560404320383"},"content":"庄家在买进,短线做空肯定亏","text":"庄家在买进,短线做空肯定亏","html":"庄家在买进,短线做空肯定亏"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":427928,"gmtCreate":1552564970822,"gmtModify":1704792873419,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"$Akari Therapeutics PLC(AKTX)$ 谁来空一下救救我","listText":"$Akari Therapeutics PLC(AKTX)$ 谁来空一下救救我","text":"$Akari Therapeutics PLC(AKTX)$ 谁来空一下救救我","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":12,"repostSize":1,"link":"https://laohu8.com/post/427928","isVote":1,"tweetType":1,"viewCount":1556,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3466558361103007","authorId":"3466558361103007","name":"T3768121367","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"idStr":"3466558361103007","authorIdStr":"3466558361103007"},"content":"我割肉了,空","text":"我割肉了,空","html":"我割肉了,空"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":373189210034432,"gmtCreate":1732138478833,"gmtModify":1732177805602,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://www.laohu8.com/S/NVDA\">$英伟达(NVDA)$ </a>电话会开始之后 我估计未来的营收指引会给的高 又给拉起来 不要慌兄弟们","listText":"<a href=\"https://www.laohu8.com/S/NVDA\">$英伟达(NVDA)$ </a>电话会开始之后 我估计未来的营收指引会给的高 又给拉起来 不要慌兄弟们","text":"$英伟达(NVDA)$ 电话会开始之后 我估计未来的营收指引会给的高 又给拉起来 不要慌兄弟们","images":[],"top":1,"highlighted":2,"essential":1,"paper":1,"likeSize":6,"commentSize":10,"repostSize":0,"link":"https://laohu8.com/post/373189210034432","isVote":1,"tweetType":1,"viewCount":5680,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"4187273288131352","authorId":"4187273288131352","name":"島村抱月","avatar":"https://static.tigerbbs.com/57fd461be7658d9494b9c611b2c9f86a","crmLevel":5,"crmLevelSwitch":0,"idStr":"4187273288131352","authorIdStr":"4187273288131352"},"content":"还不跑啊兄弟 我刚才跑完了 这寄了[开心][开心]","text":"还不跑啊兄弟 我刚才跑完了 这寄了[开心][开心]","html":"还不跑啊兄弟 我刚才跑完了 这寄了[开心][开心]"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":959633474,"gmtCreate":1589884453598,"gmtModify":1704190967568,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/GSX\">$跟谁学(GSX)$</a>这公司水军好厉害","listText":"<a href=\"https://laohu8.com/S/GSX\">$跟谁学(GSX)$</a>这公司水军好厉害","text":"$跟谁学(GSX)$这公司水军好厉害","images":[{"img":"https://static.tigerbbs.com/eef4926abd5c0e6296c7a3d39fa383b0","width":"1242","height":"2208"}],"top":1,"highlighted":2,"essential":1,"paper":1,"likeSize":2,"commentSize":12,"repostSize":0,"link":"https://laohu8.com/post/959633474","isVote":1,"tweetType":1,"viewCount":4306,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3521590769441177","authorId":"3521590769441177","name":"梭哈高途","avatar":"https://static.tigerbbs.com/6a7b9327c1dcbbeacb1255b6fe157d3c","crmLevel":7,"crmLevelSwitch":0,"idStr":"3521590769441177","authorIdStr":"3521590769441177"},"content":"不是水军厉害,是这家伙不说人话,你看他说的那话,素质那么低","text":"不是水军厉害,是这家伙不说人话,你看他说的那话,素质那么低","html":"不是水军厉害,是这家伙不说人话,你看他说的那话,素质那么低"}],"imageCount":1,"langContent":"CN","totalScore":0},{"id":839993682,"gmtCreate":1629113684346,"gmtModify":1629113684346,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/NIO\">$蔚来(NIO)$</a>做空","listText":"<a href=\"https://laohu8.com/S/NIO\">$蔚来(NIO)$</a>做空","text":"$蔚来(NIO)$做空","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":10,"repostSize":0,"link":"https://laohu8.com/post/839993682","isVote":1,"tweetType":1,"viewCount":3101,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3479274691869247","authorId":"3479274691869247","name":"小牛快快飞","avatar":"https://static.tigerbbs.com/4ec8b377ac9ad32d941432c2e87c3f1b","crmLevel":1,"crmLevelSwitch":0,"idStr":"3479274691869247","authorIdStr":"3479274691869247"},"content":"是不是因为某餐饮品牌创始人在驾驶蔚来过程中发生交通事故啊","text":"是不是因为某餐饮品牌创始人在驾驶蔚来过程中发生交通事故啊","html":"是不是因为某餐饮品牌创始人在驾驶蔚来过程中发生交通事故啊"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":335182979494096,"gmtCreate":1722838300828,"gmtModify":1722838302404,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/FUT/NQmain\">$NQ100指数主连 2409(NQmain)$ </a> 啥情况 大盘要跌停吗","listText":"<a href=\"https://laohu8.com/FUT/NQmain\">$NQ100指数主连 2409(NQmain)$ </a> 啥情况 大盘要跌停吗","text":"$NQ100指数主连 2409(NQmain)$ 啥情况 大盘要跌停吗","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":5,"commentSize":7,"repostSize":1,"link":"https://laohu8.com/post/335182979494096","isVote":1,"tweetType":1,"viewCount":5035,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"4179639064199962","authorId":"4179639064199962","name":"开不了美股账户是耻辱","avatar":"https://community-static.tradeup.com/news/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"idStr":"4179639064199962","authorIdStr":"4179639064199962"},"content":"不可能,因为美股没有跌停这回事","text":"不可能,因为美股没有跌停这回事","html":"不可能,因为美股没有跌停这回事"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":333453482,"gmtCreate":1609341508546,"gmtModify":1703738921605,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/BILI\">$哔哩哔哩(BILI)$</a>跳空高开,我要开空仓了","listText":"<a href=\"https://laohu8.com/S/BILI\">$哔哩哔哩(BILI)$</a>跳空高开,我要开空仓了","text":"$哔哩哔哩(BILI)$跳空高开,我要开空仓了","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":5,"commentSize":9,"repostSize":0,"link":"https://laohu8.com/post/333453482","isVote":1,"tweetType":1,"viewCount":3791,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3568344751931616","authorId":"3568344751931616","name":"勿追涨杀跌","avatar":"https://static.tigerbbs.com/6b32526af70ac7698149458476a30b18","crmLevel":1,"crmLevelSwitch":0,"idStr":"3568344751931616","authorIdStr":"3568344751931616"},"content":"为你默哀 大利好下也空吗","text":"为你默哀 大利好下也空吗","html":"为你默哀 大利好下也空吗"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":991738337,"gmtCreate":1565063150029,"gmtModify":1704708221213,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"夏日海滩,温暖迷人。","listText":"夏日海滩,温暖迷人。","text":"夏日海滩,温暖迷人。","images":[{"img":"https://static.tigerbbs.com/9ff18de1ed3e9e2e8deaa479b0a30ad2","width":"4032","height":"3024"},{"img":"https://static.tigerbbs.com/3daf6bf344d37114695e3a1779bca918","width":"3024","height":"4032"},{"img":"https://static.tigerbbs.com/e3829ab1b55ae3e6e22a64d9dee1499d","width":"4032","height":"3024"}],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":10,"commentSize":6,"repostSize":0,"link":"https://laohu8.com/post/991738337","isVote":1,"tweetType":1,"viewCount":824,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"20703384576125","authorId":"20703384576125","name":"Seven8","avatar":"https://static.tigerbbs.com/63c5325d49ab0fd75150e915a280d214","crmLevel":1,"crmLevelSwitch":0,"idStr":"20703384576125","authorIdStr":"20703384576125"},"content":"这是哪里啊","text":"这是哪里啊","html":"这是哪里啊"}],"imageCount":3,"langContent":"CN","totalScore":0},{"id":442222,"gmtCreate":1553510777424,"gmtModify":1704794742552,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"$摩根大通(JPM)$ 准备上车,冲鸭","listText":"$摩根大通(JPM)$ 准备上车,冲鸭","text":"$摩根大通(JPM)$ 准备上车,冲鸭","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":11,"repostSize":0,"link":"https://laohu8.com/post/442222","isVote":1,"tweetType":1,"viewCount":797,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"3513087949430675","authorId":"3513087949430675","name":"今川弘彦","avatar":"https://static.tigerbbs.com/25b66c27453255b5ad1f354a0dbad257","crmLevel":1,"crmLevelSwitch":0,"idStr":"3513087949430675","authorIdStr":"3513087949430675"},"content":"小心高开低走,开盘15分钟不交易","text":"小心高开低走,开盘15分钟不交易","html":"小心高开低走,开盘15分钟不交易"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":277481289134392,"gmtCreate":1708773698423,"gmtModify":1708773700309,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"还在思考英伟达是个卖铲子的、都2024年了,社区少推点这种**文章。","listText":"还在思考英伟达是个卖铲子的、都2024年了,社区少推点这种**文章。","text":"还在思考英伟达是个卖铲子的、都2024年了,社区少推点这种**文章。","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":2,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/277481289134392","repostId":"1174033153","repostType":2,"repost":{"id":"1174033153","kind":"news","pubTimestamp":1708682697,"share":"https://www.laohu8.com/m/news/1174033153?lang=&edition=full","pubTime":"2024-02-23 18:04","market":"us","language":"zh","title":"一个“卖铲子”的英伟达,真值2万亿美金吗?是谁在爆炒?","url":"https://stock-news.laohu8.com/highlight/detail?id=1174033153","media":"定焦","summary":"淘金的算不过卖铲子的。","content":"<html><head></head><body><p> 作者 | 黎明</p><p style=\"text-align: start;\"> 如果大模型是淘金热,英伟达就是卖铲人。科技巨头、创业公司、中东土豪,把大把的钱送给英伟达,换成AI芯片去开发大模型。</p><p style=\"text-align: start;\"> 大模型是不是金矿不重要,手里有没有铲子很重要。作为底层算力的提供方,英伟达从大模型军备竞赛中获益。众人哄抢,造成“一铲难求”,英伟达被推上神坛。</p><p style=\"text-align: start;\"> 2024年以来,英伟达的股价上涨超过60%,而在2023年它已经涨了两倍多。它的市值先后超过亚马逊、谷歌,达到接近2万亿美金,成为美股第三、全球第四大公司。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/726ba3bedbd2200293f17a9251c5b8ce\" alt=\"\" title=\"\" tg-width=\"550\" tg-height=\"377\"/></p><p style=\"text-align: start;\"> 现在,英伟达已经正式取代特斯拉,成为美股成交量最大的公司。它一个晚上的成交额能超过600亿美金,是特斯拉的3倍多。</p><p style=\"text-align: start;\"> 整个AI圈几乎要被英伟达“绑架”了。英伟达的股价一直涨,推动AI狂欢继续;只要它的业绩继续超预期,就证明AI不完全是泡沫。</p><p style=\"text-align: start;\"> 因此,英伟达的四季度财报,就具有了分水岭的意义。它要么终结这一波AI狂欢,美股掉头向下,要么继续推波助澜,再创新高。</p><p style=\"text-align: start;\"> 英伟达财报公布前一天,股价提前下跌4.35%,出现今年年内最大单日跌幅;财报公布当天,股价再跌2.85%。然而,财报正式发布后,由于业绩大超预期,股价大涨超过16%,一个晚上市值增加2770亿美元,创美股史上最高单日市值增幅。</p><p style=\"text-align: start;\"> 英伟达汇集了人们对AI的信仰。但一个“卖铲子”的公司,真的值2万亿美金吗?是谁在爆炒英伟达?</p><p style=\"text-align: start;\"> <strong>一张卡,两波浪潮</strong></p><p style=\"text-align: start;\"> 现在人们一提起英伟达,必然提到AI。其实英伟达最早的故事,跟AI没有任何关系,它是从一张卡开始的。</p><p style=\"text-align: start;\"> PC时代,大部分高端PC都会配备CPU和GPU。CPU即中央处理器,GPU是图形处理器,前者由几个高效的计算核心组成,擅长通用计算,后者拥有上千颗小计算单元,适合大规模并行计算,尤其擅长图形和视频。</p><p style=\"text-align: start;\"> 所谓“计算机”,首先得有计算能力,这两块芯片就是给电脑提供算力的,属于底层硬件。</p><p style=\"text-align: start;\"> 英伟达做的是GPU,其实就是电脑显示芯片,或者说游戏显卡。过去很多年里,英伟达超过一半的收入都来自游戏业务。可以说,打游戏的人养活了这家公司。这是一门看起来相对传统的生意。</p><p style=\"text-align: start;\"> 意外的是,GPU并行计算的特点,非常适合AI计算。2012年深度卷积神经网络(CNN)被发明后,深度学习进入新阶段。训练神经网络需要庞大的计算资源,而GPU的性能和效率远超过CPU。所有“鸡蛋”都在GPU这一个篮子里的英伟达,踩上了AI时代的浪潮。</p><p style=\"text-align: start;\"> 第一波浪潮发生在2016年,起因是谷歌的AlphaGo战胜了韩国围棋高手李世石。一大批公司进军人工智能,加大深度学习研究。</p><p style=\"text-align: start;\"> 英伟达讲了三个故事——游戏、AI计算、自动驾驶。第一个故事是老本行,负责赚钱,后两个故事描绘前景,拉升股价。</p><p style=\"text-align: start;\"> 当时,云厂商纷纷在自己的云平台部署英伟达GPU,以增强计算能力。美国的几个科技巨头,以及中国的BAT,都成为英伟达的客户。</p><p style=\"text-align: start;\"> 那会儿还涌现出一大批自动驾驶公司,它们被视为人工智能技术的重要落地场景。英伟达和百度、大众、Uber等达成合作,还投资了自动驾驶公司景驰、图森科技,以推销自己的GPU。</p><p style=\"text-align: start;\"> 2017年,英伟达成为全球最大的独立GPU厂商,占据70%的市场份额。</p><p style=\"text-align: start;\"> 这个故事足够吸引人。从2015年到2017年,英伟达的收入只增长了50%,但股价涨了8倍。</p><p style=\"text-align: start;\"> 巧的是,区块链又给这个故事添了一把火。2017年,比特币、以太坊等加密货币价格暴涨,引发“挖矿潮”。“挖矿”就是通过高速计算来获取加密货币,需要用到显卡,显卡越多,挖矿速度越快,赚钱越快。于是,很多人四处购买英伟达GPU,一度被买断货。</p><p style=\"text-align: start;\"> 加密货币助推英伟达股价大涨。到了2018年10月,英伟达股价超过290美元。</p><p style=\"text-align: start;\"> 第二波浪潮发生在2022年,触发点是OpenAI发布ChatGPT。</p><p style=\"text-align: start;\"> 这一次可以视为人工智能的复兴,因为AI行业过去画的几个大饼——自动驾驶、元宇宙,都是一地鸡毛。英伟达讲的几个故事,也都是草草结尾。在ChatGPT于2022年10月底诞生之前,英伟达的股价跌到了108美元。</p><p style=\"text-align: start;\"> 接下来的故事很多人知道了。AI创业卷土重来,生成式AI成为风口,大模型打头阵。随后,英伟达的股价在一年多时间里涨了6倍。</p><p style=\"text-align: start;\"> 这两波浪潮有很多共同点,比如:催化剂都是AI,算力资源被疯抢,科技圈很狂热,英伟达最先受益。</p><p style=\"text-align: start;\"> <strong>卖铲子的先赚到金子</strong></p><p style=\"text-align: start;\"> 相比第一波浪潮,这一波有几个新特点。首先,几乎所有科技巨头都相信,必须训练自己的大模型,为此可以不计成本投入。另外,英伟达真正从中赚到了钱。这是支撑英伟达股价大涨的前提。</p><p style=\"text-align: start;\"> 八年前英伟达卖了很多卡,但最后实际用于AI计算的不多,它的营收支柱还是游戏业务。这从财报中可见一斑。</p><p style=\"text-align: start;\"> 英伟达的收入来自五大板块——游戏、数据中心、专业视觉、汽车、OEM。其中最核心的是游戏和数据中心,AI计算相关的收入都归入数据中心。</p><p style=\"text-align: start;\"> 2017年,游戏业务收入55亿美元,数据中心19亿美元,二者占比分别为57%、20%。那会儿英伟达也对外讲AI计算的故事,但风口还不够大。</p><p style=\"text-align: start;\"> 也是从那一年开始,英伟达从传统电脑向人工智能转型,数据中心的收入占比逐年提高。而转型的效果直到五年后才彻底体现,一直等到ChatGPT问世。2022年,英伟达数据中心收入150亿美元,占比56%,首次超过游戏业务。</p><p style=\"text-align: start;\"> 这是一个重要的转折点。人们开始相信,这一波AI浪潮很真实,因为英伟达的客户们已经用真金白银投票。</p><p style=\"text-align: start;\"> 生成式AI被很多人认为是十年一遇甚至百年一遇的大风口,英伟达的GPU又是训练大模型必不可少的硬件。在硅谷,英伟达的A100和H100是“硬通货”,有钱还不一定买得到。有一家创业公司融资23亿美金,给投资机构的抵押物,正是其拥有的英伟达GPU。</p><p style=\"text-align: start;\"> Meta CEO扎克伯格在今年1月对外说,Meta正在构建大规模的算力基础设施,要在2024年底集成35万张英伟达H100显卡,如果算上其他芯片,则共有近60万个H100的等效计算量。外界估算,Meta购买这些芯片的价格至少达90亿美元。</p><p style=\"text-align: start;\"> 国内的科技圈,也以拥有GPU的数量,来评估一家公司开发大模型的实力。腾讯、百度、字节跳动、阿里等巨头,过去几年都囤积了数亿美元价值的英伟达GPU。</p><p style=\"text-align: start;\"> 先不说这些卡能训练出多少实用的大模型产品,至少钱先让英伟达赚到了。</p><p style=\"text-align: start;\"> 英伟达的收入,大约有一半来自消费互联网公司,另一半来自云厂商。全球市值排行榜前列的大型科技公司,基本都为英伟达“充值”了。</p><p style=\"text-align: start;\"> 2023年的四个季度,英伟达数据中心的收入一直在创新高。质变发生在二季度,数据中心收入103亿美元,增速高达171%,远超市场预期。此前,这项收入一直只有三四十亿美元。这让英伟达赚取了62亿美元净利润,相当于过去五个季度的总和。</p><p style=\"text-align: start;\"> 三季度,数据中心的收入增速更是高达279%,四季度飙升至409%。整个2023年,数据中心为英伟达贡献了474亿美元的收入,是游戏业务的4.5倍,其占总收入的比例上涨至78%,而总收入则增至609亿美元。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3996feb9fea2ced95f39adbbc364e33f\" alt=\"\" title=\"\" tg-width=\"550\" tg-height=\"373\"/></p><p style=\"text-align: start;\"> 更夸张的是盈利能力。2023年,利润率更高的H100畅销,给英伟达带来巨额利润。公开信息显示,一颗H100售价高达3万美元,其成本不到5000美元。2023年英伟达净利润达到298亿美元,超过之前六年的总和,其毛利率为72.7%,净利率高达48.9%,远超同行。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/cec7340be5e1726a33b602499bac7f35\" alt=\"\" title=\"\" tg-width=\"550\" tg-height=\"358\"/></p><p style=\"text-align: start;\"> 只能说,科技公司们为了拼大模型,是真敢花钱。</p><p style=\"text-align: start;\"> 这个时候,我们可以认为,英伟达已经成为一家正宗的AI计算公司。</p><p style=\"text-align: start;\"> 投资人投的是未来,看中预期。英伟达的神话能否继续,未来的业绩预估很关键。英伟达给出的指引是:2025财年第一季度收入240亿美元,同比增长234%,超市场预期的218亿美元;毛利率76.3%,也超市场预期的75.1%,再创新高。</p><p style=\"text-align: start;\"> 有人相信AI可以点石成金,也有人认为AI催生了泡沫。对于英伟达而言,这些都不重要。它就像一个军火商,只要军备竞赛继续,它就有利可图。</p><p style=\"text-align: start;\"> 问题是,军备竞赛能一直打下去吗?</p><p style=\"text-align: start;\"> <strong> 淘金热结束之后</strong></p><p style=\"text-align: start;\"> 相信英伟达的人,与其说是看好这家公司,倒不如说是看好生成式AI。如果生成式AI最终只是个泡沫,那英伟达的高估值必然坍塌。</p><p style=\"text-align: start;\"> 以史为鉴。第一波AI浪潮也曾让很多人疯狂。然而,那波热潮产生的泡沫,直到今天都还没消化完——曾经被资本追捧的AI芯片、自动驾驶,没几个公司赚到钱。</p><p style=\"text-align: start;\"> 英伟达曾被高估。2018年的加密货币“挖矿潮”中,英伟达的股价创下历史新高,3年翻了13倍。然而随后加密货币泡沫破灭,英伟达的股价在三个月内腰斩。</p><p style=\"text-align: start;\"> 2022年4月,英伟达的股价站上289美元的高点后,在随后的一年多时间里又跌去了三分之二。</p><p style=\"text-align: start;\"> 英伟达还是那个英伟达,但市场情绪瞬息万变,它容易被泡沫推着走。</p><p style=\"text-align: start;\"> 有人拿英伟达跟思科类比,2000年互联网泡沫,冲在前面的是思科路由器。它对外讲的也是互联网硬件的故事,一度占据网络路由器超过80%的市场份额。投资者看好互联网的前景,进而看好思科。这跟今天的英伟达非常相似。</p><p style=\"text-align: start;\"> 投资人的推断逻辑是:每一轮科技变革,往往都从硬件开始。20多年前是思科,10年前是苹果,今天是英伟达。所以英伟达值得被高估。</p><p style=\"text-align: start;\"> 1999年初,思科的市值占到整个美股的2.5%。即便如此,随后一年它的股价又涨了两倍,成为美股市值最高的公司。今天,即便英伟达已经是美股第四大公司,还是有人押注它的股价将涨到1300美元。这样的话,它的市值将达到3.4万亿美元,超越微软和苹果,排名美股第一。</p><p style=\"text-align: start;\"> 两家公司的路径太相似了。不过,2001年互联网泡沫破灭,思科的股价跌去三分之二,至今再未达到当年高点。</p><p style=\"text-align: start;\"> 有人做了一张对比图,将思科从1996年到2002年的股价走势,与英伟达2020年至今的走势叠加在一起,发现有很大重合。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/994d4aac91a37001f543f0dea0dd190f\" alt=\"\" title=\"\" tg-width=\"550\" tg-height=\"606\"/></p><p style=\"text-align: start;\"> 归根到底,英伟达的业绩和股价,完全建立人们对AI时代的信仰上。只要这个信仰不灭,英伟达的神话就能继续,否则全都是泡沫。</p><p style=\"text-align: start;\"> 华尔街明星基金经理“木头姐”说,AI热潮并非泡沫,但市场期待过高,英伟达涨过头了。此前她已经抛售了英伟达股票。另一位投资人认为,英伟达的股价透支了未来十年的业绩表现。</p><p style=\"text-align: start;\"> 在备受关注的四季度财报发布之后,CEO黄仁勋对外传递信号,继续强调加速计算和生成式AI,声称AI时代的临界点已经到来。“全球各地的企业、行业和国家需求都在激增。”</p><p style=\"text-align: start;\"> 挑战也显而易见。</p><p style=\"text-align: start;\"> 英伟达的大客户们,一方面继续向英伟达采购GPU,同时也在加速开发替代品。巨头们不会让英伟达独享这一巨大市场。</p><p style=\"text-align: start;\"> 最新消息是,微软正在研发一款新的网卡产品,以提高其AI芯片Maia的性能,最终达到减少对英伟达产品依赖的目的。OpenAI创始人奥特曼正在四处奔走,接触各路投资人,以研发自己的AI芯片。</p><p style=\"text-align: start;\"> 英伟达的老对手AMD、英特尔,更是步步紧逼,相继推出直接对标英伟达H100的产品。今年,它们的产品将迎来更新,加速瓜分英伟达的客户。</p><p style=\"text-align: start;\"> 英伟达一统江湖的格局,或许不会持续太久。</p><p style=\"text-align: start;\"> 当然,在格局重塑之前,英伟达还会再飞一会。美股的AI狂欢,目前没有降温的迹象。当人们是在为“市梦率”买单,支撑英伟达超越微软、苹果的,就只有信仰了。</p></body></html>","source":"lsy1690343385125","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>一个“卖铲子”的英伟达,真值2万亿美金吗?是谁在爆炒?</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n一个“卖铲子”的英伟达,真值2万亿美金吗?是谁在爆炒?\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-02-23 18:04 北京时间 <a href=https://finance.sina.com.cn/tech/internet/2024-02-23/doc-inaiyrrw5123513.shtml><strong>定焦</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>作者 | 黎明 如果大模型是淘金热,英伟达就是卖铲人。科技巨头、创业公司、中东土豪,把大把的钱送给英伟达,换成AI芯片去开发大模型。 大模型是不是金矿不重要,手里有没有铲子很重要。作为底层算力的提供方,英伟达从大模型军备竞赛中获益。众人哄抢,造成“一铲难求”,英伟达被推上神坛。 2024年以来,英伟达的股价上涨超过60%,而在2023年它已经涨了两倍多。它的市值先后超过亚马逊、谷歌,达到接近...</p>\n\n<a href=\"https://finance.sina.com.cn/tech/internet/2024-02-23/doc-inaiyrrw5123513.shtml\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/7b8db4b0e3e8dc0281ba058cc5847232","relate_stocks":{"NVDA":"英伟达"},"source_url":"https://finance.sina.com.cn/tech/internet/2024-02-23/doc-inaiyrrw5123513.shtml","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"1174033153","content_text":"作者 | 黎明 如果大模型是淘金热,英伟达就是卖铲人。科技巨头、创业公司、中东土豪,把大把的钱送给英伟达,换成AI芯片去开发大模型。 大模型是不是金矿不重要,手里有没有铲子很重要。作为底层算力的提供方,英伟达从大模型军备竞赛中获益。众人哄抢,造成“一铲难求”,英伟达被推上神坛。 2024年以来,英伟达的股价上涨超过60%,而在2023年它已经涨了两倍多。它的市值先后超过亚马逊、谷歌,达到接近2万亿美金,成为美股第三、全球第四大公司。 现在,英伟达已经正式取代特斯拉,成为美股成交量最大的公司。它一个晚上的成交额能超过600亿美金,是特斯拉的3倍多。 整个AI圈几乎要被英伟达“绑架”了。英伟达的股价一直涨,推动AI狂欢继续;只要它的业绩继续超预期,就证明AI不完全是泡沫。 因此,英伟达的四季度财报,就具有了分水岭的意义。它要么终结这一波AI狂欢,美股掉头向下,要么继续推波助澜,再创新高。 英伟达财报公布前一天,股价提前下跌4.35%,出现今年年内最大单日跌幅;财报公布当天,股价再跌2.85%。然而,财报正式发布后,由于业绩大超预期,股价大涨超过16%,一个晚上市值增加2770亿美元,创美股史上最高单日市值增幅。 英伟达汇集了人们对AI的信仰。但一个“卖铲子”的公司,真的值2万亿美金吗?是谁在爆炒英伟达? 一张卡,两波浪潮 现在人们一提起英伟达,必然提到AI。其实英伟达最早的故事,跟AI没有任何关系,它是从一张卡开始的。 PC时代,大部分高端PC都会配备CPU和GPU。CPU即中央处理器,GPU是图形处理器,前者由几个高效的计算核心组成,擅长通用计算,后者拥有上千颗小计算单元,适合大规模并行计算,尤其擅长图形和视频。 所谓“计算机”,首先得有计算能力,这两块芯片就是给电脑提供算力的,属于底层硬件。 英伟达做的是GPU,其实就是电脑显示芯片,或者说游戏显卡。过去很多年里,英伟达超过一半的收入都来自游戏业务。可以说,打游戏的人养活了这家公司。这是一门看起来相对传统的生意。 意外的是,GPU并行计算的特点,非常适合AI计算。2012年深度卷积神经网络(CNN)被发明后,深度学习进入新阶段。训练神经网络需要庞大的计算资源,而GPU的性能和效率远超过CPU。所有“鸡蛋”都在GPU这一个篮子里的英伟达,踩上了AI时代的浪潮。 第一波浪潮发生在2016年,起因是谷歌的AlphaGo战胜了韩国围棋高手李世石。一大批公司进军人工智能,加大深度学习研究。 英伟达讲了三个故事——游戏、AI计算、自动驾驶。第一个故事是老本行,负责赚钱,后两个故事描绘前景,拉升股价。 当时,云厂商纷纷在自己的云平台部署英伟达GPU,以增强计算能力。美国的几个科技巨头,以及中国的BAT,都成为英伟达的客户。 那会儿还涌现出一大批自动驾驶公司,它们被视为人工智能技术的重要落地场景。英伟达和百度、大众、Uber等达成合作,还投资了自动驾驶公司景驰、图森科技,以推销自己的GPU。 2017年,英伟达成为全球最大的独立GPU厂商,占据70%的市场份额。 这个故事足够吸引人。从2015年到2017年,英伟达的收入只增长了50%,但股价涨了8倍。 巧的是,区块链又给这个故事添了一把火。2017年,比特币、以太坊等加密货币价格暴涨,引发“挖矿潮”。“挖矿”就是通过高速计算来获取加密货币,需要用到显卡,显卡越多,挖矿速度越快,赚钱越快。于是,很多人四处购买英伟达GPU,一度被买断货。 加密货币助推英伟达股价大涨。到了2018年10月,英伟达股价超过290美元。 第二波浪潮发生在2022年,触发点是OpenAI发布ChatGPT。 这一次可以视为人工智能的复兴,因为AI行业过去画的几个大饼——自动驾驶、元宇宙,都是一地鸡毛。英伟达讲的几个故事,也都是草草结尾。在ChatGPT于2022年10月底诞生之前,英伟达的股价跌到了108美元。 接下来的故事很多人知道了。AI创业卷土重来,生成式AI成为风口,大模型打头阵。随后,英伟达的股价在一年多时间里涨了6倍。 这两波浪潮有很多共同点,比如:催化剂都是AI,算力资源被疯抢,科技圈很狂热,英伟达最先受益。 卖铲子的先赚到金子 相比第一波浪潮,这一波有几个新特点。首先,几乎所有科技巨头都相信,必须训练自己的大模型,为此可以不计成本投入。另外,英伟达真正从中赚到了钱。这是支撑英伟达股价大涨的前提。 八年前英伟达卖了很多卡,但最后实际用于AI计算的不多,它的营收支柱还是游戏业务。这从财报中可见一斑。 英伟达的收入来自五大板块——游戏、数据中心、专业视觉、汽车、OEM。其中最核心的是游戏和数据中心,AI计算相关的收入都归入数据中心。 2017年,游戏业务收入55亿美元,数据中心19亿美元,二者占比分别为57%、20%。那会儿英伟达也对外讲AI计算的故事,但风口还不够大。 也是从那一年开始,英伟达从传统电脑向人工智能转型,数据中心的收入占比逐年提高。而转型的效果直到五年后才彻底体现,一直等到ChatGPT问世。2022年,英伟达数据中心收入150亿美元,占比56%,首次超过游戏业务。 这是一个重要的转折点。人们开始相信,这一波AI浪潮很真实,因为英伟达的客户们已经用真金白银投票。 生成式AI被很多人认为是十年一遇甚至百年一遇的大风口,英伟达的GPU又是训练大模型必不可少的硬件。在硅谷,英伟达的A100和H100是“硬通货”,有钱还不一定买得到。有一家创业公司融资23亿美金,给投资机构的抵押物,正是其拥有的英伟达GPU。 Meta CEO扎克伯格在今年1月对外说,Meta正在构建大规模的算力基础设施,要在2024年底集成35万张英伟达H100显卡,如果算上其他芯片,则共有近60万个H100的等效计算量。外界估算,Meta购买这些芯片的价格至少达90亿美元。 国内的科技圈,也以拥有GPU的数量,来评估一家公司开发大模型的实力。腾讯、百度、字节跳动、阿里等巨头,过去几年都囤积了数亿美元价值的英伟达GPU。 先不说这些卡能训练出多少实用的大模型产品,至少钱先让英伟达赚到了。 英伟达的收入,大约有一半来自消费互联网公司,另一半来自云厂商。全球市值排行榜前列的大型科技公司,基本都为英伟达“充值”了。 2023年的四个季度,英伟达数据中心的收入一直在创新高。质变发生在二季度,数据中心收入103亿美元,增速高达171%,远超市场预期。此前,这项收入一直只有三四十亿美元。这让英伟达赚取了62亿美元净利润,相当于过去五个季度的总和。 三季度,数据中心的收入增速更是高达279%,四季度飙升至409%。整个2023年,数据中心为英伟达贡献了474亿美元的收入,是游戏业务的4.5倍,其占总收入的比例上涨至78%,而总收入则增至609亿美元。 更夸张的是盈利能力。2023年,利润率更高的H100畅销,给英伟达带来巨额利润。公开信息显示,一颗H100售价高达3万美元,其成本不到5000美元。2023年英伟达净利润达到298亿美元,超过之前六年的总和,其毛利率为72.7%,净利率高达48.9%,远超同行。 只能说,科技公司们为了拼大模型,是真敢花钱。 这个时候,我们可以认为,英伟达已经成为一家正宗的AI计算公司。 投资人投的是未来,看中预期。英伟达的神话能否继续,未来的业绩预估很关键。英伟达给出的指引是:2025财年第一季度收入240亿美元,同比增长234%,超市场预期的218亿美元;毛利率76.3%,也超市场预期的75.1%,再创新高。 有人相信AI可以点石成金,也有人认为AI催生了泡沫。对于英伟达而言,这些都不重要。它就像一个军火商,只要军备竞赛继续,它就有利可图。 问题是,军备竞赛能一直打下去吗? 淘金热结束之后 相信英伟达的人,与其说是看好这家公司,倒不如说是看好生成式AI。如果生成式AI最终只是个泡沫,那英伟达的高估值必然坍塌。 以史为鉴。第一波AI浪潮也曾让很多人疯狂。然而,那波热潮产生的泡沫,直到今天都还没消化完——曾经被资本追捧的AI芯片、自动驾驶,没几个公司赚到钱。 英伟达曾被高估。2018年的加密货币“挖矿潮”中,英伟达的股价创下历史新高,3年翻了13倍。然而随后加密货币泡沫破灭,英伟达的股价在三个月内腰斩。 2022年4月,英伟达的股价站上289美元的高点后,在随后的一年多时间里又跌去了三分之二。 英伟达还是那个英伟达,但市场情绪瞬息万变,它容易被泡沫推着走。 有人拿英伟达跟思科类比,2000年互联网泡沫,冲在前面的是思科路由器。它对外讲的也是互联网硬件的故事,一度占据网络路由器超过80%的市场份额。投资者看好互联网的前景,进而看好思科。这跟今天的英伟达非常相似。 投资人的推断逻辑是:每一轮科技变革,往往都从硬件开始。20多年前是思科,10年前是苹果,今天是英伟达。所以英伟达值得被高估。 1999年初,思科的市值占到整个美股的2.5%。即便如此,随后一年它的股价又涨了两倍,成为美股市值最高的公司。今天,即便英伟达已经是美股第四大公司,还是有人押注它的股价将涨到1300美元。这样的话,它的市值将达到3.4万亿美元,超越微软和苹果,排名美股第一。 两家公司的路径太相似了。不过,2001年互联网泡沫破灭,思科的股价跌去三分之二,至今再未达到当年高点。 有人做了一张对比图,将思科从1996年到2002年的股价走势,与英伟达2020年至今的走势叠加在一起,发现有很大重合。 归根到底,英伟达的业绩和股价,完全建立人们对AI时代的信仰上。只要这个信仰不灭,英伟达的神话就能继续,否则全都是泡沫。 华尔街明星基金经理“木头姐”说,AI热潮并非泡沫,但市场期待过高,英伟达涨过头了。此前她已经抛售了英伟达股票。另一位投资人认为,英伟达的股价透支了未来十年的业绩表现。 在备受关注的四季度财报发布之后,CEO黄仁勋对外传递信号,继续强调加速计算和生成式AI,声称AI时代的临界点已经到来。“全球各地的企业、行业和国家需求都在激增。” 挑战也显而易见。 英伟达的大客户们,一方面继续向英伟达采购GPU,同时也在加速开发替代品。巨头们不会让英伟达独享这一巨大市场。 最新消息是,微软正在研发一款新的网卡产品,以提高其AI芯片Maia的性能,最终达到减少对英伟达产品依赖的目的。OpenAI创始人奥特曼正在四处奔走,接触各路投资人,以研发自己的AI芯片。 英伟达的老对手AMD、英特尔,更是步步紧逼,相继推出直接对标英伟达H100的产品。今年,它们的产品将迎来更新,加速瓜分英伟达的客户。 英伟达一统江湖的格局,或许不会持续太久。 当然,在格局重塑之前,英伟达还会再飞一会。美股的AI狂欢,目前没有降温的迹象。当人们是在为“市梦率”买单,支撑英伟达超越微软、苹果的,就只有信仰了。","news_type":1,"symbols_score_info":{"NVDA":1.1}},"isVote":1,"tweetType":1,"viewCount":1450,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":334307237,"gmtCreate":1610699833429,"gmtModify":1703746350378,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$</a>我上调至3000美金,大家有反对的吗","listText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$</a>我上调至3000美金,大家有反对的吗","text":"$特斯拉(TSLA)$我上调至3000美金,大家有反对的吗","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":15,"commentSize":3,"repostSize":0,"link":"https://laohu8.com/post/334307237","isVote":1,"tweetType":1,"viewCount":2094,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":254380501606648,"gmtCreate":1703141016796,"gmtModify":1703141018537,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"30年以后反弹 大家外坚持坚持","listText":"30年以后反弹 大家外坚持坚持","text":"30年以后反弹 大家外坚持坚持","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"link":"https://laohu8.com/post/254380501606648","isVote":1,"tweetType":1,"viewCount":2620,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0},{"id":412082170221072,"gmtCreate":1741626811489,"gmtModify":1741626812923,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$ </a>我不知道说什么了 现在马斯克压力很大 请大家不要再做空了","listText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$ </a>我不知道说什么了 现在马斯克压力很大 请大家不要再做空了","text":"$特斯拉(TSLA)$ 我不知道说什么了 现在马斯克压力很大 请大家不要再做空了","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":8,"repostSize":0,"link":"https://laohu8.com/post/412082170221072","isVote":1,"tweetType":1,"viewCount":3654,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"4133094993849152","authorId":"4133094993849152","name":"波浪前进","avatar":"https://static.laohu8.com/default-avatar.jpg","crmLevel":1,"crmLevelSwitch":0,"idStr":"4133094993849152","authorIdStr":"4133094993849152"},"content":"痛打落水狗!小人得志,侮辱弱者,心术不正,不务正业!","text":"痛打落水狗!小人得志,侮辱弱者,心术不正,不务正业!","html":"痛打落水狗!小人得志,侮辱弱者,心术不正,不务正业!"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":981279279,"gmtCreate":1583762979291,"gmtModify":1704350765072,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/SPY\">$标普500ETF(SPY)$</a>尼玛 期权买不进去我日","listText":"<a href=\"https://laohu8.com/S/SPY\">$标普500ETF(SPY)$</a>尼玛 期权买不进去我日","text":"$标普500ETF(SPY)$尼玛 期权买不进去我日","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":8,"repostSize":0,"link":"https://laohu8.com/post/981279279","isVote":1,"tweetType":1,"viewCount":1278,"authorTweetTopStatus":1,"verified":2,"comments":[{"author":{"id":"20727972514030","authorId":"20727972514030","name":"Tony特别帅","avatar":"https://static.tigerbbs.com/61f671464b0bc8103579e8d0e2197c48","crmLevel":1,"crmLevelSwitch":0,"idStr":"20727972514030","authorIdStr":"20727972514030"},"content":"交易拥堵在排队传输订单,正在打电话给他们加急。。[抱拳]","text":"交易拥堵在排队传输订单,正在打电话给他们加急。。[抱拳]","html":"交易拥堵在排队传输订单,正在打电话给他们加急。。[抱拳]"}],"imageCount":0,"langContent":"CN","totalScore":0},{"id":330324570583184,"gmtCreate":1721676292754,"gmtModify":1721676294135,"author":{"id":"3440897161812160","authorId":"3440897161812160","name":"james duan","avatar":"https://static.tigerbbs.com/a853dee41408bff6e6595b04b4887f94","crmLevel":1,"crmLevelSwitch":0,"followedFlag":false,"idStr":"3440897161812160","authorIdStr":"3440897161812160"},"themes":[],"htmlText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$ </a><v-v data-views=\"1\"></v-v> 这一轮起飞上300","listText":"<a href=\"https://laohu8.com/S/TSLA\">$特斯拉(TSLA)$ </a><v-v data-views=\"1\"></v-v> 这一轮起飞上300","text":"$特斯拉(TSLA)$ 这一轮起飞上300","images":[],"top":1,"highlighted":1,"essential":1,"paper":1,"likeSize":6,"commentSize":6,"repostSize":0,"link":"https://laohu8.com/post/330324570583184","isVote":1,"tweetType":1,"viewCount":2916,"authorTweetTopStatus":1,"verified":2,"comments":[],"imageCount":0,"langContent":"CN","totalScore":0}],"lives":[]}