金蝉Catherine
2024-12-26
这篇文章不错,转发给大家看看
英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
1
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":385722827452600,"tweetId":"385722827452600","gmtCreate":1735198231824,"gmtModify":1735198233551,"author":{"id":3564367031412187,"idStr":"3564367031412187","authorId":3564367031412187,"authorIdStr":"3564367031412187","name":"金蝉Catherine","avatar":"https://static.tigerbbs.com/9443db75b550839b2537f47e7674b759","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":3,"crmLevelSwitch":1,"currentWearingBadge":{"badgeId":"35ec162348d5460f88c959321e554969-1","templateUuid":"35ec162348d5460f88c959321e554969","name":"精英交易员","description":"证券或期货账户累计交易次数达到30次","bigImgUrl":"https://static.tigerbbs.com/ab0f87127c854ce3191a752d57b46edc","smallImgUrl":"https://static.tigerbbs.com/c9835ce48b8c8743566d344ac7a7ba8c","grayImgUrl":"https://static.tigerbbs.com/76754b53ce7a90019f132c1d2fbc698f","redirectLinkEnabled":0,"hasAllocated":1,"isWearing":1,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2024.04.20","exceedPercentage":"60.11%","individualDisplayEnabled":0},"individualDisplayBadges":[],"fanSize":40,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body>这篇文章不错,转发给大家看看</body></html>","htmlText":"<html><head></head><body>这篇文章不错,转发给大家看看</body></html>","text":"这篇文章不错,转发给大家看看","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/385722827452600","repostId":2494988671,"repostType":2,"repost":{"id":"2494988671","kind":"news","pubTimestamp":1735194600,"share":"https://www.laohu8.com/m/news/2494988671?lang=&edition=full","pubTime":"2024-12-26 14:30","market":"us","language":"zh","title":"英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了","url":"https://stock-news.laohu8.com/highlight/detail?id=2494988671","media":"量子位","summary":"英伟达老黄,成了今年的圣诞老黄。AI芯片大礼包刚刚曝光:GPU新核弹B300,以及附带CPU的超级芯片GB300。△GrokAI绘图包含72块GB300的“新一代计算单元”GB300 NVL72,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size下达到10万tokens的唯一方案”。这与今年3月份“AI春晚”发布的B200系列只隔了几个月。One More Thing英伟达消费级显卡方面,RTX5090的PCB板也首次曝光了~就在昨天,一张RTX 5090 PCB照片在网上疯转。","content":"<html><head></head><body><p>英伟达老黄,成了今年的圣诞老黄。</p><p style=\"text-align: left;\">AI芯片大礼包刚刚曝光:</p><p style=\"text-align: left;\">GPU新核弹<strong>B300</strong>,以及附带CPU的超级芯片<strong>GB300</strong>。</p><p style=\"text-align: left;\"><strong>高算力</strong>,在产品层面上相比B200在FLOPS上提高50%</p><p style=\"text-align: left;\"><strong>大显存</strong>,从192GB提升到288GB,也是提高了50%。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/8f9e5c5a6f2c34097efd9ea26e6b1bb1\" alt=\"△Grok AI绘图\" title=\"△Grok AI绘图\" tg-width=\"1024\" tg-height=\"768\"/><span>△Grok AI绘图</span></p><p style=\"text-align: left;\">包含72块GB300的“新一代计算单元<strong>”GB300 NVL72</strong>,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size下达到10万tokens的唯一方案”。</p><p style=\"text-align: left;\">这与今年3月份“AI春晚”发布的B200系列<strong>只隔了几个月</strong>。</p><p style=\"text-align: left;\">根据SemiAnalysis爆料,从第三季度开始,<strong>许多AI巨头已经将订单从B200转移到了B300</strong>(只有微软还在第四季度继续购买了部分B200)。</p><p style=\"text-align: left;\">有不少网友感叹,更新速度实在太快了!</p><p style=\"text-align: left;\">既是解决了此前传闻中B200因设计缺陷被迫推迟的问题,又是对隔壁AMD MI300系列后续产品将在2025年提升显存容量的回应。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/0dc1722b58eb13468099c2bac62e47ce\" alt=\"\" title=\"\" tg-width=\"1064\" tg-height=\"456\"/></p><h2 id=\"id_3472682946\" style=\"text-align: left;\">又一款AI核弹</h2><p style=\"text-align: left;\">既然都是Blackwell架构没有跨代,B300的算力提高来自哪里呢?</p><p style=\"text-align: left;\">根据这次爆料,主要有三部分:</p><ul style=\"list-style-type: square;\"><li><p><strong>工艺节点,</strong>与B200使用同样的台积电4NP,但是全新流片</p></li><li><p><strong>增加功率,</strong>GB300和B300 HGX的TDP分别达到1.4KW、1.2KW,相比之下B200系列分别提高0.2KW</p></li><li><p><strong>架构微创新,</strong>例如在CPU和GPU之间动态分配功率</p></li></ul><p style=\"text-align: left;\">除了更高FLOPS之外,B300系列的显存也做了升级:</p><ul style=\"list-style-type: square;\"><li><p>从8层堆叠的<strong>HBM3E</strong>升级到12层(12-Hi HBM3E)</p></li><li><p><strong>显存容量</strong>从192GB升级到288GB</p></li><li><p><strong>显存带宽</strong>保持不变,仍为8TB/s</p></li></ul><p style=\"text-align: left;\">此外产品交付层面还有一个大变化:</p><p style=\"text-align: left;\">GB200系列提供整个<strong>Bianca Board</strong>,也就包括两颗GPU、一颗CPU、CPU的内存等所有组件都集成在一块PCB版上。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/262abf69a417b8ad4b4fe50f47dc1345\" alt=\"△GB200概念图\" title=\"△GB200概念图\" tg-width=\"1080\" tg-height=\"608\"/><span>△GB200概念图</span></p><p style=\"text-align: left;\">GB300系列将只提供<strong>参考板</strong>(Reference Board),包括两颗B300 GPU、一颗Grace CPU、HMC(Hybrid Memory Cube),<strong>LPCAMM内存模块等组件将由客户自行采购</strong>。</p><p style=\"text-align: left;\">这给供应链上的OEM和ODM制造商带来了新的机会。</p><h2 id=\"id_1947192978\" style=\"text-align: left;\">为推理大模型打造</h2><p style=\"text-align: left;\">显存的升级对OpenAI o1/o3一类的推理大模型至关重要,因为<strong>推理思维链长度会增加KVCache</strong>,影响batch size和延迟。</p><p style=\"text-align: left;\">以一个GB300 NVL72“计算单元”为单位考虑时,<strong>它使72个GPU能够以极低的延迟处理相同的问题,并共享显存</strong>。</p><p style=\"text-align: left;\">在此基础上从GB200升级到GB300,还可以带来许多好处:</p><ul style=\"list-style-type: square;\"><li><p>每个思维链的延迟更低</p></li><li><p>实现更长的思维链</p></li><li><p>降低推理成本</p></li><li><p>处理同一问题时,可以搜索更多样本,最终提高模型能力</p></li></ul><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/c6ede47651ca86916acaab778d3b6b4c\" alt=\"\" title=\"\" tg-width=\"934\" tg-height=\"926\"/></p><p style=\"text-align: left;\">为了解释这些提升,SemiAnalysis举了个更为直观的例子。</p><p style=\"text-align: left;\">下图是在不同批处理大小下,使用H100和H200两种GPU处理长序列时,Llama 3.1 405B在FP8精度下的处理速度。</p><p style=\"text-align: left;\">输入设置为1000个token、输出19000个token,由此模拟OpenAI o1和o3模型中的思维链。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/9b2bd9895782829d037932bc532e22d6\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"909\"/></p><p style=\"text-align: left;\">从H100升级到H200,有两个显著改进。</p><p style=\"text-align: left;\">一是在所有可比较的batch size中,H200的内存带宽更大(H200 4.8TB/s,H100 3.35TB/s),从而使得处理效率普遍提高了43%。</p><p style=\"text-align: left;\">二是H200可运行更高的batch size,这使得其每秒可以生成的token数量增加了3倍,相应地,成本也减少了约3倍。</p><p style=\"text-align: left;\">内存增加所带来的效益远不止表面上的这些。</p><p style=\"text-align: left;\">众所周知,推理模型响应时间一般更长,显著缩短推理时间可以提高用户体验和使用频率。</p><p style=\"text-align: left;\">而且内存升级实现3倍性能提升,成本减少3倍,这一提升速度也远超摩尔定律。</p><p style=\"text-align: left;\">除此之外,SemiAnalysis还分析观察到,能力更强和具有明显差异化的模型能收取更高的溢价——</p><p style=\"text-align: left;\">前沿模型毛利率超70%,而还在与开源模型竞争的次一级模型毛利率不足20%。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/971b41b1bd146a1ffc0f841ce14c5f53\" alt=\"\" title=\"\" tg-width=\"232\" tg-height=\"232\"/></p><p style=\"text-align: left;\">当然,英伟达并不是唯一一家能增加内存的芯片公司,但奈何英伟达还有杀手锏<strong>NVLink</strong>。</p><h2 id=\"id_2492167468\" style=\"text-align: left;\">One More Thing</h2><p style=\"text-align: left;\">英伟达消费级显卡方面,RTX5090的PCB板也首次曝光了~</p><p style=\"text-align: left;\">就在昨天,一张RTX 5090 PCB照片在网上疯转。</p><p style=\"text-align: left;\">特点就是超超超大号。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/59e9064e23e7fce44e6485fab4e3e0ae\" alt=\"\" title=\"\" tg-width=\"944\" tg-height=\"1262\"/></p><p style=\"text-align: left;\">结合此前爆料称5090有可能会配备<strong>32GB大显存</strong>,有望支持8K超高清游戏,实现60fps的流畅游戏体验。</p><p style=\"text-align: left;\">网友们直接坐不住。</p><p style=\"text-align: left;\">关于5090的发布时间,大伙儿猜测大概会是1月6日老黄CES演讲的时候。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/4e094bf588d8b1240f033628a88c4dc9\" alt=\"\" title=\"\" tg-width=\"1080\" tg-height=\"822\"/></p></body></html>","source":"lsy1569318700471","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-12-26 14:30 北京时间 <a href=https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247769299&idx=1&sn=95131baf4a6bb2d01e3360c42d48e253&chksm=e9b5ad81139c6e7589760ba4b53ebf76ae49ba75ef44dfd0646fefdb6578d047d7b11e8875d1&scene=0&xtrack=1#rd><strong>量子位</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>英伟达老黄,成了今年的圣诞老黄。AI芯片大礼包刚刚曝光:GPU新核弹B300,以及附带CPU的超级芯片GB300。高算力,在产品层面上相比B200在FLOPS上提高50%大显存,从192GB提升到288GB,也是提高了50%。△Grok AI绘图包含72块GB300的“新一代计算单元”GB300 NVL72,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size...</p>\n\n<a href=\"https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247769299&idx=1&sn=95131baf4a6bb2d01e3360c42d48e253&chksm=e9b5ad81139c6e7589760ba4b53ebf76ae49ba75ef44dfd0646fefdb6578d047d7b11e8875d1&scene=0&xtrack=1#rd\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/e0fa0107e181d7e3dd174764f4d7d9d0","relate_stocks":{"NVDA":"英伟达"},"source_url":"https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247769299&idx=1&sn=95131baf4a6bb2d01e3360c42d48e253&chksm=e9b5ad81139c6e7589760ba4b53ebf76ae49ba75ef44dfd0646fefdb6578d047d7b11e8875d1&scene=0&xtrack=1#rd","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2494988671","content_text":"英伟达老黄,成了今年的圣诞老黄。AI芯片大礼包刚刚曝光:GPU新核弹B300,以及附带CPU的超级芯片GB300。高算力,在产品层面上相比B200在FLOPS上提高50%大显存,从192GB提升到288GB,也是提高了50%。△Grok AI绘图包含72块GB300的“新一代计算单元”GB300 NVL72,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size下达到10万tokens的唯一方案”。这与今年3月份“AI春晚”发布的B200系列只隔了几个月。根据SemiAnalysis爆料,从第三季度开始,许多AI巨头已经将订单从B200转移到了B300(只有微软还在第四季度继续购买了部分B200)。有不少网友感叹,更新速度实在太快了!既是解决了此前传闻中B200因设计缺陷被迫推迟的问题,又是对隔壁AMD MI300系列后续产品将在2025年提升显存容量的回应。又一款AI核弹既然都是Blackwell架构没有跨代,B300的算力提高来自哪里呢?根据这次爆料,主要有三部分:工艺节点,与B200使用同样的台积电4NP,但是全新流片增加功率,GB300和B300 HGX的TDP分别达到1.4KW、1.2KW,相比之下B200系列分别提高0.2KW架构微创新,例如在CPU和GPU之间动态分配功率除了更高FLOPS之外,B300系列的显存也做了升级:从8层堆叠的HBM3E升级到12层(12-Hi HBM3E)显存容量从192GB升级到288GB显存带宽保持不变,仍为8TB/s此外产品交付层面还有一个大变化:GB200系列提供整个Bianca Board,也就包括两颗GPU、一颗CPU、CPU的内存等所有组件都集成在一块PCB版上。△GB200概念图GB300系列将只提供参考板(Reference Board),包括两颗B300 GPU、一颗Grace CPU、HMC(Hybrid Memory Cube),LPCAMM内存模块等组件将由客户自行采购。这给供应链上的OEM和ODM制造商带来了新的机会。为推理大模型打造显存的升级对OpenAI o1/o3一类的推理大模型至关重要,因为推理思维链长度会增加KVCache,影响batch size和延迟。以一个GB300 NVL72“计算单元”为单位考虑时,它使72个GPU能够以极低的延迟处理相同的问题,并共享显存。在此基础上从GB200升级到GB300,还可以带来许多好处:每个思维链的延迟更低实现更长的思维链降低推理成本处理同一问题时,可以搜索更多样本,最终提高模型能力为了解释这些提升,SemiAnalysis举了个更为直观的例子。下图是在不同批处理大小下,使用H100和H200两种GPU处理长序列时,Llama 3.1 405B在FP8精度下的处理速度。输入设置为1000个token、输出19000个token,由此模拟OpenAI o1和o3模型中的思维链。从H100升级到H200,有两个显著改进。一是在所有可比较的batch size中,H200的内存带宽更大(H200 4.8TB/s,H100 3.35TB/s),从而使得处理效率普遍提高了43%。二是H200可运行更高的batch size,这使得其每秒可以生成的token数量增加了3倍,相应地,成本也减少了约3倍。内存增加所带来的效益远不止表面上的这些。众所周知,推理模型响应时间一般更长,显著缩短推理时间可以提高用户体验和使用频率。而且内存升级实现3倍性能提升,成本减少3倍,这一提升速度也远超摩尔定律。除此之外,SemiAnalysis还分析观察到,能力更强和具有明显差异化的模型能收取更高的溢价——前沿模型毛利率超70%,而还在与开源模型竞争的次一级模型毛利率不足20%。当然,英伟达并不是唯一一家能增加内存的芯片公司,但奈何英伟达还有杀手锏NVLink。One More Thing英伟达消费级显卡方面,RTX5090的PCB板也首次曝光了~就在昨天,一张RTX 5090 PCB照片在网上疯转。特点就是超超超大号。结合此前爆料称5090有可能会配备32GB大显存,有望支持8K超高清游戏,实现60fps的流畅游戏体验。网友们直接坐不住。关于5090的发布时间,大伙儿猜测大概会是1月6日老黄CES演讲的时候。","news_type":1,"symbols_score_info":{"NVDA":1.1}},"isVote":1,"tweetType":1,"viewCount":1189,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/385722827452600"}
精彩评论