無限Infinity
2024-06-21
这篇文章不错,转发给大家看看
Cerebras CTO演讲
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":319216626159768,"tweetId":"319216626159768","gmtCreate":1718955316520,"gmtModify":1718957285335,"author":{"id":3494214550036605,"idStr":"3494214550036605","authorId":3494214550036605,"authorIdStr":"3494214550036605","name":"無限Infinity","avatar":"https://static.tigerbbs.com/9db439af6c04e5d3b9408039464ca139","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":2,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":0,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>这篇文章不错,转发给大家看看</p></body></html>","htmlText":"<html><head></head><body><p>这篇文章不错,转发给大家看看</p></body></html>","text":"这篇文章不错,转发给大家看看","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/319216626159768","repostId":2423450465,"repostType":2,"repost":{"id":"2423450465","kind":"news","pubTimestamp":1711711686,"share":"https://www.laohu8.com/m/news/2423450465?lang=&edition=full","pubTime":"2024-03-29 19:28","market":"hk","language":"zh","title":"Cerebras CTO演讲","url":"https://stock-news.laohu8.com/highlight/detail?id=2423450465","media":"智东西","summary":"我非常高兴能够带大家深入了解CS3硬件架构,即Cerebras CS3系统,这是我们的第三代晶圆级系统。▲Sean Lie介绍CS3它是AI计算领域的一次飞跃,因为它的性能相比上一代CS2系统高出两倍,但功耗和价格维持不变。▲Sean Lie介绍WSE-3 AI性能的提升现在,这些改进将加速神经网络的矩阵乘法。▲Sean Lie介绍内核、晶粒以及硅晶圆片的构成现在,我们在晶圆级集成方面拥有独一无二的能力,因为我们在第一代晶圆级处理器中发明了这一工艺。","content":"<html><body><p><strong>编译 | 王傲翔</strong></p><p><strong>编辑 | 程茜</strong></p><p>芯东西3月28日消息,</p><p>开篇</p><p>一、</p><p>好的,大家好,我是Sean Lie。我非常高兴能够带大家深入了解CS3硬件架构,即Cerebras CS3系统,这是我们的第三代晶圆级系统。</p><p><img src=\"https://x0.ifengimg.com/res/2024/1B1BCB0C4950281DFC9F1E69938F2D12B8ACC642_size341_w1000_h507.png\"/></p><p>▲Sean Lie介绍CS3(图源:Cerebras AI Day 2024)</p><p>它是AI计算领域的一次飞跃,因为它的性能相比上一代CS2系统高出两倍,但功耗和价格维持不变。</p><p>让我来向大家展示我们是如何做到这一点的。</p><p>首先是基础,即计算内核,在这里,我们在久经考验的上一代WSE-2内核基础上进行构建。该内核具有48KB内存和4路16位(4-way 16bit)数据路径。</p><p><img src=\"https://x0.ifengimg.com/res/2024/4CBAE5F4A19E30804E03827716C05CFA8D96A9A4_size205_w1000_h506.png\"/></p><p>▲Sean Lie介绍WSE-3内核(图源:Cerebras AI Day 2024)</p><p>在此基础上,我们大幅提高了AI计算的性能,首先为16bit AI计算数据路径改进为8-way SIMD,同时还为8bit AI计算提供了全新的16-way SIMD数据路径。</p><p><img src=\"https://x0.ifengimg.com/res/2024/9BCF66950C2460345975229AE30EA96BE1B7C664_size331_w998_h505.png\"/></p><p>▲Sean Lie介绍WSE-3 AI性能的提升(图源:Cerebras AI Day 2024)</p><p>现在,这些改进将加速神经网络的矩阵乘法。但众所周知的是,神经网络不仅仅是矩阵乘法。因此,我们还添加了新的指令来加速非线性函数。总之,我们的这代产品能提供比上一代高出两倍的实际性能。</p><p>现在,在内存方面,我们将本地缓存改进为512字节,使其能够提供更宽的数据路径和更高的性能。结合本地内存,我们能够获得完整的内存带宽,以实现完整的SIMD性能。这是GPU内存架构根本无法实现的。</p><p>接下来,我们要做的就是把这个小的内核堆叠1万次,将其变成一个晶粒。你可以将一个晶粒想象成传统的芯片,然后我们在整个硅晶圆片上分切出84个这一的晶粒。在一块硅片、一块大型芯片上,总共可切出90万个内核。</p><p><img src=\"https://x0.ifengimg.com/res/2024/902807328EF90A6370C0E061F23A94B21AE6DC6E_size285_w1000_h467.png\"/></p><p>▲Sean Lie介绍内核、晶粒以及硅晶圆片的构成(图源:Cerebras AI Day 2024)</p><p>现在,我们在晶圆级集成方面拥有独一无二的能力,因为我们在第一代晶圆级处理器(WSE-1)中发明了这一工艺。现在,我们对其进行了改进,并与<a href=\"https://laohu8.com/S/TSM\">台积电</a>合作将该工艺扩展到5纳米。</p><p>之所以能做到这一点,是因为我们从一开始就共同设计了统一的Tile层级和Fabric架构,使我们能够用Fabric架构填充整个晶圆,将Fabric架构从单个晶粒扩展到多个晶粒。这些就是图中的小蓝线。最终,整个芯片就像一个巨大的芯片。</p><p>现在,这些小蓝线是一个大问题。原因在于,与传统的芯片到芯片的互连方式相比,例如H100GPU在DGX服务器中的互联方式,两者之间的差别是巨大的。</p><p>在晶圆上,我们可以连接10倍以上的晶粒或芯片,使其具有33倍的IO带宽,并且所有这一切的能效提高了100倍。我甚至都没有把NVLink交换机计算在内。</p><p>我们能做到这一点的原因其实很简单,当你在比较传统互连中如何在芯片之间驱动比特(bits)时,你需要通过连接器、印刷电路板,有时甚至通过长距离电缆来驱动。</p><p>这比在晶圆上驱动比特的难度和功耗要大得多,而且也要消耗更多电能。因此,我们才能把整个晶圆当作一个巨大的芯片来处理。</p><p>因此,我们所做的就是利用这块巨大的芯片,并围绕它建立一个系统。我们称之为CS3系统,它是专为晶圆级规模设计的。</p><p>现在,与GPU相比,CS3的性能数字简直令人难以置信。有了这样的性能水平,我们就能在单个芯片上实现大规模训练。</p><p>例如,只需一天时间,你就能在单个芯片上对开源CheckPoint的popular Llama 700亿参数模型进行微调,以获得10亿个指令牌(token)。即一天之内,在单芯片上对700亿参数模型进行微调。</p><p>现在,我们并未止步于此。我们建立了一个CS3集群,并将整个集群设计成单个ML加速器。现在我们之所以能做到这一点,是因为WSE-3足够大,甚至可以在单个芯片上运行最大的模型。</p><p>这也是我们能够分解计算机计算和内存的原因。而且,我们可以用数据并行缩放来进行训练。你可以视其为集群级内存和集群级计算,我们对其进行了架构设计,因此整个集群在本质上就像台单一设备。</p><p>我们的方法是,将所有模型权重放入一个名为MemoryX的外部存储器中。然后,我们将这些权重参数导入CS3系统进行运算。</p><p>我们之所以能做到这一点,是因为我们在晶圆上安装了专门的硬件机制,可以在权重参数流入晶圆时触发计算。</p><p>权重从不存储在晶圆上,甚至不会临时存储,因此它们不会占用晶圆的任何容量。你可以将其视为一个专门的存储器层次结构,能够在单个设备上建立大量模型。</p><p>接下来,我们使用一种名为SwarmX 的特殊结构将其扩展。它专为数据并行扩展而设计。它内置了broadcast和reduce机制。</p><p>由于我们只是进行多系统复制,因此其扩展与在单系统上运行是相同的。相同的架构,相同的执行流程,相同的软件界面。你可以获得集群级的计算能力,但其运行方式与单个设备无异,因为这数据只能并行处理。</p><p>在我们的上一代CS2集群中,单个集群最多可支持192个CS2系统。这已经是很大的数字了。但现在有了CS3集群,我们在单个集群中支持2048个CS3系统。这相当于256 EFLOPS的fp16 AI计算能力。而且所有程序都像单个设备一样。它超越了超级计算机的性能,但却能给用户带来单一设备的体验。</p><p>实现这一目标的原因是,我们已经大幅升级了我们的物理互连,以便其进行扩展。我们将物理链路从上一代的100Gb/s升级到400Gb/s和800Gb/s。所有这些都是基于标准的以太网。因为它性能高、灵活性强、成本效益高,所以没有NVLink或InfiniBand等定制专有互连的任何挑战。</p><p>我们还使用规范空间RDMA,以实现低开销和低延迟。如果将所有这一切汇总到2000个CS3系统上,我们的集群总带宽将达到10Pb/s,是上一代产品的10倍。有了这样的计算能力,你只需数小时或数天就能训练出当今最先进的模型。</p><p>例如,由Meta在大型GPU集群上训练的流行Llama 700亿参数模型,以CS3集群的原始计算量,大约需要一个月才能训练完成。而我们只需一天就能训练出该模型。更重要的是,整个集群就像一台设备一样运行。</p><p>在内存方面,在我们的上一代CS2集群中,MemoryX单元支持高达12TB的内存,支持2400亿个参数模型。同样,这已经是一个很大的数字。但现在。在CS3集群中,我们支持PB级内存,高达1.2PB的内存可支持24万亿个参数模型,是上一代产品的100倍。</p><p>之所以能做到这一点,是因为我们使用混合存储来存储权重。在这里,所有权重都存储在DDR5 DRAM和闪存中。因为它性能高、功耗小、成本低。在CS3集群中,MemoryX设备可支持高达36TB的DDR5 DRAM,可支持7200亿参数模型,而升级到1.2PB的闪存,可支持24万亿参数模型。</p><p>此外,MemoryX单元还具有计算功能,可以运行重量优化器,以及模型中的其他杂项功能。在这里,我们还将MemoryX单元的计算能力提高了2倍,以跟上并能够为性能更高的CS3提供支持。这种级别的内存比当今一些最大的GPU或TPU集群还要大。而这一切都可以从一个系统中访问。</p><p>有了这种级别的内存,再加上计算能力,我们就能在短短几天或几周内训练出未来的万亿参数模型。试想一下,在数千个GPU上训练一个1万亿参数的Llama-style model,可能需要一年多的时间,这几乎是不可能的。而在CS3集群上,你可以在三周内完成训练,整个集群就像一台设备一样运行。</p><p>作为用户,无论集群大小如何,无论是一台CS3、4台CS3还是2000台CS3,整个集群看起来都像一台设备。它始终看起来像一个单一的大设备。</p><p>你的模型总是符合的,不管它是十亿参数模型,还是一百亿、一千亿、几万亿参数。你的模型总是符合的。它始终看起来像一个单一的大设。这是一个真实世界的例子。这是G42,在Condor Galaxy-1上训练他们最先进的300亿参数模型。</p><p>正如你所看到的,无论是在1个系统还是在64个系统上进行训练,它都能在任何规模上进行线性扩展,同时像单个设备一样运行。它就是这样工作的。不需要复杂的分布式软件,不需要更改并行模型,不需要更改参数。它就是能够运行。我们非常自豪,晶圆级架构能够实现这一独特功能,因为它使我们的用户和客户每天都能训练出最先进的模型。</p><p>对我来说,作为一名计算机架构师,这真的非常令人兴奋。因为促成这一切的是我们Cerebras的核心设计理念,即合理调整问题的解决方案。</p><p>在座的各位可能有一些已经知道了,昨天我们的GPU朋友自豪地宣布,他们现在可以携手努力,直至生命最后一刻。这对他们来说是件大事。</p><p>这就是我们的芯片。事实上,这是我们的第三块芯片,我们可以在一块硅片上将84个芯片连接在一起,这是一块巨大的芯片。</p><p>现在,真正重要的是,你不能循序渐进地达到目标,你需要采取不同的方法,才能达到神奇发生的规模。你需要达到一定的规模,才能避免外部芯片互连,这是低性能、高能耗的专有芯片的开关。</p><p>在晶圆上,我们可以使用仅在芯片上运行的互联,基本上可以获得免费的高性能通信。你需要一定的规模,才能消除和避免分布软件和混合模型并行分布的复杂性。</p><p>在晶圆上,晶圆足够大,我们甚至可以在单个芯片上运行最大的模型。这样,我们就可以仅通过数据并行扩展和分解数据内存与计算来进行扩展。</p><p>当你根据问题调整解决方案时,一切都会变得更好。这就是我们打造巨型芯片来解决当今人工智能领域巨大问题的原因。</p><p>但我们相信我们能做到,而且我们需要做得比这更好。原因很简单。生成式AI正在以不可持续的速度爆炸式增长。如果你看一下从BERT到GPT-4的过去五年,训练最先进模型所需的计算量在五年内增加了40000倍。五年内训练一个模型所需的计算量增加了4万倍。显然,这是不可持续的。</p><p>因此,作为一个团队,我们必须找到更有效的方法。在Cerebras,我们认为稀疏性(Sparsity)是关键。</p><p>为什么这么说呢?因为神经网络是稀疏的。当你使用ReLU或Dropout等常用技术在计算中引入大量零时,你的网络中就会出现天然的稀疏性。</p><p>事实证明,即使是神经网络的密集层,也可以变得稀疏。这是因为模型在设计上被过度参数化了。</p><p>事实上,你可以把训练神经网络模型的行为看作是发现哪些权重是重要的,哪些是不重要的。这就是稀疏性。</p><p>因此,密集训练本身就是一种浪费,而且效率低下。但并非所有硬件都能利用所有形式的稀疏性。究其原因,稀疏性加速从根本上说是内存带宽的问题。</p><p>这意味着你可以使用本地缓存等技术,从内存中读取矩阵中的一行,将其放入本地缓存中,并在返回内存之前多次使用。密集矩阵乘法每物理FLOP只需要0.001字节的内存带宽。</p><p>而GPU拥有这种级别的内存带宽,因此可以运行密集矩阵乘法。而稀疏矩阵乘法则完全不同。数据重用率非常低,因此无法使用传统的缓存技术。</p><p>在极端情况下,你必须为每个稀疏元素从内存中读取矩阵的每一行。因此,要运行所有形式的稀疏性,每个物理FLOP需要多1000倍的内存带宽。</p><p>这种稀疏程度和内存带宽是传统技术无法实现的。只有采用晶圆级引擎架构,我们才能获得这种级别的内存带宽,这也是Cerebras CS3能够加速所有形式的稀疏性的原因。</p><p>静态或动态,结构化或非结构化?我们可以加速所有形式,并将其转化为训练速度。</p><p>下面是一些例子。我们可以加速动态激活稀疏性。去年,<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>发表的一篇论文显示,大模型中95%以上的FFN层可以通过反弹稀疏性实现稀疏。这意味着训练FLOP整体上减少了1.7 倍。我们可以加速结构稀疏性。</p><p>例如,Mistral最近发布了一个mixture of experts(MoE)模型,该模型在FFN层中的稀疏度达到75%。这意味着整体训练FLOPs减少了约2倍。</p><p>我们还可以加速完全非结构化的稀疏性,就像我们Cerebras正在开发的那样。我们已经证明,你可以在减少2.8倍训练FLOP的情况下诱导高达75%的稀疏性。</p><p>在 Cerebras,我们相信只有通过硬件才能加速所有形式的稀疏性,比如我提到的那些,甚至是团队尚未发明的未来形式的稀疏性。</p><p>我们真的能解决训练增长不可持续的问题吗?</p><p>谢谢大家。</p></body></html>","source":"fenghuang_stock","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>Cerebras CTO演讲</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\nCerebras CTO演讲\n</h2>\n\n<h4 class=\"meta\">\n\n\n2024-03-29 19:28 北京时间 <a href=https://tech.ifeng.com/c/8YLu3gvJU8B><strong>智东西</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>编译 | 王傲翔编辑 | 程茜芯东西3月28日消息,开篇一、好的,大家好,我是Sean Lie。我非常高兴能够带大家深入了解CS3硬件架构,即Cerebras CS3系统,这是我们的第三代晶圆级系统。▲Sean Lie介绍CS3(图源:Cerebras AI Day 2024)它是AI计算领域的一次飞跃,因为它的性能相比上一代CS2系统高出两倍,但功耗和价格维持不变。让我来向大家展示我们是如何做到...</p>\n\n<a href=\"https://tech.ifeng.com/c/8YLu3gvJU8B\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"","relate_stocks":{"CTO":"CTO Realty Growth, Inc.","BK4160":"多样化房地产投资信托v"},"source_url":"https://tech.ifeng.com/c/8YLu3gvJU8B","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2423450465","content_text":"编译 | 王傲翔编辑 | 程茜芯东西3月28日消息,开篇一、好的,大家好,我是Sean Lie。我非常高兴能够带大家深入了解CS3硬件架构,即Cerebras CS3系统,这是我们的第三代晶圆级系统。▲Sean Lie介绍CS3(图源:Cerebras AI Day 2024)它是AI计算领域的一次飞跃,因为它的性能相比上一代CS2系统高出两倍,但功耗和价格维持不变。让我来向大家展示我们是如何做到这一点的。首先是基础,即计算内核,在这里,我们在久经考验的上一代WSE-2内核基础上进行构建。该内核具有48KB内存和4路16位(4-way 16bit)数据路径。▲Sean Lie介绍WSE-3内核(图源:Cerebras AI Day 2024)在此基础上,我们大幅提高了AI计算的性能,首先为16bit AI计算数据路径改进为8-way SIMD,同时还为8bit AI计算提供了全新的16-way SIMD数据路径。▲Sean Lie介绍WSE-3 AI性能的提升(图源:Cerebras AI Day 2024)现在,这些改进将加速神经网络的矩阵乘法。但众所周知的是,神经网络不仅仅是矩阵乘法。因此,我们还添加了新的指令来加速非线性函数。总之,我们的这代产品能提供比上一代高出两倍的实际性能。现在,在内存方面,我们将本地缓存改进为512字节,使其能够提供更宽的数据路径和更高的性能。结合本地内存,我们能够获得完整的内存带宽,以实现完整的SIMD性能。这是GPU内存架构根本无法实现的。接下来,我们要做的就是把这个小的内核堆叠1万次,将其变成一个晶粒。你可以将一个晶粒想象成传统的芯片,然后我们在整个硅晶圆片上分切出84个这一的晶粒。在一块硅片、一块大型芯片上,总共可切出90万个内核。▲Sean Lie介绍内核、晶粒以及硅晶圆片的构成(图源:Cerebras AI Day 2024)现在,我们在晶圆级集成方面拥有独一无二的能力,因为我们在第一代晶圆级处理器(WSE-1)中发明了这一工艺。现在,我们对其进行了改进,并与台积电合作将该工艺扩展到5纳米。之所以能做到这一点,是因为我们从一开始就共同设计了统一的Tile层级和Fabric架构,使我们能够用Fabric架构填充整个晶圆,将Fabric架构从单个晶粒扩展到多个晶粒。这些就是图中的小蓝线。最终,整个芯片就像一个巨大的芯片。现在,这些小蓝线是一个大问题。原因在于,与传统的芯片到芯片的互连方式相比,例如H100GPU在DGX服务器中的互联方式,两者之间的差别是巨大的。在晶圆上,我们可以连接10倍以上的晶粒或芯片,使其具有33倍的IO带宽,并且所有这一切的能效提高了100倍。我甚至都没有把NVLink交换机计算在内。我们能做到这一点的原因其实很简单,当你在比较传统互连中如何在芯片之间驱动比特(bits)时,你需要通过连接器、印刷电路板,有时甚至通过长距离电缆来驱动。这比在晶圆上驱动比特的难度和功耗要大得多,而且也要消耗更多电能。因此,我们才能把整个晶圆当作一个巨大的芯片来处理。因此,我们所做的就是利用这块巨大的芯片,并围绕它建立一个系统。我们称之为CS3系统,它是专为晶圆级规模设计的。现在,与GPU相比,CS3的性能数字简直令人难以置信。有了这样的性能水平,我们就能在单个芯片上实现大规模训练。例如,只需一天时间,你就能在单个芯片上对开源CheckPoint的popular Llama 700亿参数模型进行微调,以获得10亿个指令牌(token)。即一天之内,在单芯片上对700亿参数模型进行微调。现在,我们并未止步于此。我们建立了一个CS3集群,并将整个集群设计成单个ML加速器。现在我们之所以能做到这一点,是因为WSE-3足够大,甚至可以在单个芯片上运行最大的模型。这也是我们能够分解计算机计算和内存的原因。而且,我们可以用数据并行缩放来进行训练。你可以视其为集群级内存和集群级计算,我们对其进行了架构设计,因此整个集群在本质上就像台单一设备。我们的方法是,将所有模型权重放入一个名为MemoryX的外部存储器中。然后,我们将这些权重参数导入CS3系统进行运算。我们之所以能做到这一点,是因为我们在晶圆上安装了专门的硬件机制,可以在权重参数流入晶圆时触发计算。权重从不存储在晶圆上,甚至不会临时存储,因此它们不会占用晶圆的任何容量。你可以将其视为一个专门的存储器层次结构,能够在单个设备上建立大量模型。接下来,我们使用一种名为SwarmX 的特殊结构将其扩展。它专为数据并行扩展而设计。它内置了broadcast和reduce机制。由于我们只是进行多系统复制,因此其扩展与在单系统上运行是相同的。相同的架构,相同的执行流程,相同的软件界面。你可以获得集群级的计算能力,但其运行方式与单个设备无异,因为这数据只能并行处理。在我们的上一代CS2集群中,单个集群最多可支持192个CS2系统。这已经是很大的数字了。但现在有了CS3集群,我们在单个集群中支持2048个CS3系统。这相当于256 EFLOPS的fp16 AI计算能力。而且所有程序都像单个设备一样。它超越了超级计算机的性能,但却能给用户带来单一设备的体验。实现这一目标的原因是,我们已经大幅升级了我们的物理互连,以便其进行扩展。我们将物理链路从上一代的100Gb/s升级到400Gb/s和800Gb/s。所有这些都是基于标准的以太网。因为它性能高、灵活性强、成本效益高,所以没有NVLink或InfiniBand等定制专有互连的任何挑战。我们还使用规范空间RDMA,以实现低开销和低延迟。如果将所有这一切汇总到2000个CS3系统上,我们的集群总带宽将达到10Pb/s,是上一代产品的10倍。有了这样的计算能力,你只需数小时或数天就能训练出当今最先进的模型。例如,由Meta在大型GPU集群上训练的流行Llama 700亿参数模型,以CS3集群的原始计算量,大约需要一个月才能训练完成。而我们只需一天就能训练出该模型。更重要的是,整个集群就像一台设备一样运行。在内存方面,在我们的上一代CS2集群中,MemoryX单元支持高达12TB的内存,支持2400亿个参数模型。同样,这已经是一个很大的数字。但现在。在CS3集群中,我们支持PB级内存,高达1.2PB的内存可支持24万亿个参数模型,是上一代产品的100倍。之所以能做到这一点,是因为我们使用混合存储来存储权重。在这里,所有权重都存储在DDR5 DRAM和闪存中。因为它性能高、功耗小、成本低。在CS3集群中,MemoryX设备可支持高达36TB的DDR5 DRAM,可支持7200亿参数模型,而升级到1.2PB的闪存,可支持24万亿参数模型。此外,MemoryX单元还具有计算功能,可以运行重量优化器,以及模型中的其他杂项功能。在这里,我们还将MemoryX单元的计算能力提高了2倍,以跟上并能够为性能更高的CS3提供支持。这种级别的内存比当今一些最大的GPU或TPU集群还要大。而这一切都可以从一个系统中访问。有了这种级别的内存,再加上计算能力,我们就能在短短几天或几周内训练出未来的万亿参数模型。试想一下,在数千个GPU上训练一个1万亿参数的Llama-style model,可能需要一年多的时间,这几乎是不可能的。而在CS3集群上,你可以在三周内完成训练,整个集群就像一台设备一样运行。作为用户,无论集群大小如何,无论是一台CS3、4台CS3还是2000台CS3,整个集群看起来都像一台设备。它始终看起来像一个单一的大设备。你的模型总是符合的,不管它是十亿参数模型,还是一百亿、一千亿、几万亿参数。你的模型总是符合的。它始终看起来像一个单一的大设。这是一个真实世界的例子。这是G42,在Condor Galaxy-1上训练他们最先进的300亿参数模型。正如你所看到的,无论是在1个系统还是在64个系统上进行训练,它都能在任何规模上进行线性扩展,同时像单个设备一样运行。它就是这样工作的。不需要复杂的分布式软件,不需要更改并行模型,不需要更改参数。它就是能够运行。我们非常自豪,晶圆级架构能够实现这一独特功能,因为它使我们的用户和客户每天都能训练出最先进的模型。对我来说,作为一名计算机架构师,这真的非常令人兴奋。因为促成这一切的是我们Cerebras的核心设计理念,即合理调整问题的解决方案。在座的各位可能有一些已经知道了,昨天我们的GPU朋友自豪地宣布,他们现在可以携手努力,直至生命最后一刻。这对他们来说是件大事。这就是我们的芯片。事实上,这是我们的第三块芯片,我们可以在一块硅片上将84个芯片连接在一起,这是一块巨大的芯片。现在,真正重要的是,你不能循序渐进地达到目标,你需要采取不同的方法,才能达到神奇发生的规模。你需要达到一定的规模,才能避免外部芯片互连,这是低性能、高能耗的专有芯片的开关。在晶圆上,我们可以使用仅在芯片上运行的互联,基本上可以获得免费的高性能通信。你需要一定的规模,才能消除和避免分布软件和混合模型并行分布的复杂性。在晶圆上,晶圆足够大,我们甚至可以在单个芯片上运行最大的模型。这样,我们就可以仅通过数据并行扩展和分解数据内存与计算来进行扩展。当你根据问题调整解决方案时,一切都会变得更好。这就是我们打造巨型芯片来解决当今人工智能领域巨大问题的原因。但我们相信我们能做到,而且我们需要做得比这更好。原因很简单。生成式AI正在以不可持续的速度爆炸式增长。如果你看一下从BERT到GPT-4的过去五年,训练最先进模型所需的计算量在五年内增加了40000倍。五年内训练一个模型所需的计算量增加了4万倍。显然,这是不可持续的。因此,作为一个团队,我们必须找到更有效的方法。在Cerebras,我们认为稀疏性(Sparsity)是关键。为什么这么说呢?因为神经网络是稀疏的。当你使用ReLU或Dropout等常用技术在计算中引入大量零时,你的网络中就会出现天然的稀疏性。事实证明,即使是神经网络的密集层,也可以变得稀疏。这是因为模型在设计上被过度参数化了。事实上,你可以把训练神经网络模型的行为看作是发现哪些权重是重要的,哪些是不重要的。这就是稀疏性。因此,密集训练本身就是一种浪费,而且效率低下。但并非所有硬件都能利用所有形式的稀疏性。究其原因,稀疏性加速从根本上说是内存带宽的问题。这意味着你可以使用本地缓存等技术,从内存中读取矩阵中的一行,将其放入本地缓存中,并在返回内存之前多次使用。密集矩阵乘法每物理FLOP只需要0.001字节的内存带宽。而GPU拥有这种级别的内存带宽,因此可以运行密集矩阵乘法。而稀疏矩阵乘法则完全不同。数据重用率非常低,因此无法使用传统的缓存技术。在极端情况下,你必须为每个稀疏元素从内存中读取矩阵的每一行。因此,要运行所有形式的稀疏性,每个物理FLOP需要多1000倍的内存带宽。这种稀疏程度和内存带宽是传统技术无法实现的。只有采用晶圆级引擎架构,我们才能获得这种级别的内存带宽,这也是Cerebras CS3能够加速所有形式的稀疏性的原因。静态或动态,结构化或非结构化?我们可以加速所有形式,并将其转化为训练速度。下面是一些例子。我们可以加速动态激活稀疏性。去年,谷歌发表的一篇论文显示,大模型中95%以上的FFN层可以通过反弹稀疏性实现稀疏。这意味着训练FLOP整体上减少了1.7 倍。我们可以加速结构稀疏性。例如,Mistral最近发布了一个mixture of experts(MoE)模型,该模型在FFN层中的稀疏度达到75%。这意味着整体训练FLOPs减少了约2倍。我们还可以加速完全非结构化的稀疏性,就像我们Cerebras正在开发的那样。我们已经证明,你可以在减少2.8倍训练FLOP的情况下诱导高达75%的稀疏性。在 Cerebras,我们相信只有通过硬件才能加速所有形式的稀疏性,比如我提到的那些,甚至是团队尚未发明的未来形式的稀疏性。我们真的能解决训练增长不可持续的问题吗?谢谢大家。","news_type":1,"symbols_score_info":{"CTO":1}},"isVote":1,"tweetType":1,"viewCount":2372,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/319216626159768"}
精彩评论