最近科技圈和资本市场同时被一个叫做chatjimmy.ai的新物种刷屏了,初次彻底震惊了我。
在没有英伟达高性能AI芯片的加持,这家硅谷初创公司Taalas就让旗下大模型跑出了每秒1.5万到1.7万个Token。
这是什么概念?传统的大模型每秒是跑一到两千的Token,速度是它的1/10不到,
人话说就是,你把一道极其复杂的数学题发过去,传统的AI模型还搁那一个劲思考呢,而它下一秒就罗列了好几种解法给你看:
这个升级幅度,就好比是从算盘升级到计算器, 又是一个跨越式的进步。
那这个技术逻辑是怎么实现的呢?
最大的不同就是它把大模型的几十亿参数直接刻入硅片里面,
过去的芯片算力很强,但大模型和芯片之间数据需要传输,所以要借助HBM(显存)来搬运,甚至可以说90%的电量和时间都浪费在了路上,
好比一个天才面对一个复杂问题,一秒钟就给出了答案,但寄邮件却耗费了大量的时间。
而现在大模型就内嵌在芯片自身,它直接抛弃了昂贵的HBM显存,数据不需要搬运了,因为“计算即存储,存储即计算”,于是一下就节省出大量的资源。
这就和淘宝出来后,直接对接工厂发货,省去了实体店、中间商、库存一样。
那问题来了,如果要把大模型绘制在芯片上,模型岂不是被定死,那一旦老的模型失效要迭代,芯片岂不是就废了?
这也是过去大家都不敢这么搞的原因,因为模型迭代太快了,而且专门绘制一个大模型芯片的成本也很高,动辄上亿美金。
但如今随着Transformer语言的普及,大语言模型越来越成熟,那么这种商业路径成了可能。
而这次Taalas就是做了一个全自动的硅片编译器,可以实现自动给芯片电路编码,从而大幅提高效率降低成本。
效率方面,Taalas宣称把“大模型”转化为“定制芯片”的周期,可以从过去的一年降低到两个月。
成本方面,由于它抛弃了昂贵的HBM芯片,加上GPU用的普遍是H100芯片,如果换到大模型专用芯片上,只需要使用价格仅为1/20的6nm芯片就可以搞定运算。
这种情况即便是出了新的更强大模型,它也可以直接报废掉,换一个新的芯片就完事。
另外,估计有人也会好奇,这种绑定芯片的大模型,会不会因为没法更新迭代,导致知识永远停留在出厂那一天?
实际上大模型刻入芯片,只是模型本身的迭代不能进行了,就好比一个IQ180的人不能继续进化到IQ200,但它的逻辑推理能力,知识检索能力依旧顶级。
而且刻入芯片之后,访问大模型虽然不需要联网了,但它本身依然是具有联网能力的,依然可以找到最新的信息去学习,分析并且解决。
这就导致面对紧急突发状况的时候,它的响应速度远超过去的大模型,有更好的使用场景。
1、智能驾驶领域,当汽车在马路上突发紧急事件,有些复杂的问题根本无法解决~
比如前面临时修路了,原本的实线被磨掉了,交警拿着指挥棒示意你逆行绕过障碍物,传统的自动驾驶芯片擅长的是快速识别图像,但对这种需要快速逻辑推理的场景是无能无力的。
这种情况它根本等不起把数据打包传给阿里云、亚马逊等云端大模型来反馈结果,它需要的是和人类一样,低于1毫秒的“本能逻辑推理反射”。
2、高频量化领域,可以在宏观对冲金融里开“外挂”
在处理宏观新闻、财报、非农数据时,美联储鲍威尔的讲话文稿刚一发布,芯片就能以17000Token/秒的速度,在零点几毫秒内瞬间“吞下”几万字的报告,立刻得出“鹰派/鸽派”的定性,并转化为做多/做空大宗商品或股指期货的信号。
3、军工领域,这种无需联网、固化在物理硬件里的高智商芯片,是武器系统唯一的最佳选择。
哪怕是处在断网的“信息孤岛”,它还是能凭着出厂时被赋予的庞大参数,独立进行极速的战术分析和保密决策。
...................
当然,我们也要关注这个背后长远看一些潜在的利空,
最近一年,以三星、美光,SK海力士为首的三大HBM存储巨头股价狂飙,底层逻辑都靠一个支撑:“AI的尽头是算力,算力的尽头是HBM”。
如果chatjimmy.ai这种“无HBM化”的芯片普及,甚至形成燎原之势,对这三大巨头绝对不仅仅是“有影响”,而是巨大的估值逻辑破坏。
另一方面,以前云计算借助AI推理全面收取过路费的模式,也可能会被打上一个问号。
毕竟如果人人的手机、汽车都有这种AI大模型芯片,绝大多数日常问题在本地0.1秒就免费解决了。
真正需要传到云端、花钱去求ChatGPT或Gemini这种复杂模型来解答的流量,可能连20%都不到。
不过对于资金布局在这些方向的人来说,明白危机的同时,也别太过于焦虑了。
因为短期来说它能写入的模型水平还是有限的,也就是目前仅限几十亿参数的初中生智商水平,距离真正顶级,动辄上百万亿参数模型还为之尚远。
也就是它五到十年内的使用场景更多还只是在一些特定的领域,尤其是对于一些对“断网、低延迟、绝对隐私”有极端要求的垂直领域——比如我前面提到的智能驾驶、军工系统、或者是金融量化高频交易。
但拉长来看,技术进步的速度确实是难以估量的,谁又知道哪天这些顶级模型写入芯片之后,每个人的设备终端都拥有了顶级离线AI,世界又会演变成什么夸张的模样。
就说这些...
精彩评论