$英伟达(NVDA)$ put肯定大涨,看空。理由:“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?
华尔街见闻
2025年01月30日 20:53 河北 听全文
以下文章来源于量子位 ,作者关注前沿科技
来源:量子位(ID: QbitAI)作者梦晨 西风
英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力?
硬件媒体Tom‘s Hardware带来开年最新热议:
DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。
图片
这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。
图片△ DeepSeek-V3 Technical Report
这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。
PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。
这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。
换句话说,他们把优化做到了极致。
精彩评论