中国AI算力的突围,**生态的“破”与“立”

 

文|白   鸽 

编|王一粟

“如果DeepSeek先在**平台上发布,那对我们来说将是灾难性的。”4月15日,英伟达CEO黄仁勋在接受Dwarkesh Patel的播客专访时,说了一句分量很重的话。

而现在,黄仁勋口中的灾难正逐渐演变成为现实。

4月24日,DeepSeek V4预览版正式发布并开源,Pro版1.6万亿总参数、百万token上下文,在 Agent、数学推理、世界知识等维度登顶开源模型第一梯队。

(图片来源:DeepSeek微信公众号)

几乎同一时间,**也正式宣布,**950、A3系列超节点同步完成DeepSeek V4全版本“发布即适配”与全链路优化。

显然,这不是一次普通的模型发布与芯片适配,而是中国大模型+中国算力的历史性会师。

更关键的是,在DeepSeek V4的技术报告中,首次将**NPU与英伟达GPU并列写入硬件验证清单,明确细粒度EP(专家并行)方案在两大平台均完成验证。

这是DeepSeek历史上首次将中国AI芯片与英伟达GPU并列写入硬件验证清单,确立对等地位。这也意味着,中国算力不再是海外生态的补充选项,而是与全球顶级硬件平起平坐的核心选择。

显然,当全球AI算力长期被英伟达CUDA生态垄断、大模型训练与推理高度依赖海外硬件时,一个被无数人期待的“中国版AI算力生态”正在悄然成型。

那么,中国AI算力生态,究竟是如何掀了英伟达那张坐了十几年的“桌子”?

中国AI算力,不做CUDA仿制品

“一卡难求,包括我自己,我们虽然生产卡,但是我想用卡也很难。” ****专家在此前媒体沟通会上表示,如此坦诚得令人意外。

这份坦诚,其实也揭示了**乃至整个中国AI算力产业曾经面临的真实困境:拥有算力硬件,并不等于拥有生态,即便如**,在自家生态的建设初期,也同样面临“有卡难用”的窘境。

时间拉回2018年,**自己的AI 框架CANN初生。

用****专家的话说,那时的**深知自己的硬件和软件“是不完美的”。

而早期的AI竞争主要聚焦在框架层面,大家都在讨论哪种框架更好用。但后来,所有人都意识到,真正的生态护城河是CUDA,而CUDA的背后,是英伟达的GPU。

因此,**逐渐看清:“根本的根本其实还是芯片,因为英伟达的生态其实是构建在GPU上,CUDA是使能GPU,CANN是使能NPU的。”

在不断的探索与妥协中前行多年后,**在2025年做出了一个“痛下决心”的决定:必须从根本上解决生态问题。

当然,这个决心,也并非凭空而来,是市场的一次次“救援”与“警醒”,推动了这场变革。

ChatGPT的浪潮、DeepSeek的崛起、以及“龙虾”(OpenClaw)引爆的Agent热潮,每一次AI的范式革新,都让**看到自身在架构灵活性、算力配比、编程方式上的不足。

例如,为应对Agent带来的Token算力爆发,**“无论如何拼尽全力把FP8、FP4提前弄出来”,因为新的低精度格式能为客户带来翻倍的算力价值。

决心易下,但道路难行。想要构建一个能与CUDA生态竞争的全新体系,无异于在高速行驶的汽车上更换发动机。

彼时,面对英伟达CUDA构筑的深厚护城河,业界曾有过“仿制”的声音——做一个CUDA的“复制品”似乎是一条捷径。

但****专家明确否定了这条路:“如果仿一个CUDA,做出来的其实就是CUDA 2号。一旦出现危机时刻,我们可能什么都不能用了。”

于是,一场痛定思痛的自我革命开始了。

**决定坚持走自己的路,把底层的虚拟指令集、编译器、运行时能力全部掌握在自己手里。这就像在别人的地基上盖房子,永远不如自己打地基来得稳固。

软硬一体全面革新,用开源开放重构地基

想要掀翻英伟达的桌子,光有决心是不够的,毕竟英伟达早已经构筑了从硬件GPU到软件CUDA生态的全栈式核心竞争力。

因此,中国AI算力想要突围,就需要既有能打的硬件产品,还要有与之媲美的软件生态。

硬件层面,就不得不提到**最新的产品——Ascend 950。

2025年9月,**950在**全联接大会上亮相/截图自@**

当前,随着DeepSeek V4大模型、OpenClaw等Agent智能体的爆发,对算力提出了更极致的要求:更低的精度(FP8/FP4)、更强的长序列处理能力、以及对Token推理的极致优化。

此背景下,**在硬件层面也进行了大刀阔斧的改革,尤其是在**950芯片上。

一方面,增加对SIMT编程支持,即针对950芯片,**新增了SIMT(单指令多线程)编程支持,细化了Cache Line粒度。

这一改变直接提升了可编程性和性能表现,解决了以往编程灵活性不足的问题。

另外,**950还全面支持mxFP4/mxFP8低精度数据格式,这不仅是为了适配大模型特征,更是为了在同等算力下实现Token吞吐量的翻倍,直接提升客户的性价比。

硬件层面大刀阔斧的改革,也就使得,**在特定场景(如多模态生成、推荐)上已展现出性能优势,甚至达到“2倍、3倍”于业界水平。

这对于客户来说,就是真金白银的性价比。而这无疑也给**芯片的市场带来惊人的回报。

****专家分享了两个生动的案例:

一是客户测试最新的**950后,“测了不到一个礼拜说可以了,可以下单了”。

二是一些此前因顾忌国际压力而犹豫的客户,现在“主动联系我们”,“跑到深圳找我们签单”。客户的评价最直接:“转了一圈发现还是你们最好。” 

如果说950芯片是**的“心脏”,CANN就是**的 “灵魂”。

据了解,在软件层面,CANN(异构计算架构)也经历了“脱胎换骨”的改造,**选择了一条最艰难,但也最彻底的路,即重构CANN架构,全面开源开放。

开源开放到底开的是什么?“其实没有那么复杂,就是把我们这一套系列原来像麻花团一样团在一起的东西,一块一块结构化的拆开。每一块的能力对外都方便的让人看的到,能编程的时候能调用的到,并且代码开源。”****专家的这段话,道出了本质。

过去的CANN可能是一个高效但封闭的黑盒,而现在,他们要将其变成一个透明、可插拔、可参与的乐高积木。这项工作“不亚于把软件重写一遍”,****专家透露,团队原本计划用一年半时间完成的架构解耦,最终在“**式”的压强投入下,仅用4个月便宣告完成。

在具体的重构策略上,是在底层虚拟指令集等核心层坚持自研,确保自主根基;在上层编程接口(如Triton等)全力兼容主流开发习惯,降低开发者迁移门槛。

用****专家的话说,是“坚持走自己的路”,同时“尊重业界的开发使用习惯”。

但生态建设不是自说自话。因此,**选择了主动融入全球主流开源社区,目前**已与Triton、PyTorch、vLLM等90多个主流AI开源社区实现深度对接。

这个过程极为不易,****专家分享了一个细节:为了让Triton社区(来自OpenAI)原生支持**,团队曾从早晨8点谈到晚上10点多,用技术语言说服对方。

最终,**成为了“国内首个Triton原生认证的后端”,并推动这些社区在发布版本前,将**硬件纳入其CI(持续集成)测试体系。这意味着,**从“外部插件”变成了“内部原生支持”。

如果说芯片是肌肉,CANN就是神经系统。现如今,**把CANN进行了分层解耦,像搭积木一样让开发者可以灵活调用。更重要的是,它开始全面兼容业界主流的开发习惯。

繁荣生态,从“独角戏”到“大合唱”

技术再先进,如果开发者用不起来,生态就是空中楼阁,“只有让开发者把**用得更顺、想得更远、跑得更快,生态才能真正繁荣。”

为此,**打出了一套“组合拳”,主要解决开发者“一卡难求”和“迁移成本高”的痛点。

为了降低门槛,**决定向社区提供全年4000张卡的免费算力资源,其中超过一半是最新的**950,开发环境拉起时间从90分钟缩短至5分钟以内。同时,无论是个人开发者还是高校学生,都可以在AtomGit社区上免费使用算力,实现“边开发、边验证、边落地”。

除了算力,**还设立了2000万元的专项激励基金,专门面向个人开发者、高校学生等群体。 无论是算子开发、框架适配、模型迁移还是创新应用,只要对生态有贡献,就有机会获得激励。

****专家直言:“如果2000万花完了我再追加,今年一定要把这个钱做下去。”这种“撒钱”式的投入,本质上是对开发者时间的尊重和对生态繁荣的渴望。

截至目前,开源4个多月后,**CANN在AtomGit上的仓库从20多个增长到40多个,加上外部伙伴的项目,总计达70多个。

更可喜的是,出现了“自己的CANN”——一些企业和高校基于开源版本,开发了满足自身特定需求的分支。例如,中石油、南方电网等传统行业客户,自发基于**开源软件进行开发适配。

****专家对此乐见其成:“开源取得了我们不知道的、从来没有想过的效果。”

另外,面对海量的模型适配、算子开发需求,人力终有穷尽。

为此,**推出了全套的Agent工具链。例如,一个集成了**经验的“模型工程全流程Agent”,能在1分钟内找到模型,1小时内验证,1天内完成在**上的部署。团队甚至将优化、调优的“Skills”开源,让其他Agent也能调用,目标是将AI开发从“专家手艺”变成“全民工程”。

事实上,**生态的崛起,其意义远超过一个商业产品的成功。它回答了一个关键问题:在AI算力底座领域,中国除了追赶,能否走出一条不同的、可持续的道路?

显然,在DeepSeek V4发布的当下,AI算力竞争已进入深水区。**生态的全面革新,不仅仅是一次产品的升级,更是一次生态哲学的胜利。

它证明了中国AI算力底座不需要做谁的“影子”,通过“底层做厚、体验做轻”,通过“全面开源、全面兼容”,完全有能力构建起一个繁荣、自主、开放的AI世界。

回到文章开头的那个问题,**和DeepSeek联手,真的掀了英伟达的桌子吗?

从某种意义上说,他们已经把桌子掀翻了,他们打破了“除了英伟达别无选择”的垄断局面,为中国AI产业构建了一个安全、可靠、高性能的新选择。

当然,这场比拼还远未结束,英伟达依然强大,生态的建设也不是一朝一夕之功。

但至少在2026年的今天,我们看到了一个充满希望的未来。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论