中国AI算力的突围，**生态的“破”与“立”_老虎社区_美港股上老虎

中国AI算力的突围，**生态的“破”与“立”

文｜白鸽

编｜王一粟

“如果DeepSeek先在**平台上发布，那对我们来说将是灾难性的。”4月15日，英伟达CEO黄仁勋在接受Dwarkesh Patel的播客专访时，说了一句分量很重的话。

而现在，黄仁勋口中的灾难正逐渐演变成为现实。

4月24日，DeepSeek V4预览版正式发布并开源，Pro版1.6万亿总参数、百万token上下文，在 Agent、数学推理、世界知识等维度登顶开源模型第一梯队。

（图片来源：DeepSeek微信公众号）

几乎同一时间，**也正式宣布，**950、A3系列超节点同步完成DeepSeek V4全版本“发布即适配”与全链路优化。

显然，这不是一次普通的模型发布与芯片适配，而是中国大模型+中国算力的历史性会师。

更关键的是，在DeepSeek V4的技术报告中，首次将**NPU与英伟达GPU并列写入硬件验证清单，明确细粒度EP（专家并行）方案在两大平台均完成验证。

这是DeepSeek历史上首次将中国AI芯片与英伟达GPU并列写入硬件验证清单，确立对等地位。这也意味着，中国算力不再是海外生态的补充选项，而是与全球顶级硬件平起平坐的核心选择。

显然，当全球AI算力长期被英伟达CUDA生态垄断、大模型训练与推理高度依赖海外硬件时，一个被无数人期待的“中国版AI算力生态”正在悄然成型。

那么，中国AI算力生态，究竟是如何掀了英伟达那张坐了十几年的“桌子”？

中国AI算力，不做CUDA仿制品

“一卡难求，包括我自己，我们虽然生产卡，但是我想用卡也很难。” ****专家在此前媒体沟通会上表示，如此坦诚得令人意外。

这份坦诚，其实也揭示了**乃至整个中国AI算力产业曾经面临的真实困境：拥有算力硬件，并不等于拥有生态，即便如**，在自家生态的建设初期，也同样面临“有卡难用”的窘境。

时间拉回2018年，**自己的AI 框架CANN初生。

用****专家的话说，那时的**深知自己的硬件和软件“是不完美的”。

而早期的AI竞争主要聚焦在框架层面，大家都在讨论哪种框架更好用。但后来，所有人都意识到，真正的生态护城河是CUDA，而CUDA的背后，是英伟达的GPU。

因此，**逐渐看清：“根本的根本其实还是芯片，因为英伟达的生态其实是构建在GPU上，CUDA是使能GPU，CANN是使能NPU的。”

在不断的探索与妥协中前行多年后，**在2025年做出了一个“痛下决心”的决定：必须从根本上解决生态问题。

当然，这个决心，也并非凭空而来，是市场的一次次“救援”与“警醒”，推动了这场变革。

ChatGPT的浪潮、DeepSeek的崛起、以及“龙虾”（OpenClaw）引爆的Agent热潮，每一次AI的范式革新，都让**看到自身在架构灵活性、算力配比、编程方式上的不足。

例如，为应对Agent带来的Token算力爆发，**“无论如何拼尽全力把FP8、FP4提前弄出来”，因为新的低精度格式能为客户带来翻倍的算力价值。

决心易下，但道路难行。想要构建一个能与CUDA生态竞争的全新体系，无异于在高速行驶的汽车上更换发动机。

彼时，面对英伟达CUDA构筑的深厚护城河，业界曾有过“仿制”的声音——做一个CUDA的“复制品”似乎是一条捷径。

但****专家明确否定了这条路：“如果仿一个CUDA，做出来的其实就是CUDA 2号。一旦出现危机时刻，我们可能什么都不能用了。”

于是，一场痛定思痛的自我革命开始了。

**决定坚持走自己的路，把底层的虚拟指令集、编译器、运行时能力全部掌握在自己手里。这就像在别人的地基上盖房子，永远不如自己打地基来得稳固。

软硬一体全面革新，用开源开放重构地基

想要掀翻英伟达的桌子，光有决心是不够的，毕竟英伟达早已经构筑了从硬件GPU到软件CUDA生态的全栈式核心竞争力。

因此，中国AI算力想要突围，就需要既有能打的硬件产品，还要有与之媲美的软件生态。

硬件层面，就不得不提到**最新的产品——Ascend 950。

2025年9月，**950在**全联接大会上亮相/截图自@**

当前，随着DeepSeek V4大模型、OpenClaw等Agent智能体的爆发，对算力提出了更极致的要求：更低的精度（FP8/FP4）、更强的长序列处理能力、以及对Token推理的极致优化。

此背景下，**在硬件层面也进行了大刀阔斧的改革，尤其是在**950芯片上。

一方面，增加对SIMT编程支持，即针对950芯片，**新增了SIMT（单指令多线程）编程支持，细化了Cache Line粒度。

这一改变直接提升了可编程性和性能表现，解决了以往编程灵活性不足的问题。

另外，**950还全面支持mxFP4/mxFP8低精度数据格式，这不仅是为了适配大模型特征，更是为了在同等算力下实现Token吞吐量的翻倍，直接提升客户的性价比。

硬件层面大刀阔斧的改革，也就使得，**在特定场景（如多模态生成、推荐）上已展现出性能优势，甚至达到“2倍、3倍”于业界水平。

这对于客户来说，就是真金白银的性价比。而这无疑也给**芯片的市场带来惊人的回报。

****专家分享了两个生动的案例：

一是客户测试最新的**950后，“测了不到一个礼拜说可以了，可以下单了”。

二是一些此前因顾忌国际压力而犹豫的客户，现在“主动联系我们”，“跑到深圳找我们签单”。客户的评价最直接：“转了一圈发现还是你们最好。”

如果说950芯片是**的“心脏”，CANN就是**的 “灵魂”。

据了解，在软件层面，CANN（异构计算架构）也经历了“脱胎换骨”的改造，**选择了一条最艰难，但也最彻底的路，即重构CANN架构，全面开源开放。

开源开放到底开的是什么？“其实没有那么复杂，就是把我们这一套系列原来像麻花团一样团在一起的东西，一块一块结构化的拆开。每一块的能力对外都方便的让人看的到，能编程的时候能调用的到，并且代码开源。”****专家的这段话，道出了本质。

过去的CANN可能是一个高效但封闭的黑盒，而现在，他们要将其变成一个透明、可插拔、可参与的乐高积木。这项工作“不亚于把软件重写一遍”，****专家透露，团队原本计划用一年半时间完成的架构解耦，最终在“**式”的压强投入下，仅用4个月便宣告完成。

在具体的重构策略上，是在底层虚拟指令集等核心层坚持自研，确保自主根基；在上层编程接口（如Triton等）全力兼容主流开发习惯，降低开发者迁移门槛。

用****专家的话说，是“坚持走自己的路”，同时“尊重业界的开发使用习惯”。

但生态建设不是自说自话。因此，**选择了主动融入全球主流开源社区，目前**已与Triton、PyTorch、vLLM等90多个主流AI开源社区实现深度对接。

这个过程极为不易，****专家分享了一个细节：为了让Triton社区（来自OpenAI）原生支持**，团队曾从早晨8点谈到晚上10点多，用技术语言说服对方。

最终，**成为了“国内首个Triton原生认证的后端”，并推动这些社区在发布版本前，将**硬件纳入其CI（持续集成）测试体系。这意味着，**从“外部插件”变成了“内部原生支持”。

如果说芯片是肌肉，CANN就是神经系统。现如今，**把CANN进行了分层解耦，像搭积木一样让开发者可以灵活调用。更重要的是，它开始全面兼容业界主流的开发习惯。

繁荣生态，从“独角戏”到“大合唱”

技术再先进，如果开发者用不起来，生态就是空中楼阁，“只有让开发者把**用得更顺、想得更远、跑得更快，生态才能真正繁荣。”

为此，**打出了一套“组合拳”，主要解决开发者“一卡难求”和“迁移成本高”的痛点。

为了降低门槛，**决定向社区提供全年4000张卡的免费算力资源，其中超过一半是最新的**950，开发环境拉起时间从90分钟缩短至5分钟以内。同时，无论是个人开发者还是高校学生，都可以在AtomGit社区上免费使用算力，实现“边开发、边验证、边落地”。

除了算力，**还设立了2000万元的专项激励基金，专门面向个人开发者、高校学生等群体。无论是算子开发、框架适配、模型迁移还是创新应用，只要对生态有贡献，就有机会获得激励。

****专家直言：“如果2000万花完了我再追加，今年一定要把这个钱做下去。”这种“撒钱”式的投入，本质上是对开发者时间的尊重和对生态繁荣的渴望。

截至目前，开源4个多月后，**CANN在AtomGit上的仓库从20多个增长到40多个，加上外部伙伴的项目，总计达70多个。

更可喜的是，出现了“自己的CANN”——一些企业和高校基于开源版本，开发了满足自身特定需求的分支。例如，中石油、南方电网等传统行业客户，自发基于**开源软件进行开发适配。

****专家对此乐见其成：“开源取得了我们不知道的、从来没有想过的效果。”

另外，面对海量的模型适配、算子开发需求，人力终有穷尽。

为此，**推出了全套的Agent工具链。例如，一个集成了**经验的“模型工程全流程Agent”，能在1分钟内找到模型，1小时内验证，1天内完成在**上的部署。团队甚至将优化、调优的“Skills”开源，让其他Agent也能调用，目标是将AI开发从“专家手艺”变成“全民工程”。

事实上，**生态的崛起，其意义远超过一个商业产品的成功。它回答了一个关键问题：在AI算力底座领域，中国除了追赶，能否走出一条不同的、可持续的道路？

显然，在DeepSeek V4发布的当下，AI算力竞争已进入深水区。**生态的全面革新，不仅仅是一次产品的升级，更是一次生态哲学的胜利。

它证明了中国AI算力底座不需要做谁的“影子”，通过“底层做厚、体验做轻”，通过“全面开源、全面兼容”，完全有能力构建起一个繁荣、自主、开放的AI世界。

回到文章开头的那个问题，**和DeepSeek联手，真的掀了英伟达的桌子吗？

从某种意义上说，他们已经把桌子掀翻了，他们打破了“除了英伟达别无选择”的垄断局面，为中国AI产业构建了一个安全、可靠、高性能的新选择。

当然，这场比拼还远未结束，英伟达依然强大，生态的建设也不是一朝一夕之功。

但至少在2026年的今天，我们看到了一个充满希望的未来。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

中国AI算力的突围，**生态的“破”与“立”

评论

热议股票