年末 AI 回顾:从模型到应用,从技术到商战,拽住洪流中的意义之线(上)
一份拓展中的 AI 地图。
文丨程曼祺
本篇文章是《晚点聊》年终特别节目《年末 AI 复盘》的精简文字版,总结了 25 年和即将过去的蛇年,《晚点》在 AI 领域的观察、见闻和这一年多里发生的 AI 大事件。
全文分为 7 个主题:
1. 模型
2. 应用
3. 巨头的 AI 之战:字节、阿里、腾讯
4. 创业公司们
5. 具身智能
6. AI 硬件
7. AI 中的人
每个部分会按照若干关键词展开,并穿插指引《晚点聊》的相关往期节目或《晚点》的相关文章。
历史正在加速发生,洪流中容易五色迷目。但人是意义的动物,我们总试图理解和抓住什么。希望这期年底的大型 “连点成线”,可以帮关注 AI 进展的朋友得到一份正在拓展中的地图。
1.模型
关键词:Agentic Model、协同设计、下一个学习范式
本轮 AI 热潮仍处在早期,技术变化是最重要的驱动力,也是推演产品形态和商业格局的重要基点。所以我们的回顾从模型技术开始。
Agentic Model
Agentic Model 就是能支持 Agent 能力的模型。在 25 年 3 月的第 106 期(与真格合伙人戴雨森聊 Agent)以及此后的第 110 期(与明势合伙人夏令聊垂直 Agent)节目中,都有对 Agentic 模型框架的详细拆解。
总结来说,Agent 需要模型的这样几种能力:
- 推理能力,能思考更复杂的任务和规划任务;
- Coding 编程能力;
- 多模态能力,尤其是多模态理解能力;
- 工具使用能力,这和推理、Coding 和多模态能力都相关;
- 记忆能力,能存储长期的上下文,而且能在处理特定任务时,知道调用哪些适当的上下文。
推理模型
Agentic Model 这一年的发展,要从年初 DeepSeek-R1 的爆火说起,这标志着推理模型的崛起。
更早的推理模型是 OpenAI 在 24 年 9 月发布的 o1,而 DeepSeek R1 是全球第一个在大参数规模上复现了 o1 的推理模型。
一个幕后故事是,R1 发布同一天,Kimi 也发布了推理模型 K1.5。其实两家公司都各自知晓对方就快发推理模型了,最后赶上了同一天——25 年 1 月 20 日。这个日期未来会是中国 AI 史上值得纪念的一天。
R1 后来的影响力远大于 K1.5,也远大于原始版本 o1。除了实力过硬之外,还有 3 个关键的因素:一,它是一个完全开源模型,而且开源了最强、最大的旗舰版本;二,它的技术报告十分详细;三,它特别在报告中高亮了 557 万美元的最后一次训练成本。
前两个因素是 AI 研究者关注 DeepSeek 的原因。从更早时的 V2 和 V3 起,DeepSeek 在欧美 AI 研究群体里,就以慷慨的分享精神赢得了大量尊重和讨论。
梁文锋本人对开源非常坚定。一个我们报道过的小故事是, 23 年下半年,光年之外联创袁进辉在筹备创立新的 AI Infra 公司硅基流动,梁文锋考虑过投资,但是说:如果 “大模型的推理引擎” 不开源,他就没兴趣了。袁进辉当时没想清楚开源的商业模式,就没有拿这笔钱。
而第三个因素——看起来极低的训练成本,则引起了美国政商领域的更广泛关注,以至于特朗普也点评了 DeepSeek,英伟达股价一度大跌。一个美国人都说厉害的 AI 大模型,在全国人民都闲着的春节假期,引发了史无前例的科技狂潮。
从 R1 的爆火中,其实可以看到一种技术影响力的扩散路径:先在全球核心 AI 研究者中产生小范围、但好评度很高的影响力,然后是由一个契机破圈,以及 AI 领域比较特别的——出口转内销。
说回推理模型本身,o1 和 R1 带来的效果提升,主要表现为多步推理能力,就是可以一步一步地去思考一个复杂问题,提升回答的准确性、全面性和规划能力。这也激发了 ChatBot 类产品的一个主流功能:Deep Research,深度研究。
而这个效果提升背后的新技术范式是,把更多算力,放到了模型使用阶段,也就是推理的阶段,这就是 “测试时计算”(Test-time Compute) 的 Scaling。
DeepSeek 的慷慨开源帮业界证实了很多假设:比如,推理能力不需要依赖蒙特卡洛树等搜索算法;也不一定需要用人工构造的思维链数据来做监督微调,而是可以在基模之上直接从 0 开始强化学习。这降低了其它团队的试错成本。
R1 的存在还是一个观念的胜利:即可以依靠小规模、且非常年轻的研发团队,以相对低的成本,快速复现最好的模型成果。R1 甚至直接促使了一个新团队的诞生,就是盛大创始人陈天桥投资支持的 MiroMind。DeepSeek 让陈天桥看到,研发和训练出顶尖模型的投入比他之前想象得要小得多。
Coding
当 R1 和一系列推理模型提升深度思考能力时,24 年埋下的另一颗种子也悄然发芽,即 Anthropic 引领的 Coding 能力超强的模型——Claude 3.5 和后续模型。
Anthropic 也在 25 年 2 月正式发布了自己的 AI Coding 产品 Claude Code——后来人们会发现,它其实就是一个 General Agent,比 25 年 3 月初发布的 “世界首个通用 Agent” Manus 还早一个月。
Coding 之所以重要,是因为在数字世界里,会编程,就像人有了强健的手和脚,可以解锁大量任务,这是大模型支撑复杂 Agent 应用的重要基础。
整个 25 年至今,全球顶尖模型厂商都在加大对 Coding 的投入,其中不少都直接下场做了 Coding 应用。如 OpenAI 在 4 月发布了 Codex,x.ai 8 月发布了 Grok Code Fast,Google 在 11 月发布了 Antigravity。
多模态
25 年出现的一些新的 AI agent 体验离不开多模态,如 136 期中,Lovart 创始人陈冕聊到了他们当时刚上线不久的 ChatCanvas 功能,就是用户可以手动在生成的设计图上选定一个区域,告诉 Agent 怎么进一步优化和修改。这背后就需要模型能理解图像。
现在,全球最领先的大模型都已演进为原生多模态模型,即用同一个模型来处理文字、图片、语音等不同模态的信息。而这之前,多模态能力是分开实现然后拼接的。最早发布的这类模型是 24 年的 OpenAI 4o 和 Gemini 1.5。去年 11 月发布的 Gemini 3,还有近期刚发布的 Kimi 2.5 也都是原生多模态模型。
同时,也有不少专门做多模态生成的模型,比如中国公司做的很不错的视频生成模型,像可灵、MiniMax 的海螺、SeedDance 等。去年 Google 发布 Veo 3 和大火的 Nano Banana 亦是专门的视觉生成模型。
在 146 期聊 Gemini 3 和 Agent 需要的模型时提到,Nano Banana 和 NotebookLM 都发源于 Google 的一个部门 Google Labs,负责人是 Google 传奇产品经理 Josh Woodward。这个部门不仅有研发人员和工程师,也会招主编、设计师等做内容的人。他们创造了很多火爆出圈的玩法,比如,把自己的照片做成桌面手办的图片,一度风靡社交网络。这背后就是 Nano Banana。
而另一些公司,如 Anthropic、Kimi 和 DeepSeek 都没有把多模态生成作为重点。这和不同团队的技术判断、想做的应用方向和资源多少有关。
总结 Agentic Model:随着大模型的推理、编程、多模态等能力持续提升,去做主动性更高、能完成更复杂任务的 Agent 应用的时机到了,25 年普遍被认为是 Agent 应用出现的元年。这个趋势还在快速发展,如最近爆火的 OpenClaw。
协同优化
阿里千问、腾讯 AI 的研发组织整合
这是指模型的开发方式和研发团队的组织方式。
在 146 期,聊 Gemini 3 等技术进展时,在 Google 云 Vertex 部门工作了 7 年的 Bethany Wang 分享了她看到的 Google 卷土重来的一个关键——Co-design(协同设计):
Google 多年的布局,让它全面掌握了训练 AI 的 TPU 芯片,芯片上面的 JAX、Pallas 等软件库,面向大模型的 Infra,再到云平台、模型和最上层的应用。能从底层到上层,一路协同优化,形成了 Superpower。
其实这种 “协同设计” 的垂直整合思路很自然,因为大模型训练是一个大型复杂系统工程,GPU 等硬件、Infra 等软件系统和算法都相互影响。最近阿里总结的 “通云哥 “:通义-阿里云-平头哥的战略组合,也是一个类似的垂直整合的思路。
在千问模型团队的内部,更紧密的整合也正在发生。我的同事高洪浩,在《晚点》上周发布的《字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争》这篇文章里,就提到:在阿里通义千问团队,他们从 25 年下半年开始,招募自己的 Infra 人才。这之前,千问的 Infra 主要是阿里云的人工智能平台 PAI 来支持的,但后来他们认为自建 Infra,能更敏捷地开发,也能和算法有更紧密的结合。
腾讯 AI 大模型的新负责人姚顺雨,近期也在一次内部会上提到了 Co-design:认为从 Infra 到算法再到产品协同打通,可以加快迭代,减少内耗。腾讯已经把 AI Infra 部门也划到了姚顺雨的管辖范围。
DeepSeek 开源周:超低的推理成本如何实现
而 DeepSeek 作为一个从 0 搭建的团队,则是在一开始就很自然地形成了协同优化。如 Infra 团队也会参与算法设计讨论,如果一个算法设想从 Infra 层面很难有稳定的实现,这个想法可能会被否掉。DeepSeek 能做到这一点,在于梁文锋对整个模型训练的各环节都比较了解,且会 Hands-on 地参与其中。
25 年年初的一个事件,展现了 DeepSeek 超强的 Infra 能力和工程能力,就是 DeepSeek 开源周。从 2 月 24 日到 28 日,周一到周五,DeepSeek 每一天放出了一个 Infra 领域的开源成果。然后在周六发布了一篇收官博客:《DeepSeek-V3/R1 推理系统总结》,其中还根据某一天 24 小时的实机数据,测算了 DeepSeek 推理系统的成本。
《晚点聊》有两期相关节目。一是在 102 期,我们和 DeepSeek 前实习生王子涵聊大模型开源现状,和它与传统软件开源的区别。其中有一个问题我印象很深,是像 DeepSeek 这样,一直开源最强的旗舰模型,是为什么 ? 他说有两个可能:一是老板不想赚钱,要造福社会。二是想做更大的事,比如成为一种行业标准。
另一期节目和 DeepSeek 开源周引起的一个行业风波有关。就是在周六发布的那篇总结文章里,DeepSeek 公布的推理成本非常低,在 24 小时里,用 1800 多张卡,支持了 6000 多亿的输入 Token 和接近 1700 亿的输出 Token。DeepSeek 还以当时的 GPU 租金和自家模型的官方定价,计算了一个利润率,换算成毛利率是惊人的 84.5%。
做第三方 AI Infra 服务的潞晨科技创始人尤洋直呼不可能,他认为 DeepSeek 这种算法,没有考虑波峰、波谷的调用量变动。具体的讨论可以参见第 105 期对尤洋的访谈。这种争议本身,也侧面说明了 DeepSeek 的 Infra 优化非常极致。
硅基流动创始人袁进辉当时也在这篇文章的知乎留言区里评论:
DeepSeek 披露的成本和收益,又一次颠覆了很多人认知。现在很多供应商还做不到这个水平,主要是 V3/R1 架构和其它主流模型差别太大了。他推测,DeepSeek 团队可能是先想到了这样一个模型结构,然后解决了稳定训练和推理的工程问题。也可能是反过来,从系统出发,设计了这样一个模型结构。
不管是哪一种,都需要模型和算法的紧密合作。
注意力机制改进:稀疏与线性
在协同优化这部分,还想特别讲一讲注意力机制的改进。注意力是 Transformer 架构大模型的核心机制,简单来说,改进原始注意力机制是为了让模型能处理更长的上下文,而模型之所以在上下文长度上有瓶颈,又是因为注意力的计算方式会带来很大的计算复杂度和显存开销,而这两件事都是被 GPU、TPU 的算力、互联效率和存储等物理底层限制的。
25 年,我们做了 3 期和注意力机制改进相关的节目,正好涵盖两个主流方向:稀疏注意力和线性注意力,分别是 103 期、104 期和 143 期。这几期节目都是从模型架构的改进聊起,但都自然地延伸到了系统层和硬件底层,比如 103 期中,我们聊到了 Flash Attention 就是早期的一个系统-算法的协同改进,基于对 GPU 内存访问特性的理解,它通过改变标准注意力的计算顺序,提升了计算的效率、降低了显存开销。在 143 期中,DeltaNet 的核心贡献者杨松琳也分享了,她是怎么从一个算法研究员,自学了改写 Kernel 等系统层的能力。她对 DeltaNet 的核心优化就是提出了一个对 GPU 更友好的,可以做 scalable 训练的方法。
算力:从拼单颗芯片性能到优化多芯片互联
去年《晚点聊》的 115 期节目中,我们和之前壁仞的联合创始人、现在 AI Infra 公司魔形智能的创始人徐凌杰,聊了当时**刚发布不久的 384 Matrix 超节点,它是一个连接了 384 颗 AI 芯片的超级算力集群。
这背后的一个算力层面的大趋势:从拼单颗芯片的性能,到优化多芯片互联的系统。英伟达更早之前发布的 NVL72 也是这个思路的体现。英伟达是全球范围少有的,既掌握芯片设计,又掌握芯片间的互联技术、网络技术等更复杂软件的公司。
那期还有很多有意思的洞察,包括互联互通技术为什么重要;AI 算力的成本正在从以计算为主转向以显存为主;以及这些基础算力层的变化会带来哪些新的机会,又消灭哪些旧的机会。
可以看到,在算力层内部,也是一个 “协同设计 “,逐渐垂直整合的结构。这可能就是某些领域,强者恒强,强者很难被动摇的原因。
下一个学习范式
这是 25 年下半年以来,越来越被关注的一个话题。
先总结一下目前的范式,简单说是:用海量数据做预训练;用更少、但质量更高的、面对特定任务的数据做监督微调或强化学习的后训练。
那么下一步呢?会思考这个问题的人,通常认为目前的方法不久后将触达瓶颈,或者并非实现智能的最优路径。
Ilya Sutskever、Demis Hassabis、Yann LeCun 等人都讨论过此问题,他们的共性在于倾向于从学习机制而非最终效果来定义 AGI。他们认为当前技术尚未达到更本质的学习方式,例如像人类一样仅凭极少样本即可学会任务、举一反三、在生命周期中持续学习,并真正理解乃至发现物理世界的规律。
Ilya Sutskever 在 25 年 11 月与 Dwarkesh Patel 的播客中提到,过去几年是 Scaling Law 的阶段,而现在已重新回到研究驱动的阶段。
热门的研究方向包括持续学习、在线学习、世界模型等。我观察到的线索是:许多研究者在寻找突破时,都会溯源动物与人类智能的产生与工作机制。Ilya Sutskever 曾提到他的 AI 研究品味是从大脑中获得灵感,以正确的方式思考人类智能,追求美与简洁。Transformer 作者之一 Llion Jones 创立的 Sakana AI,在 25 年提出新模型架构 “连续思维机”(CTM),其核心目标也是更接近人类大脑。
在《晚点聊》第 108 期中,香港大学计算与数据科学学院院长马毅分享了他对智能历史的梳理。他思考的起点是:地球为何产生智能?为何仅生物拥有智能?他认为智能的本质是 “学习”,即找到世界中有规律、有结构、可预测的部分,进而预测外部世界以求生存。马毅的研究方向,正是探索能像生物那样实现闭环反馈机制的学习系统。
人类学习方式的另一大优势在于极其节能。为了训练大模型,Elon Musk 甚至计划在太空建设算力,而人类大脑的功耗仅约 20 瓦。
去年在与 Meta 前 AI 研究总监田渊栋聊其科幻小说《破晓之钟》时,我们曾探讨过现有方法的瓶颈。11 月在旧金山再次见面时,他表示接下来希望探索新的学习范式。他认为那定是一种更简单、优雅且可解释的表达,而非目前的 “黑盒”。
他曾提到,若仅靠 LLM 就能实现 AGI,人类的未来将是悲观的。这不仅是因为现在的智能产生方式过度耗能且依赖不可再生的数据资源,更深层的悲哀在于,如果用一种不可解释的方式就能表达和捕捉宇宙规律,这对于追求真理的智慧生物而言不是一种悲哀吗?
与模拟人类智能相关的另一热门方向是持续学习。高级动物与人类具备自主持续学习的能力,而目前大模型的更迭仍需研究员深度参与每一次迭代。持续学习在人类智能上的最高表现形式之一是科学发现。Demis Hassabis 在近期关于 “智能的未来” 的分享中提到,他希望构建能像科学家一样提出假设、设计并执行实验、获取数据并验证假设的系统。
若能精确生成供此类学习进行的环境,即是世界模型——至少是一部分人对世界模型的理解。Google DeepMind 在 25 年先后更新的 Genie 3 与 SIMA 2 便是此类尝试:Genie 3 是能生成可探索 3D 环境的世界模型,而 SIMA 2 是在该环境中探索的智能体。不过目前版本仅支持在环境内移动,尚无法操作或改变物体。
总结模型领域的发展:
- 25 年,大模型的推理、Coding、多模态等能力持续提升,为复杂 Agent 的应用奠定了能力基础。
- 模型竞争的底层是组织与研发方式的竞争,涉及算力、系统、算法等环节的协同设计与紧密合作。
- AI 研究者们已开始深度思考智能的下一步演进方向。
2. 应用
关键词:Agent、Sora App、AI for Science
Agent
25 年是 Agent 应用大规模爆发的元年。从需求端观察,目前 Agent 领域存在两条明显主线:一是以 Coding 能力为核心支撑的 General Agent(通用智能体),二是垂类 Agent。同时,围绕 Agent 形成的一套工具链生态已在美国催生出一批初创公司。
通用 Agent:当 Coding 成为手段
25 年 2 月发布的 Claude Code 不仅是一款 AI Coding 产品,更是一个 General Agent。Coding 不再仅是目的,更是实现目标的手段。
作为目的的 Coding,旨在提效或替代人类编程,代表产品有给程序员用的 Cursor; 或面向非程序员的 Vibe Coding 工具如 Lovable。
而作为手段的 Coding,是指 General Agent 利用编程能力在数字世界执行各类任务。若面向专业开发者,它就是在命令行里启动的 Claude Code;若面向普通用户,则是带有图形交互界面的 Claude Cowork 和近期风靡的 OpenClaw(小龙虾)。
此外,字节跳动的 Coding 产品 Trae 在去年下半年发布的 Solo 模式、蚂蚁灵光、马卡龙、Youware 以及 MuleRun 新内测的 Agent Builder 均属此列。
这些产品的共性在于满足个人工作与生活中的自动化需求。对于一次性需求,用户调用 Agent 完成特定任务(如制作 PPT、搭建网页);对于重复性流程,用户则可以 “用 Agent 造 Agent”,定制个性化应用。
例如,我曾希望 AI 每天监测科技从业者的社交动态、分类记录并生成周报,同时自动调整追踪名单。这种小众需求以往因开发成本过高而难以实现,如今 Claude Code 与 Claude Cowork 大幅降低了满足这类需求的门槛。
Anthropic 对此生态贡献良多,其推出的 MCP 协议及 25 年普及的 Skills 开放标准(Prompt 与 Tools 的集合),让 Agent 的构建变得模块化且低门槛。
Agent Scaling 与群体智能
马卡龙创始人陈锴杰有一个有意思的总结:过去我们经历了数据、参数、算力的 Scaling,接下来也会看到 Agent 的 Scaling。近期出现的 Moltbook(AI 版 Facebook)便是 “群体智能” 的一次实验,探索大量智能体聚集后可能产生的系统性变化。
在《晚点聊》第 121 期中,PingCAP CTO 黄东旭曾借《黑镜》第七季第四集 Plaything 探讨过群体智能的 “科幻版”。最近,黄东旭受 Moltbook 启发给自己开发了 Minibook,通过三个不同角色的 Agent 分工协作,提升代码质量,并开始研究 “Agent 社会学”。
在垂类领域,我们报道过的动画制作 Agent OiiOii 和影视制作 Agent MovieFlow,也已实现基于内容生产流程的角色分工。此外,由 “小冰之父” 李笛创立的 “明日新程” 也在探索多智能体 Agent 框架。
当 Agent 数量激增,新的需求随之转向 Agent 的分发与交易。Youware 创始人明超平认为 Coding 是一种新型创作方式,社区化是其必然归宿;MuleRun 则试图构建 Agent 交易平台。不过,这些产品正从单纯的平台转向强化工具属性,例如 Youware 将主页改为对话框引导用户构建功能性应用;MuleRun 2.0 亦更强调对话式的工具体验,陈宇森认为 Agent 的交易市场不再会是淘宝那样的 “货架式”。之前的这些转向,是因为用 AI 构建应用和 Agent 的门槛在降低,但还没那么低,所以供给的数量和多样性仍然不够。26 年,我们可以继续观察,当 Agent 的门槛进一步降低,会有什么新可能。
手机 Agent:存量博弈与场景变迁
General Agent 的另一趋势是向移动端渗透。25 年 12 月,字节跳动发布豆包手机预览版,实现了自动回微信、比价点外卖等操作。然而,美团、微信等超级 App 担心失去入口地位,被 “Over the Top”,所以这些功能不久后都被封禁。
OpenClaw 的流行也得益于与移动端的打通:Claude Cowork 目前只有电脑桌面版,而 OpenClaw 还可以部署到手机的聊天软件里,用户在手机上发送指令,即可驱动云端任务。
在《晚点聊》第 130 期与 138 期中,智谱 AutoGLM 的刘潇与 OPPO 的万玉龙均详细探讨了手机 Agent 的进展与挑战,其中一个很有意思的话题是:手机厂商、超级 App 与 AI 公司之间的三方博弈。
不同场景的 app 受 Agent 影响的程度各异。点外卖、订机票及功能性网购等用户有提效需求的场景,用户对 Agent 需求更多,但超级 App 出于广告收入与数据安全的考量,对开放接口有犹疑——如果 Agent 替代了真人浏览,广告谁来看呢?信息流广告的价值是不是会降低?
又或者,在过渡阶段,我们也可以设计一种机制,让 AI 也能像人那样被 app 里的广告影响吗?如果是这样,那广告收入的大头是属于和用户直接接触的 Agent 的提供方,还是属于 App 厂商呢?
还有一个问题是,手机上的 AI OS 到底是苹果、三星等手机厂商自己掌握,还是有独立的新机会?
而抖音、小红书、B 站等娱乐内容平台受 Agent 影响较小,因为我们就是想自己看视频,而不是让 AI 来替我看,字节的多个主力产品都属于这一类。
同时,掌握生活服务生态的公司也有主动出击的机会,如阿里在 25 年 11 月更新通义千问 App,主打全场景生活助手,阿里做这件事的优势是,它旗下有电商购物、即时零售、外卖、酒旅、演出票务、打车等丰富的生活服务应用。
未来,掌握大量小程序入口的腾讯将如何布局,同样值得关注
题图来源:《少年派的奇幻漂流》
修改于 2026-02-12 15:29
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


