AI 季报 26Q1:OpenClaw、OpenAI 与 Anthropic 的三重对阵、自进化 | 晚点播客
Coding→Agent 大主线明细,从模型的竞争到系统的竞争。
访谈丨程曼祺
文丨实习生付自文
从 26 年 Q1 开始,《晚点聊》推出季度总结系列,会分为 AI 季报和具身季报,本文是第一篇 AI 季报播客的文字版。
本期嘉宾是身在硅谷的 MoE Capital 合伙人 Henry Yin。MoE Capital 是一家坐标硅谷的早期 AI VC,专注于 AI 基础设施、AI-native 应用以及 AI for Science 等方向。“MoE” 取自 Mixture of Experts,也呼应了基金背后一个由 OpenAI、Anthropic、Google DeepMind 等 frontier labs 研究员构成的专家社区 , 让基金在早期技术判断和投后支持上形成了自己的独特方式。
本期节目从 OpenClaw 开始聊 Q1 的进展。这个去年 11 月还是周末黑客项目的开源工具,只用了 60 天 ,GitHub 星数就超过了前端开源库 React 的 10 年累计,现在周下载量超过 165 万次。
OpenClaw 的成功刺激了各大 AI 公司的创新,Anthropic 52 天内更新了 74 个功能,中国模型厂商则推出针对 OpenClaw 优化的模型。产品与生态的建设成为了新的竞争焦点,AI 算力的重点也从训练走向推理,即模型在广泛场景的使用阶段。
从 OpenClaw 这个 Agent 创新,我们的总结话题延展到了 Anthropic 的 Claude Code 和 Cowork 与 OpenClaw 的 “相向而行”,以及 OpenAI 和 Anthropic 两家公司间的三重竞争:公司、产品(coding 产品 Codex vs ClaudeCode) 和最新模型(GPT-5.4 vs Opus 4.6)。所有这一切的快速进展都发生在过去 3 个月。
在 coding 到通用 Agent 和个人 Agent 这条主线之外,我们也讨论了 autoresearch 等项目的 AI 自进化能力,和仍处于探索中的其它方向,如持续学习和世界模型。
Henry 也分享了,他在硅谷这个 AI 密度最高的地方,感受到的社会情绪变化:科技大裁员。
不管是 Agent 主战场的快速发展,还是自进化开发方式端倪初现,26 年第一季度的变化显示,AI 越来越不只和科技圈相关。
OpenClaw:AI Agent 的 iPhone 时刻
晚点:站在技术进化与应用变革的角度,整个 26 年 Q1 你观察到了哪些显著的变化?
Henry:第一是 OpenClaw 的火爆。它是一个开源的个人 Agent 框架,能接入飞书、WhatsApp 、Telegram 等日常办公和社交软件,帮用户执行各类任务。这标志着 AI 真正从单纯的聊天工具转向了实际的干活工具。它的增长曲线非常快,在 60 天内,其在 GitHub 上的 Star 数量就超过了 React(由 Meta 推出的 JavaScript 库)过去 10 年的积累。
第二是头部模型厂商的竞争焦点从纯模型能力转向了产品与生态。目前 OpenAI 和 Anthropic 双方都高度重视编程类产品。目前 Anthropic 的收入增长很大程度上是由 Claude Code 贡献的。竞争的焦点不再仅仅是 Benchmark(基准测试,衡量模型性能的标准化测试)的跑分,而是构建深层产品生态。
第三是 AI 的 “自我进化” 将更加贴近现实。最近 Andrej Karpathy(特斯拉前 AI 负责人)在 X 上讨论了他的 autoresearch 实验,即让 AI 自动优化自己的训练代码。例如国内的 MiniMax 最新发布的 M2.7 模型,其副标题即为 “自我进化的早期回响”。目前他们约 30% 到 50% 的强化学习研究工作流已经由模型自主完成。同时,许多 OpenAI 和 Anthropic 的顶级研究员也开始离职创业,投身 LSI(Learning to Self-Improve ,学习自我改进)领域。
晚点:OpenClaw 在全球 AI 圈非常火,在中国更是成为了国民级的现象。但在它之前也有很多 Agent ,如 Claude Code、Claude Cowork 和 Manus 等。OpenClaw 与这些 Agent 核心区别是什么?
Henry:OpenClaw 在技术上不是一个全新的东西,它更多是交互范式的突破。类比来说,它是 AI Agent 的 iPhone 时刻。技术上,它的每一个独立组件都是之前存在的,包括 LLM 循环调用、Tool use(外部工具调用能力)、记忆功能。这些 Claude Code、Manus 都能做。
但 OpenClaw 做对了几件事。第一,它跑在本地电脑上。这意味着它能访问你的文件,拥有系统权限。这既是它端到端完成任务的能力,也是最大的安全风险。第二,它接入了大家常用的聊天 APP ,AI 主动来到你的生活,而不是你去找 AI 。Claude Code 在 Terminal(终端界面)里面跑,非常面向开发者。Manus 这种云端 agent(云端代理)则只能接收你给它的信息,但 OpenClaw 通过聊天软件的分发,真正把 AI 带到了所有人身边。再加上定时任务和长期记忆,它会给人一种越用越懂你的感觉。
晚点:OpenClaw 的开发者 Peter Steinberger 是一位来自奥地利的独立开发者。为什么这样一个创新来自个人开发者,而不是像 Anthropic 这种深耕 Agent 很久的公司?
Henry:可以参考当年的 Devin ,它是第一个提出 AI Soft Engineer(人工智能软件工程师)概念的产品。刚发布时其实不太好用,但为大家指明了方向。这种灯塔效应往往是没有历史包袱的个人或初创公司创造的。大公司的优势在于产品化和跟进速度,像 Claude Code 最近就上线了很多新功能向 OpenClaw 靠拢。
晚点:你自己会用 OpenClaw 做什么?周围朋友用得多吗?
Henry:我试用一周后就卸载了,因为我的工作流主要在 Claude Code 上。但我有朋友非常喜欢它。他认为权限完全放手后的回报可以达到 10 倍。比如他用 OpenClaw 扫描所有消息,可以自动创建日历事件,或者生成大量群聊的消息摘要。此外还有价格监控、旅行规划、通过冰箱照片更新购物清单等。不过,这需要投入不少时间把工作流跑通,普通人可能没法很快用得这么舒服。
晚点:这种场景确实是结合移动端才比较方便。如果是一个电脑本地或 Web 的产品,用手机拍完冰箱照片再传就太繁琐了。
Henry:确实。对于 Claude Code 用户来说,手机拍完照还得 AirDrop 到电脑再扔进终端,步骤太多。
晚点:OpenClaw 在中国和美国的热度有差异,前不久,《哈萨比斯:谷歌 AI 之脑》作者马拉比来中国宣传新书时提到,美国的 10 次对话,9 次都不会提到 OpenClaw,而在中国,所有人都问他怎么看 OpenClaw。为什么有这种区别?
Henry:可能有几个原因:一是用户习惯了微信这种聊天优先的产品;二是国内使用 Claude Code 等应用限制较多,开源选项更火;三是中国用户可能对成本更敏感,刚好 OpenClaw 和国产模型的组合性价比极高。最后,“小龙虾” 这个名字也非常好。
晚点:在国内,OpenClaw 非常出圈,甚至有付费上门安装的服务。在美国,非技术群体比如设计师或销售人员会也用它吗?
Henry:暂时还没有。设计师目前还是用 Figma Make(自然语言驱动的 UI 自动化生成引擎)、Google Stitch(端到端的设计与开发协同工具)更多;销售人员,有些会用 Claude Cowork 来自动化一些流程。在美国扩散到更多工作群体的主要是 Anthropic 的产品。
晚点:刚才你也提到了 OpenClaw 和中国开源模型的结合。在 OpenRouter(大模型接口聚合平台)上能看到 Token 消耗量最多的主要是中国模型,比如阶跃、MiniMax、Kimi、智谱,还有小米的新模型,都上榜了。
Henry:嗯,便宜是核心。Peter 最早也用 Claude ,但他被 Anthropic 封了。随后就转向了 MiniMax ,发现成本只有 Claude 的 5% ,于是就公开安利。大家算了一下发现之前如果用 Claude 订阅需要每月 200 刀,换成 MiniMax 以后每个月就只需要 15 刀了。Agent 场景需要频繁调用模型,中间成本差距非常大。(注:OpenRouter 更反映个人和中小开发者的使用情况,只能作为整体 Token 消耗的参考。)
晚点:排行榜上还有一个新模型 Trinity large Preview ,它背后是一家美国的公司,叫 Arcee AI。
Henry:这家公司在迈阿密,规模约 30 人。他们从零训练了一个 400B 的稀疏 MoE(混合专家模型),上榜 OpenRouter 主要是因为预览期完全免费。但在社区评价中,它的好评度不如 Kimi 或智谱的模型。
OpenClaw 已经形成了一个生态,产生了一个模型厂商的战场:哪个模型在这个 Agent 场景下跑得好,而且便宜,就能吃到这一波巨大的流量。
晚点:中国的一些公司的动作非常快,比如智谱甚至刚刚推出了专门面向 OpenClaw 场景优化的 GLM 5 Turbo。
Henry:在这个方面,我已经看到了有不少身边朋友的创业,做一些小的专用模型来服务 OpenClaw 生态。
晚点:这种创业能持续吗?有最强大模型的公司,也没道理不拥有最强的小模型。
Henry:如果能在这个生态里打出品牌,可以被大公司收购。这是比较硅谷的一种创业思路,这里收购更频繁。
晚点:目前 OpenClaw 还有哪些不足?
Henry:主要有三点:贵、稳定性、安全性。贵还是指复杂任务的调用次数很多,成本依然很高。
关于安全,MSL(Meta 超级智能实验室)的对齐负责人分享过一个 “恐怖片” 故事:他把 OpenClaw 接入 Gmail 整理邮箱,要求执行操作前必须询问确认。听起来很安全,但因为邮件太多,上下文窗口撑爆了,开始自动压缩总结,把 “必须确认” 的指令弄丢了。结果 Agent 开始疯狂删邮件,他就在手机上打字阻止,但在 Agent 在 Loop 里无视了请求,最后他不得不冲到电脑前拔网线。哪怕是 MSL 的对齐负责人,也会遇到这样的安全问题。
这也说明了现在 AI 在长时间工作中反而会变笨,因为上下文有限,长任务中重要指令会被压缩、丢弃。当前的模型其实没有真正的长期记忆,所以这也是为什么持续学习是非常重要的研究方向。
晚点:那业界有什么完善体验的努力吗?
Henry:OpenClaw 正在进行一些安全加固的版本更新,包括通过执行 Sandbox(一种用于安全隔离运行程序的受限软件环境)防止运行危险代码、在运行环境里面插入一些安全环境变量、验证 Webhook(网络钩子)签名、提供密码管理的 CLI(命令行界面)等。
针对上下文压缩的问题,社区也出现了 lossless-claw 的无损压缩插件。此外还有多 Agent 协作插件和 Skill 市场 Claw Hub 的改进。
SaaS 受 Agent 冲击的本质是 “工程师红利” 普及;Claude 52 天 74 更新,黄雀在后
晚点:关于 OpenClaw ,有一个讨论很多的话题是它对传统 SaaS 的冲击,甚至有一种很极端的说法,认为 SaaS 已死。你之前创业也做过 SaaS,怎么看 SaaS 接下来的变化?
Henry:这个问题放在中国语境里看更容易理解。很多创业者都知道,在国内做 SaaS 一直很难。背后的逻辑是:很多大厂自己养得起程序员,需要软件,完全可以自己写。结果就是,很多原本想做 SaaS 的公司,最后慢慢都做成了咨询公司或外包公司。
现在同样的事情正往全球范围扩散。大量 AI coding agent 出现,本质就是在提供一种低成本程序员的能力。现在美国企业也发现,我需要一个软件,未必要一年花几十万美金买各种现成产品,可以直接让模型做。
未来很多传统 SaaS 公司可能还会存在,但它们的 margin(利润率)会明显下降。只有当你的服务价格跟自建成本相比还算合理,或只是略高一点,用户才会继续买单。
晚点:所以 AI coding agent 让工程师红利从中国蔓延到全世界,让全球信息软件市场变得更像中国市场。
Henry:大家就都进入 hard 模式。
晚点:你前面提到 OpenClaw 像灯塔一样指明了个人 AI Agent 的方向。现在大公司也有了更多动作,如英伟达在 GTC 2026 上推出 NemoClaw(英伟达的企业级 AI 代理平台),Anthropic 也在频繁更新。你觉得接下来会进入什么样的局面?
Henry:OpenClaw 是灯塔但肯定不是终点。大公司各有打法,英伟达的策略是把 OpenClaw 加上企业级安全层,通过 YAML(Yet Another Markup Language ,一种常用于配置文件的计算机语言)文件控制 Agent 的数据、API 和网络访问权限,并加入审计追踪。
Anthropic 确实在快速迭代,52 天内发了 74 个功能,很多都在向 OpenClaw 靠拢。比如加入 Telegram 和 Discord 频道下达指令、支持手机远程操控电脑、上线 Computer use(计算机使用,使 AI 能够像人一样操作鼠标、键盘的功能)以及定时任务。他们还推出了 Dispatch,相当于常驻 AI 管家功能,可自主协调多个代理工作。至于 OpenAI ,虽然 Peter 加入了,但目前动静不大,可能是精力过于分散,他们内部也意识到这点了。
晚点:现在业界有一种声音,认为 Anthropic 正在 “杀死比赛”,它在 Agent 领域的积累非常深厚。从实际体验来看,你觉得 Claude Code 、Claude Cowork 与 OpenClaw 对比,谁更胜一筹?
Henry:从开箱即用的体验来说,Claude Code 和 Claude Cowork 肯定比 OpenClaw 好。但它们针对的是不同用户群:Claude Code 是专业程序员的 “深水区” 工具;OpenClaw 则是面向大众的 “浅水区” 入口;Claude Cowork 介于两者之间。Anthropic is killing the game 的说法是有一定道理的。
晚点:这像是一种相向而行。Anthropic 从专业场景切入再扩大受众,而 OpenClaw 一开始就接入了社交软件,交互上的打击面非常广。但它原始版安装很繁琐,国内像 MiniMax 和 Kimi 做了云端版本,不过我试用后发现云端似乎存在记忆问题,它记不住我上周聊过的事情。
Henry:云端版本的局限是无法访问你的本地生态,这是 OpenClaw 的核心价值。比如作为苹果用户,它能直接访问我的 iMessage 和 Notes,这在我用 OpenClaw 的那一周是很新奇的体验。
晚点:其实对大量工作文档和流程在飞书这类 All in One 办公平台的人,它和 OpenClaw 结合已经能解决很多需求了。
OpenAI vs Anthropic 的三重竞争
晚点:Anthropic 系列产品的强劲表现背后,一个关键问题是,Anthropic 和 OpenAI 的竞争。你的整体观察是什么?
Henry:这个季度是关键节点。Anthropic 已经从一个受人尊敬的技术挑战者,变成了 OpenAI 同等地位的对手。这种转变的核心驱动力不是模型能力而是产品力的领先。
我们看到这个季度,Anthropic 的增速非常疯狂。从绝对数字看,2025 年 12 月他们的 ARR(年度经常性收入)还是 90 亿美元,但到 2026 年 3 月初就冲到了 190 亿美元,基本上过去两个月增长了 100 亿美元。相比之下,OpenAI 在 2025 年底的 ARR 是 214 亿美元,2026 年 2 月只增长到 250 亿美元。
关键差异在于,Anthropic 约 75% 的收入来自 B2B 的 API 服务。Claude Code 已经是开发者界的杀手级应用,在 26 年 2 月的 ARR 达到 25 亿美元,已经超过了 Cursor 同期的 20 亿美元 。
晚点:说到 Cursor ,很多深度用户最近都转投了 Claude Code 。Cursor 的竞争力受到了何种挑战?
Henry:长期来看 Cursor 的窗口在收窄。虽然短期内还有从 GitHub copilot 迁移过来的增量市场,但 Claude Code 增速太快。Cursor 最大的护城河还是海量的高质量工程轨迹数据,如果不能利用这些数据快速提升模型能力,它的优势会被侵蚀。
晚点:OpenAI 的 Codex 对标 Claude Code 竞争力如何,还有背后两家公司在一季度正式发的新模型,3 月的 GPT-5.4 和 2 月的 Opus 4.6。
Henry:Opus 4.6 支持 100 万上下文,能连续工作 15 小时而不丢失目标。然后它在 Terminal bench 2.0(智能体在终端境下解决复杂任务的基准测试)也是拿到了最高分。GPT-5.4 在 OSworld(评估智能体在真实操作系统环境中执行任务能力的基准测试)上达到了 75% 的成功率,超过了人类。
体感上,Codex 纯写代码能力会强一些,但在交流和意图理解上不如 Claude Code 聪明。 Dylan Patel 在推特上开玩笑说 Codex is a retarded kid who's been trained super well(Codex 就像一个被训练得非常好的弱智小孩),现在很多开发者的做法是让 Claude Code 当 “主人” 负责规划,让 Codex 当 “奴隶” 负责执行具体的代码读写和 Review(代码审查)。OpenAI 现在也想补齐产品力,让 Codex 的交互体验追上来。
晚点:这种差异是怎么造成的?
Henry:Anthropic 在这方面的积累更深。Benchmark 只能描述一部分性能,但开发者实际使用体验才是关键。Anthropic 针对 coding 做了更全面的优化,他们更理解开发者的实际工作流。
OpenAI 的模型能力没问题,他们的 Research 团队非常强,但在产品感觉尤其是 ToB 领域稍弱。Peter 加入 OpenAI 是一个信号,说明他们意识到需要补齐产品力的短板。
对比两家公司,OpenAI 的优势在于庞大的 C 端用户基础,ChatGPT 有极强的分发能力,且资金充足。但劣势是注意力太分散,什么都想做,包括 API 、各种企业服务,还有 Sora ——虽然他们刚把 Sora 关闭了。而 Anthropic 极为聚焦,主要精力就放在编程和企业用户上。
晚点:你了解到的 OpenAI 接下来会有哪些应对动作?他们有可能赶上来吗?
Henry:OpenAI 内部已经在反思。3 月中旬,其应用负责人 Fidji 在全员会上说 “We can not miss this moment,becasue we're distracted by side quests.”(公司不能因为被支线任务分心而错过当前最重要的时刻)现在他们开始减少像 Atlas 浏览器、广告以及电商集成等项目的投入,将资源投向 coding 和生产力的企业服务领域。
接下来 Anthropic 面临的主要风险就是 OpenAI 的反扑。如果 OpenAI 能真正实现聚焦,战斗力还是非常强的。另外,Google 正在将 AI 深度集成进 Google Suite( Google 办公套件,包含 Gmail 、文档、云盘等工具),它的分发能力可能是这几家公司中最强的。
晚点:前面说了 OpenAI 和 Anthropic。在美国,xAI 也是大家比较关注的公司。这个季度它有哪些变化?
Henry:这个季度对 xAI 来说是一个比较灾难性的季度,团队震荡很大,有不少 co-founder 级别的人物离职,比如张国栋、戴自航。
晚点:这波离职背后的原因是什么?这些人后面都去了哪儿?
Henry:一部分人会去别的 AI lab,另一部分人会自己创业,只是现在还处在 Stealth Mode(水下状态)。
一个比较重要的背景原因是去年 12 月 Claude Opus 新模型发布之后,整个行业对 coding 能力和 coding agent 的更重视了。但 Grok 自己的模型训练进展不是特别顺,应该是给内部带来了很大压力。
xAI 其实现在也在疯狂从其他 lab 挖人、收购创业公司。但新团队搭起来还需要时间磨合,才能真正形成生产力。接下来一段时间,xAI 要追赶其他公司比较难了。
晚点:Google 这一季度除了 Gemini 3.1 这种小的模型迭代,还有哪些值得关注的变化?
Henry:只看模型这一季度的动向确实不算特别多。Gemini 的 Veo 这类生成式模型有一些更新,但整体上没有特别大动作。
但从产品视角看,能发现在 Chrome 里,不管是获取信息,还是做一些网页内的自动化,Gemini 的调用变得更自然了。然后像 Gmail、Google Sheets、Google Slides 这些核心办公产品,也都集成了 AI 。
晚点:所以这几家核心 AI 公司的竞争焦点已经从模型能力转向了应用和生态?
Henry:没错,下一阶段竞争的关键不再是谁的模型更聪明,而是产品生态的深度。目前 GPT 5.4 、Opus 4.6 以及 Gemini 3.1 的能力差距正在收敛,Benchmark 不再是核心差异点。
接下来的真正竞争维度会是开发者生态;其次是企业的信任感,涉及安全、合规与可靠性;最后是推理成本,在这一块拥有数据和 TPU(专为机器学习定制的处理器)计算优势的 Google 可能会做得更好。此外,谁能率先在持续学习或 Recursive Self Improvement(递归自我改进)上取得突破,谁就能引领下一个时代。
晚点:你现在说的是御三家(OpenAI 、Anthropic 、Google)的模型能力正在收敛。但如果把视野放宽,算上很多中国公司发的新模型和即将发布的 DeepSeek V4,整体看,下一阶段 AI 模型竞争焦点在哪里?
Henry:现状是编程代理即通用代理,全行业都在 All in 编程方向。如果一个模型的 coding 能力不行,它就没法做个人助理这种任务。然后虽然 Benchmark 的差距在缩小,但实际体感差距依然很大。现在 100 万 Token 的长上下文和长程任务处理能力已经成了 Q1 的标配。
晚点:这些改进似乎都是为了服务 Agent 场景。那如果一家公司没有自己的产品触手,比如 DeepSeek 这样目前更聚焦做模型的公司,能做好这种面向场景的改进吗?
Henry:这有点像互联网泡沫时期的思科,当时它是很优秀的公司,但后来被 “商品化” 了,成了没有差异化的基础 “水、电、煤”。模型厂商如果只做模型,也可能面临这种风险,所以现在的趋势是从底层模型到上层应用的垂直整合。厂商需要产品作为触手,去感知用户需求,从而确定优化方向。
而且现在 Benchmark 已经很难代表真实的终端用户体验了。各家公司拥有自己的产品,本质上是取代了 Benchmark 来提供明确的优化目标。如果没有这些真实的使用反馈,单纯靠实验室数据去寻找路径会变得非常困难。
题图来源:电影《极速车王》
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


