Momenta R7:世界模型开始上车

芝能科技出品

3月16日,在上汽大众ID. ERA技术发布会上,Momenta CEO曹旭东宣布:下一代自动驾驶大模型R7即将发布,并将首次搭载在上汽大众旗舰SUV——ID. ERA 9X上。这次升级的核心是世界模型(World Model)

如果说过去十年自动驾驶的核心问题是"感知",那么未来十年的核心问题将变成——AI能否理解现实世界的物理规律。R7,是目前产业界的一个新答案。

自动驾驶,正在进入物理AI时代。自动驾驶行业的技术路线,再次发生转向。

01

自动驾驶为什么走到了瓶颈

● 模仿学习:天花板就是人类自己

过去几年,自动驾驶系统的主流训练范式是模仿学习(Imitation Learning)。逻辑很简单:让AI通过海量数据学习人类司机的驾驶轨迹,然后复制这种行为——如何通过路口、如何跟车、如何避让行人、如何并线。

这套方法推动了行业的早期快速进步,但也带来了一个根本性的天花板:AI无法超越人类。

训练数据来源于人类驾驶行为,模型最终也只能成为"平均水平的人类司机"。而自动驾驶真正的目标,是比人类更安全——这意味着AI必须具备超越人类经验的能力。模仿学习,从结构上就做不到这一点。

● 强化学习的出现:从"模仿"到"探索"

从2024年前后,自动驾驶行业开始转向强化学习(Reinforcement Learning)

强化学习的逻辑与模仿学习完全不同:它不让AI复制人类,而是让AI通过试错学习最优策略——更安全的行为获得更高奖励,发生风险则受到惩罚。AI在大量可能的轨迹中寻找最优解,而不是人类解。

2025年,Momenta推出的强化学习端到端模型R6正是这一方向的实践。相比R5,R6的核心转变是:驾驶决策从"模仿轨迹"变成"选择最优轨迹",系统在行人横穿、车辆加塞、路口多目标博弈等复杂场景中的稳定性明显提升。

● AI会"开车",但不理解世界

然而强化学习有一个更深层的缺陷——AI并不真正理解世界,它只是通过统计关系学会了某些行为模式。它知道"看见行人就减速",但不知道行人是有质量的物体、车辆具有惯性、两个物体相撞会发生什么。它在记忆模式,而不是理解规律。

这在长尾场景中会带来巨大风险:一个行人突然回头,一辆车突然失控,一个物体被风吹动——这些场景需要系统具备对物理因果关系的理解,而不只是对历史数据的记忆。这正是自动驾驶迈向下一阶段需要解决的核心问题。

02

世界模型是什么,R7做了什么

● 从"识别物体"到"理解物理"

世界模型(World Model)的核心目标,是让AI在内部构建一个可推理的物理世界模型。

这是理解物体的物理属性——质量、体积、运动能力;理解运动之间的因果关系——如果前车急刹,后车会追尾;如果行人加速,会进入车道;还能预测未来的交互可能——行人下一步会走向哪里,车辆博弈会如何演化,交通流会怎样变化。

系统从被动反应转向主动规划,从统计推断转向因果推理。

● 强化学习 × 世界模型:两件事加在一起

Momenta R7的核心升级,是将世界模型引入强化学习体系。

这两件事的组合有明确的逻辑:

◎ 强化学习解决"如何找到最优策略"的问题,但单靠试错效率太低,而且在现实世界里试错代价极高。

◎ 世界模型解决的是"在什么样的物理约束下探索"的问题——有了世界模型,强化学习不再是盲目试错,而是在真实物理规律的框架下寻找最优解。

两者叠加,使AI更接近人类驾驶逻辑:我们开车不只是在重复记忆中的轨迹,而是时刻在对周围世界的物理状态做出判断和预测。

● 为什么不选大语言模型路线

在自动驾驶领域,目前存在两条重要路线:世界模型,以及VLA(Vision-Language-Action)。VLA源自大模型体系,核心思路是视觉、语言、行动统一建模,系统可以通过语言理解驾驶任务。

Momenta选择了世界模型,理由很直接:自动驾驶本质是物理问题,而不是语义问题。

人类司机不需要能写代码或解数学题,只需要理解运动、理解物理规律、判断交通博弈。

VLA的底座模型通常达到100B参数规模,大量能力用于语言理解,但在驾驶场景中这些能力的利用率并不高——算力没有用在最关键的地方。相比之下,世界模型更聚焦于驾驶任务本身,是一种更有针对性的架构选择。

03

物理AI时代,谁的机会

● 自动驾驶的"摩尔定律"正在加速

Momenta内部有一个说法:智能驾驶体验也存在"摩尔定律"。过去几年,行业的体验提升速度大致是每两年提升十倍。而随着强化学习与世界模型的引入,这一速度可能变成每一年提升十倍。

这意味着自动驾驶能力将进入指数级提升阶段。目前Momenta已累计170余个定点车型、70余款量产车型、超70万搭载车辆,方案已进入英国、挪威、澳大利亚、阿联酋、泰国等市场。

● 真正的壁垒,不是传感器

曹旭东提出了一个颇具争议的判断:传感器的重要性,只能排第三。

在Momenta的技术体系中,能力排序是这样的:

◎ 第一是数据,没有真实世界数据,再先进的模型也无法进化;

◎ 第二是算法架构,真正的壁垒不是单一算法,而是如何将感知、预测、规划、控制整合为统一架构;

◎ 第三是研发体系,自动驾驶需要一个能够持续迭代的工程闭环——用户反馈进来,研发跟进,产品更新,再反馈;

◎ 之后才是芯片算力;

◎ 最后才是传感器。

这个排序背后的逻辑是:即使是纯视觉系统,摄像头数量已经远超人类双眼。随着算法能力提升,单纯增加传感器的边际收益正在下降。堆硬件不再是差异化的来源。

ID. ERA 9X搭载R7,合资品牌的智能化反击。过去几年,中国智能汽车竞争主要集中在特斯拉、**系和新势力之间,传统合资品牌在智能化方面明显落后。

此次上汽大众选择与Momenta合作,推出强化学习加世界模型的智驾方案,意味着合资体系正在重新建立智能技术能力。

这是一个信号:智能化竞争的下半场,新的变量正在出现。

小结

自动驾驶的发展,本质上经历了三次技术跃迁——规则系统、模仿学习、物理AI。前两个阶段,AI学会了"按规矩开车",然后学会了"像人一样开车"。第三个阶段要做到的,是让AI真正理解它所处的物理世界。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论