世界模型,正在升温
AI正在向物理世界 迈出第一步
2024年春季,国内人工智能领域的发展重心出现了一次细微但明确的偏移,从单纯追求语言文本的生成能力,转向了对物理空间与动态环境的理解建模。
过去一个月内,多家涉及空间计算与具身智能的科技企业集中释放了融资与资本化进程的信号,这意味着国内“世界模型”赛道初步成型。
与此前大语言模型时代的概念狂欢不同,此次浮出水面的企业在业务布局上普遍指向了具体的物理场景与生产环节。这种技术路径的收敛与资本资源的集中,表明国内人工智能产业正在寻找语言模型之后的下一代技术落脚点,即如何让算法系统在三维空间与时间维度上理解物理规律,并将其转化为可交付的软硬件产品。
国内“世界模型”,浮出水面 过去一个月,国内世界模型赛道的选手表现不俗。
4月14日,极佳视界获得15亿元融资,一个月前这家公司刚刚获得10亿元Pre-B轮融资,如今公司估值已经超过百亿。
这家公司自称国内第一家布局世界模型的科技公司,围绕「基模 - 本体 - 场景」三位一体,为工业、商业、家庭等场景提供软硬一体的具身智能机器人解决方案。
极佳视界的连续融资动作,反映了资本市场对于能够将物理世界进行数字化表征并指导硬件执行的技术路线给予了高度确定性的估值。其提出的“三位一体”架构,实际上是对世界模型从算法层面向应用层面延伸的具体拆解:基模负责对环境状态的预测与理解,本体是执行物理交互的载体,场景则是模型训练与最终落地的封闭或半封闭空间。
紧接着,4月17日,群核科技上市,引发了市场对于“杭州六小龙”这一区域性科技产业集群的广泛关注。
群核科技的核心业务长期聚焦于3D云设计软件与空间计算,其底层技术逻辑在于构建高精度的室内三维数字环境。在当前的语境下,这种对物理空间的精准复刻与实时渲染能力,被市场重新解读为构建世界模型中“场景层”的基础设施。
群核科技的模型示意图
群核科技在资本市场的表现,侧面证明了具备三维空间数据积累与多模态处理能力的企业,在向世界模型概念靠拢时具有先发优势。通过长期的商业服务,这类企业已经积累了大量关于空间拓扑结构、物体材质属性以及光照物理规律的真实数据,这些数据正是训练世界模型所必需的底座。
在它们背后,还有众多从自动驾驶仿真、工业视觉检测、具身智能研发等细分领域转型的科技企业,都自称“世界模型”公司,试图将物理世界的运行法则、空间状态的变化规律以及多模态传感器的输入信号进行统一的数字化表征。
这些企业的共同特征是,不再局限于处理纯文本或2D图像信息,而是开始处理包含深度、运动轨迹、物理属性在内的多维数据结构。它们的涌现,填补了从基础理论到实体产业之间的空白地带。
可以说,4月是国内的“世界模型”月。这个月所发生的一系列资本与商业事件,并非孤立的技术发布,而是国内AI产业链在经历大语言模型洗礼后,基于现有的硬件供应链、数据资源禀赋以及工业应用需求,所达成的一次阶段性共识。
这种共识将原本停留在学术论文和前沿实验室里的概念,迅速转化为了可见的商业计划与产品路线图。
更靠近生产端的国内选手
众所周知,“世界模型”这个概念,是李飞飞和杨立昆基于”语言大模型无法达到AGI“的判断而提出的概念。他们分别成立了自己的公司,并且获得了巨量融资,在他们的蓝图中,“世界模型”是通向AGI的路径。
李飞飞提出的“空间智能”强调智能体在三维空间中对物体交互、空间关系和物理规律的深层理解;杨立昆则主张通过预测视频的下一帧或物理世界的下一个状态,让模型学习到世界的底层运行逻辑,而非单纯依赖自回归的概率预测。
李飞飞
杨立昆认为:AI不再需要数百万次的训练才能掌握一项新的能力,世界模型直接告诉了AI世界是怎样运行的,这可以极大提升效率。
在他们的理论框架中,世界模型承担着补齐大语言模型缺乏物理具象性和因果推理能力的作用。
杨立昆
相比之下,国内目前浮出水面的“世界模型”公司,展现出了明显不同的演进策略。
国内团队并未将目标直接设定为构建一个涵盖万物运行规律的通用认知系统,而是将这一前沿理论迅速降维,锚定在具体的工业制造、仓储物流、商业服务等生产端场景中。这种差异的形成,与国内庞大的制造业基础、明确的产业升级需求以及企业面临的商业化生存压力密切相关。
从技术实现的角度来看,国内选手更注重世界模型在具体任务中的可用性。
根据OpenWorldLib等开源技术社区的定义,一个完整的世界模型系统需要具备“感知、交互、记忆”三个核心能力。
国内企业在应用这三个能力时,赋予了其明确的工程化内涵。
在感知层面,国内企业不再追求泛化的视觉理解,而是聚焦于特定工业环境下的多传感器融合,例如通过激光雷达、深度相机和力矩传感器获取精确的点云数据与触觉反馈,以此作为模型输入,解决传统视觉在反光、透明或遮挡物体上的识别瓶颈。
在交互层面,国内选手的着力点在于“动作执行的确定性”。世界模型输出的不仅是环境的下一帧预测,更是机器人末端执行器的运动轨迹与力度控制指令,要求模型在仿真环境中经过大量强化学习训练后,能够将策略平滑迁移到真实的物理本体上。
在记忆层面,国内企业更强调“场景记忆”而非“知识记忆”,即要求模型能够记住特定工厂的布局变化、特定零件的摆放规律以及设备运行的周期性特征,从而在实际作业中减少重复计算,提高响应效率。
这种靠近生产端的定位,使得国内的世界模型公司普遍呈现出“软硬结合”的特征。极佳视界提出的“基模-本体-场景”就是典型代表。
没有真实的机器人本体在物理世界中收集交互数据,世界模型的训练就会陷入“空中楼阁”;而没有基模对环境状态的预测,本体就只能是遵循预设规则的自动化设备,无法应对生产过程中的动态干扰。
因此,国内的研发资源大量投入到Sim-to-Real(仿真到现实)的迁移技术上,通过构建高精度的物理仿真引擎,让模型在虚拟空间中快速试错并积累经验,再将有效的策略部署到实体机器人上。
这种以解决实际生产问题为导向的发展路径,使得国内的世界模型技术在外界看来虽然缺乏宏大的通用人工智能叙事,但在特定的垂直领域内,却能够更快地产生可量化的经济效益,如降低分拣误差率、提高柔性装配的成功率等。
世界模型接下来的走向是什么? 世界模型赛道的后续发展,将不再仅仅取决于算法架构的理论突破,而是将深度依赖于数据基础设施的完善程度、硬件本体的演进速度以及商业化落地的闭环能力。从当前的行业态势来看,世界模型的走向将呈现出三个维度的特征。
首先是数据层面的挑战将从“规模”转向“质量与物理属性”。
大语言模型的崛起得益于互联网海量文本数据的易得性,而世界模型需要的则是包含深度、三维坐标、材质、力学反馈等多模态的高维数据。
目前,通过人工标注或简单的网络爬取已经无法满足世界模型的训练需求。未来,行业将投入大量资源建设自动化、标准化的物理数据采集工厂。
例如,利用机械臂配合多种传感器,对同一物体进行成千上万次的推、拉、抓、握操作,记录其在不同光照、不同背景下的物理状态变化。谁能以最低的成本建立起规模最大、物理属性最丰富的真实交互数据库,谁就能在基模的训练上占据优势。
极佳视界的数据训练场景
其次是仿真技术与真实世界之间的鸿沟将面临严峻的工程化考验。
当前世界模型在工业场景中的验证,高度依赖物理仿真引擎。然而,现有的仿真环境在模拟柔性物体形变、流体动力学、复杂摩擦力以及传感器噪声等方面,与真实物理世界仍存在不可忽视的差距。这种“Sim-to-Real Gap”会导致模型在仿真环境中表现优异,但一旦部署到真实的工厂或仓库中,性能便出现显著下降。
接下来的技术攻关重点,将是从算法层面提升模型对未知物理扰动的泛化能力,例如通过引入域随机化技术增加仿真的多样性,或者采用实时数据驱动的方式,让模型在真实运行中持续微调,形成从真实世界到仿真环境,再反哺真实世界的闭环数据流。
最后是资本与商业化的双重检验将重塑行业格局。
极佳视界短期内获得的超大规模融资以及群核科技等企业的上市,将世界模型赛道迅速推入了估值的高地。
然而,高估值必然伴随着对高增长和高利润的预期。与软件形态的大语言模型不同,涉及本体的世界模型解决方案具有较长的交付周期、复杂的硬件集成需求以及较高的售后维护成本。
接下来的两到三年内,这些已经浮出水面的企业必须证明其技术方案能够在客户的实际生产中实现成本的显著降低或效率的实质性提升。那些能够在单一场景(如某种特定规格的机床上下料、某类标准化的仓储拆码垛)中实现规模化复制,并将硬件综合成本控制在传统自动化设备合理溢价范围内的企业,将获得继续迭代的资金支持。
反之,如果技术长期停留在实验室演示阶段,或无法跨越从样机到规模化产品的“死亡之谷”,行业将面临一轮整合。
总体而言,世界模型的发展正在从概念定义期进入工程落地期。无论是以李飞飞、杨立昆为代表的追求通用认知的海外探索,还是国内以极佳视界、群核科技等为代表的深耕生产端应用的务实路线,都在以不同的方式拓展人工智能的能力边界。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


