对话八位具身智能大咖:模型之争、数据来源与第一性原理|甲子光年
具身智能是通往AGI的必经之路。
作者|刘杨楠
编辑|王博
“你认为具身智能是通往AGI(通用人工智能)的必经之路吗?3、2、1——请举牌!”
话音刚落,台上的八位行业顶尖专家毫不犹豫,齐刷刷举牌——全场一致同意。
这不仅是一次简单的共识,更是当前AI浪潮转向物理世界的一个缩影。随着大模型在虚拟世界的潜力被不断挖掘,如何让智能拥有身体,能够理解、决策并改变真实的物理环境,已成为全球科技竞争的下一个前沿。
具身智能,正从机器人产业的专属,演进为构建下一代通用AI的基石。
在11月20日举办的智源具身OpenDay上,甲子光年创始人、CEO张一甲主持的这场BAAI具身模型会客厅,正是一次对这一前沿领域的集中叩问。她与八位来自产业界与学术界的核心践行者展开对话,他们代表了推动具身智能落地的关键力量:
招商局集团AI首席科学家 张家兴
清华大学助理教授、星海图联合创始人 赵行
智元机器人合伙人、首席科学家,上海创智学院导师 罗剑岚
智源研究院院长 王仲远
北京大学助理教授、银河通用创始人及首席技术官 王鹤
加速进化创始人&CEO 程昊
自变量创始人&CEO 王潜
中国科学院大学教授 赵冬斌
在这场深度讨论中,共识是清晰的——具身智能是通往AGI的必经之路。
但非共识是存在的,挑战也是现实的。宏伟的愿景之下,是数据、模型与机器人本体之间相互掣肘的现实困境。全行业都在共同摸索:如何找到一条高效、低成本的道路,打破枷锁,让智能真正“身”“心”合一。
本文为“BAAI具身模型会客厅”对话实录,经“甲子光年”整理编辑,在不改变原意的基础上略有删改。
1.世界模型是实现具身智能的关键吗?
张一甲:今年世界模型概念很热,和世界模型的结合是实现具身智能的关键吗?
王鹤:我目前持中立态度。因为它其实取决于我们如何定义“世界模型”。在强化学习里,世界模型最早是指根据当前状态和我采取的动作,来预测下一步状态的变化。但这一概念经过Sora等视频生成模型的不断演变,如今已经变得越来越模糊了。
今天我们常常希望用人类的视频数据去训练模型,再教机器人像人一样去“想象”人类的行为并照着做。但这并不完全成立。原因在于,机器人的本体,比如轮式、双臂结构,都和人类身体存在很大差异。即便是最像人的人形机器人,在操作的灵巧度、手臂活动范围等方面,与真人动作仍有明显差距。因此,即使机器人能像人一样“联想”,这类数据也不一定对我们的具身智能有实质帮助。
不过从长远来看,具身机器人和人类一样,都需要具备一种对未来状态的预测和预判能力,都需要根据我想要达成的目标,反向推导现在该执行什么动作——既有前向推理,也有反向规划。所以我认为,世界模型作为一种对未来预测的机制,是不可或缺的。只不过,它的训练数据中必须包含更多机器人本身的数据,才能真正学出一个属于机器人自己的世界模型。
王仲远:我是认同的。目前世界模型的定义确实还没有形成完全的共识。如果世界模型仅仅指视频生成,那它虽然可能对具身智能有一定作用,但未必是后者必须依赖的基座。
而我们所理解的世界模型,更多是指“下一个状态预测”,也就是基于先前的时空状态,去预测下一个时空状态。
举个例子,刚才我要回答时,需要基于一甲提出的问题、王鹤老师的回应,来决定我如何回应、是否要拿起话筒,这本身就是一个决策过程。我们所认知的世界模型,需要基于已有的时空状态,理解现场的环境与上下文,进而给出下一步的行动与响应,这才是核心。
张一甲:Transformer这类统一架构催生了ChatGPT这样的爆款应用。你们认为具身智能未来也会收敛到某一种统一架构之下吗?换句话说,具身智能是否需要自己的“Transformer”?
(现场举牌,除了赵冬斌,其他嘉宾都认为“会收敛到某一种统一架构之下”)
赵冬斌:我持观望态度。目前来看,具身模型的训练方法比较多样化。除了模型架构本身的探索之外,我们也通过预训练、后训练以及思维链推理等方式来持续提升模型性能,在制作咖啡、摆放碟子、整理盒子、折叠衣物等中多个任务上展现出通用能力。随着技术不断发展,未来有可能会出现一个收敛的单一模型,但也可能继续保持模型多样化的路径。两者皆有可能。
张一甲:最有可能成为那个“Transformer”的技术路径会是什么?
张家兴:就像人类智能的演进过程:我们是先有动作能力,再发展出视觉,最后才诞生语言。而今天的VLA结构,恰恰是在视觉和动作之间插入了一个语言模块,这其实并不符合我们人类在实际操作中的本质逻辑。比如当我们开车时,可以一边说话一边驾驶,这说明视觉(Vision)和动作(Action)之间本身就有直接通路,并不一定需要语言(Language)的全程参与。
因此,我们应该思考构建一个完全面向具身智能的、独立的系统架构,而不必非得从当前以语言模型为核心的技术体系中脱胎。
张一甲:你心目中那个理想的“具身智能Transformer”,目前出现了吗?
张家兴:目前还没有真正出现。实际上,我们确实仍在期待大模型领域能带来一些根本性的创新。目前硅谷的一些顶尖团队正在探索新型多模态大模型架构,在这些架构中,语言(L)将不再占据那么核心的位置。这是一个重要的方向。
坦白说,目前确实是大模型团队在率先进行这类探索,而他们的方向恰好与我们具身智能所追求的目标不谋而合。本质上,我们期待的是大模型领域能够实现一次范式转换:从过去三年一直坚持的“language first”,转向“vision first”或“vision-action first”。
赵行:我非常同意这个观点。我们确实需要一个与大语言模型平行的基础模型,它更有可能是一个“大型行动模型”(Large Action Model)。这个模型首先应建立在视觉基础上,因为视觉是世界上最通用的感知信息来源;随后再融入语言能力。这与生物进化的规律高度吻合——世界上先出现能够运动的生物,随后它们演化出视觉,最终才诞生像人类这样的高级智能生命。
因此,我们期待的是一种“行动优先、视觉随后、语言最后”的模型构建路径。这个模型与大语言模型有一个关键区别,它必须是一个闭环系统。大语言模型更多是开环的——用户提问,模型给出回答,若答案正确,流程就结束了,中间的处理过程完全在模型内部完成。
但具身智能不同。它不是经过一番思考后执行单一动作,而是每执行一个动作,就立即获得来自世界的反馈,随即调整自身行为,并继续执行下一步。因此,我希望未来具身智能的“基础行动模型”是一个能够与环境实时交互、持续调整的闭环模型。
罗剑岚:目前还没有出现一个能够统一所有智能形态的“大一统模型”。智能问题更可能被一个完整系统所解决,而非依赖单一模型。这个系统包括几个核心要素。除了VLA,系统中还需要一个世界模型,能够进行反思、预测,并在隐空间中进行推演和想象。当然,也离不开强化学习。这些组件整合在一起,形成一个真正的闭环系统,数据在其中流动,推动系统不断自我提升。
王仲远:首先,智源研究院肯定相信,从终极状态来看,一定要有一个相对统一架构的模型,来解决预训练、世界模型等各种问题。这也是我们在布局像多模态世界模型的一个很重要原因。
当然,这种模型所需要的数据量显然是非常非常大的,甚至不一定三年、五年就一定能够完全实现。它可能需要等到更多机器人真正落地,开始解决很具体的问题,累积起足够的数据量,出现“具身智能的互联网”之后,有了这样的数据基础,才有可能出现更好的大一统模型。
从架构上来讲,我们正在探索一系列具有潜力的大一统架构,当然未来是否会出现别的架构,我们也乐见其成。所以从长期来看,我相信这是一个我们必须突破、必须解决的关键问题。
王鹤:关于“具身Transformer”这个问题,其实它更偏向架构层面。
具身智能的复杂性在于,人类拥有视觉、听觉、触觉等多种感知方式,就像我们常说的“眼耳口鼻舌”。从注意力机制的角度,所有这些感知信号理论上都可以被token化并输入Transformer。目前主要的瓶颈在于输出部分还不够理想,动作的生成与响应还不够自然。
因此,如果我们能逐步解决输出层面的问题,从架构上讲,是有可能形成一个统一范式的。但相比之下,数据问题以及与之对应的学习范式,才是更长期、更根本的挑战。
目前我们的数据还远远不够。无论是视频生成模型还是对话模型,本质上都依赖海量的互联网数据。而今天我们若想研发出一个“行动优先”的模型,面临的核心问题是:全球可能仅有约一千台、甚至更少的人形机器人处于前沿场景中运行。如此少的数量,远不足以支撑我们探索出一个成熟的“行动优先”架构与模型。
因此我的看法是:短期内,我们更需要依靠仿真模拟与合成数据来推进探索,这比受限于少量真实数据会走得更快;而从长期来看,地球上的“人形机器人口”必须实现持续高速增长。当然,这也与其能力提升相辅相成。只有当这个“人口基数”足够大时,才有可能孕育出真正强大的大模型。
程昊:过去一年多来,几乎所有人形机器人的运动控制都在朝着同一个方向努力:只要获取到人体各种运动轨迹数据,机器人就能够复现执行。相应地,我们也希望能有一个具身模型,可以基于任务需求与环境状态,实时输出未来数十帧内机器人该如何动作,就像在脑海中生成一段动画,机器人随之执行,并自主判断是该拿起铲子、杯子,还是去开门。一旦这样的模型跑通,具身智能的落地就会顺利很多,但目前来看,这样的模型尚未出现。
我们之所以特别关注世界模型,核心原因之一就是“预测”能力——既要预测“我打算做什么”,也要预测“外部环境会发生什么”。当然,团队内部也认为这个目标挑战很大、路径较长,因此我们也在考虑分阶段推进:先通过分层方法构建一些智能体(agent),在相对简单的场景中实现落地,比如拿快递、搬箱子这类任务,而像做饭就是一件非常非常难的事情。
这样做的好处是,一旦在真实场景中部署,就能采集到大量机器人实际运行数据。正如刚才王鹤老师所说,一旦机器人真正落地创造价值,大家就会有意愿、有资源去部署更多机器人,形成“机器人公民”规模的扩大。这些数据回流后,将反哺整个具身智能大模型的研发。
王潜:“Transformer”这个说法可能稍微有些误导性,因为它本质上是一种架构。事实上,如今在语言模型中也不一定全都采用Transformer。由于超长序列处理等需求,很多团队已经开始转向类似状态空间模型(State Space Model)等其他架构。所以,语言模型领域也未必都是Transformer。
当然,我理解这个问题的实质是:我们是否会形成一整套完整的方法论与模型体系,就像当年GPT那样成为基础模型范式?从这个角度看,我认为这样的体系是可能出现的。至于它具体采用哪种架构形式——是决策型、自回归、状态空间还是其他注意力变体——其实并没有那么重要。就像建造一栋大楼,Transformer可能只是其中的砖块或钢筋,我们可以替换为其他材料,而不影响整体功能。更重要的是设计整座建筑的结构、外观与功能,并通入水电、完成内装,最终才能成为真正可用的建筑。
从语言模型的发展中,我们可以汲取几点重要经验:
第一是数据规模的重要性。这一点刚才多位老师都提到了。但大家对“数据规模”可能存在一些误解,第一反应往往是“大力出奇迹”。确实,我们需要海量数据,但光有数量是不够的。就像家兴老师和仲远老师在大语言模型时代的实践所证明的:单纯堆数据未必能带来理想结果,反而是更高效、更高质量的数据才能实现突破。这也是为什么我们坚持以物理世界真实数据为主——我们相信数据质量优先于数据总量,这能在数据效率上带来数量级的提升。
第二是通用模型(通才模型)的价值。这正是我开场时提到的:我们正在构建的是一个平行于虚拟世界的、属于物理世界的基础模型。根本原因在于虚拟世界与物理世界的基本属性,或者说“统一性原理”,差异太大。
核心差异在于,物理世界中存在大量的接触、摩擦、碰撞等高度随机的过程,这些过程通常难以用语言完整描述,也难以通过图像准确表达。尽管目前已有一些利用图像进行描述的尝试,但在我看来,这些尝试效果有限,因为它们难以捕捉其中涉及的大量精细物理现象。
正因如此,我们认为在当前阶段,这方面仍存在不少障碍。最主要的原因在于,我们对这些物理过程的认知与建模方法仍不成熟,对其内在机制的理解尚不完善。因此,我们最终仍需要一个平行且独立于虚拟世界的物理模型,来精确刻画这些细致而复杂的物理过程。
这样一个模型究竟应该具备哪些功能?它当然要能控制机器人,这一点毋庸置疑。但与此同时,它还应具备更多元的输出能力。在我们看来,世界模型、VLA等概念之争意义有限,因为从我们的实践来看,所有这些能力都被集成在同一个模型中:它既能输出动作指令,也能生成视频;既能做隐藏状态的预测,也能完成三维重建,甚至输出体积信息等任意形式的内容。
我们将其视为一个“物理世界的基础模型”,背后的逻辑是什么?这源于我们从语言模型发展中获得的启示:为什么一定要做通用模型?关键在于,通用模型学习到的内容与专用模型完全不同。它捕捉的是所有任务之间的交集,可称为“共同结构”、常识,或是本质规律。
因此,从语言模型中我们能够习得逻辑推理能力、常识认知等关键要素——这些确实是语言模型带给我们的核心价值。但回到现实问题:我们是否应该直接继承现有的多模态模型作为主干,将其作为基础来推进具身智能领域的工作?
对此我的看法可能与主流观点相左。我认为在不久的将来,或许不用十年,甚至五年内,真正主导的多模态模型,反而会是由具身智能推动发展的那类模型。当前仅依靠从物理世界采集数据构建的模型路径可能难以走通,而基于具身智能发展的多模态体系,反而很可能反过来主导甚至取代我们今天所见的多模态范式。
这是一个符合发展规律的大趋势,也呼应了人类认知世界的基本方式。人类在学习理解物理世界这类“不靠堆数据”的领域时,其实并不需要海量样本。从进化历程来看,我们实际经历过的交互场景远不如今天AI模型训练的数据规模,却依然能构建出强大的认知系统。
这其中最关键的一点在于“动作”带来的改变。行动本身是一个关键信号,它能帮助我们筛选出哪些信息是真正重要的。此外,正如刚才其他嘉宾提到的“交互感知”或“主动感知”,我们通过与环境的实时互动,能够从时间和因果维度更深入地把握物理世界的运行规律。
这也就引回到我们今天讨论的核心:什么才是真正的基础模型?或者说,具身智能领域的“Transformer”应该是什么?当然,我仍坚持之前的看法,Transformer这个比喻并不十分贴切,它终究只是一种架构组件,就像砖块或钢筋,完全可以被更合适的结构所替代。
赵冬斌:确实,当前我们对于模型规模的定义可能不是一成不变的。未来的大模型也不一定非要依赖海量数据,就像人类学习一样,也许只需少量样本就能掌握,而不是单纯依靠海量数据和算法堆砌。所以对于未来的发展方向,我个人还持观望态度。
从模型架构的角度来看,我们讨论的重点往往在于输入和输出。在具身智能领域,输入模态远比互联网大模型丰富,不仅有文字和视觉,还包括力矩、触觉等物理交互信号,这些都需要被处理,也必然会影响模型的架构设计。
至于输出方面,刚才多位嘉宾也提到了多种实现路径,例如混合专家模型(MoE)、多模态生成等。有些场景可能并不需要复杂输出。目前整个业界发展非常迅速,从学界角度来看,依然处于百花齐放的状态。具体到机器人控制,如果场景相对简单,或许一个状态空间模型就足够应对了。
2.数据的解法
张一甲:面对数据这种“既重要又难搞”的情况,你们各自采取了什么样的应对策略?目前实际在做的有哪些工作?
张家兴:第一,我们坚信要从真实物理世界中采集数据,这最为关键。第二,在整个数字金字塔的构建中,我们希望通过最低成本的方式,直接以人自身作为本体来采集数据,这样成本最低,也最容易实现规模效应。这些数据主要用于人工智能领域。我们的目标,是构建一个质量最高、成本最低的数据金字塔。
赵行:我们同样以真实数据为基础,主要从三个层面入手。首先,是保证数据的真实性,因此我们用真实机器人素材作为起点。其次,我们注重多样性,这意味着数据采集不局限于自有工厂,而是深入各类真实场景。最后,我们再追求数量,通过优化方法(如从依赖机器人转变为无机器人方案)来降低采集成本、扩大规模。
罗剑岚:我们也是坚持真实数据,并且非常重视数据质量。有两点我们想突出一下:第一,我们会去真实场景里采集,而不只是在数据工厂。第二,未来整个数据生态的构建和运转,将主要依靠机器人自主产生数据。具体来说,就是把大量机器人部署到真实场景中,让它们与环境交互,从而产生范围极广、非常多样化的数据。然后利用这些数据,我们可以去获取更多的机器人,这样就形成了一个完整的正向反馈。
王仲远:我们还是坚持从海量的视频数据中去进行基座模型的学习。因为视频数据既能够海量获得,又能模拟真实世界。然后,我们通过真机采集的数据做半自动处理,再通过强化学习做反馈,来不断提升它的能力。这套逻辑其实跟现在很多小朋友刷手机认识世界是一个原理:他们通过视频学习这个世界,再通过真实的交互体验来提升技能。
王鹤:在座各位中,我可能是很强调仿真的。这并不是说我们故意要用仿真去替代真实世界的数据,而是我们发现,很多底层的控制都是通过大量的强化学习获得的,而这在真实世界里进行非常困难。比如,我们今天看到的所有人形机器人的足式行走、跳舞,包括各种复杂的身体控制,全都是通过仿真器习得的。真实数据在其中的作用,一是提取人类的行为形态(比如舞蹈),二是在真实世界进行少量的微调。
我们最近与清华大学合作的灵巧手工作也印证了这点。至今为止,所有真正的手内操作都是通过模仿学习实现的,而不是遥控。因为当你不清楚灵巧手的手指是否碰到物体、受力如何时,连遥操作都无法进行。
所以,仿真的意义并非否定真实世界,而是这些丰富的物理交互可以从仿真开始。它能提供一个很好的基础控制器,使我们在真实世界里能把“数据飞轮”转起来。这就是合成数据的使命。
程昊:我们现在实际上用仿真数据确实比较多,因为它比较快。但我们用仿真数据训练的一个目标,是让机器人接下来能获得更多真实数据,有了真实数据,整体能力才能再提升。
这很可能是一个螺旋上升的过程:落地后获得真实数据,会发现很多“corner case”搞不定,而真实世界又采不到那么多,那就可能又得回头大量用仿真数据。
所以我们的大思路是,一定要让机器人落地后能获得真实数据。我们坚信最终这些数据都得用上,大概率是一种融合的状态。视频数据长远看肯定是最多的,只不过现在它的训练效果还不那么理想。总之,哪个阶段哪个数据好用,我们就先用哪个。
张一甲:这可能不是应不应该的问题,而是能不能做到的问题。
王潜:我们是什么数据都用,但用的地方有侧重点。就像我刚才说的,不同数据本身的分布差异是很大的。
比如,我们用大量的互联网数据,基本上每晚能爬的都会爬一遍。这部分主要用来做知识链,学习一些常识,这是大家现在普遍都在做的基础工作。
再比如,我们仿真也做,但可能不会用它来做接触式的抓取这类任务,而是用来做智能体的决策、推理。那种物理抓取的迁移学习,主要还是以物理世界的真实数据为主。
所以,所有数据本质上都可以用起来,但说实话,把任何一种数据用好都挺难的,里面涉及大量核心的工程问题,这才是我们日常工作和注意力的重点。数据肯定是多多益善,我们能从各种各样的数据里都学到东西。
赵冬斌:我想,自动驾驶应该是具身智能一个非常重要的落地例子。从它的经验来看,把车卖给C端用户后,每个司机每天开车就把数据收回来了,这个真实数据的反馈闭环用得非常好。
我其实一直在想,我们其他的机器人什么时候也能这样?比如把服务机器人卖到旅馆,让它在无人环境下打扫卫生、叠被子。这样就能持续回收数据,出了问题可以远程接管,这些接管数据也非常重要。
再比如一个厨房机器人,如果能根据菜单做各种菜,随着部署规模上去,数据量自然就起来了。我们期待的就是这种数据自然而然涌现的时刻。
3.决策的“第一性原理”
张一甲:具身智能这个问题,真是越聊越觉得比我们想象中更复杂。就好像各位嘉宾在一个复杂的森林里,从不同的地点出发。我们不知道这个森林有多少物种,也不知道它的全貌,但我们知道大概会有宝藏。至于宝藏什么样、在哪里,都需要我们去摸索。在面对这么多开放和复杂的问题时,你们做决策的“第一性原理”是什么?
张家兴:我认同去年图灵奖得主的理念——让机器自己去发现,让机器自己去探索。
赵行:星海图创立时就有一句格言:“In scaling law we trust.” 我们相信,数据的规模化将反向驱动模型的进化与智能的实现。
罗剑岚:我们坚持做正确的事,正所谓“风物长宜放眼量”。很多事情短期看是负担,长期看却会产生巨大价值。
王仲远:人类如何学习,机器人就可以如何学习。
王鹤:我们始终致力于让“数据飞轮”转起来。即便当前所做的,未必是外界眼中最炫酷的事情。
程昊:我们决策时始终关注一件事:它能否真正落地。只要方向对落地有帮助,我们就会推进。
王潜:我们的金标准是:能否长期为客户与消费者创造真实价值。
张一甲:具身智能领域,大家是在“戴着镣铐起舞”,它很吸睛,但也很花钱。如果你手里有100亿元来推进具身智能发展,这笔钱你会怎么花?
赵冬斌:这是钱的问题,给他们来回答(笑)。
王潜:我首先把市场上能吸纳的好人才都吸纳过来,这是第一位的。那其次肯定是算力和数据啊。
王鹤:100亿其实并不重要,重要的是你怎么能够用你的事业和你坚定的进步,吸引到人才加入。我们不希望大家为了钱每天睁开眼睛,而是为了一个未来人与机器人共生的世界。
程昊:首先,100亿不够。如果我只有100亿的话,我肯定不会自己埋头落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,让他们可以心无旁骛地去搞比较长期的技术突破。
王仲远:我特别喜欢程昊总的这个回答。100个亿其实也就听起来很多,实际上也不多,也就10亿多美元。GPT-3真的要开始训练的时候,微软投资的规模也就是这个量级,这正是一个关键研究周期所需要的。
罗剑岚:我会去构建世界上最大的能够自我进化、自我闭环的数据系统。100亿可以说很多,也可以说不多,但关键是,第一个投入百亿去做这件事的个人或机构,现在还不存在。
赵行:我也会去构建一个最大的“data engine(数据引擎)”,目标是把物理世界的信息全部数字化下来。
张家兴:我是希望能够设计出属于我们自己的、具身智能的“黄金式模型”,然后进行大规模预训练,让能力真的能够scale up上去,找到我们最正确的那条路径。
(封面图来源:智源研究院)
END.
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


