【商汤圆桌】具身智能最先进入使用的场景是这些↓↓↓

商汤科技
12-18 11:57

2025商汤科技AI论坛“模型智未来”于近期顺利举行,「从“数字世界”到物理世界:具身世界模型如何重塑人机交互」圆桌论坛在期间召开。

商汤科技联合创始人、执行董事,大晓机器人董事长王晓刚担任论坛主持人,邀请到香港大学罗平教授、香港大学李弘扬教授、鹿明机器人创始人喻超三位嘉宾,共话如何用大模型赋予机器人强大的大脑。

以下为圆桌论坛完整记录:

王晓刚:我们知道大模型起源于数字世界。今天的讨论旨在将大模型从数字世界引向与环境交互的物理世界,让机器人拥有强大的大脑,用大模型重塑具身智能。

我们非常荣幸邀请到香港大学的罗平教授和李弘扬教授,他们深耕人工智能研究多年。罗平教授是香港大学数据学院的副院长,李弘扬教授是上海创智学院自动驾驶实验室的负责人。同时,还有我们的好朋友,鹿明机器人的创始人喻超总,他在机器人产业的产品化硬件方面有多年积累。我们将共同探讨模型与硬件如何协同,赋予具身机器人一个强大的大脑。”

▎三位嘉宾分别研究什么领域?

王晓刚:罗平是优秀的AI研究者,现在也在探索具身智能,先请罗平介绍自己的研究领域以及当前工作?

罗平:本人从事具身智能研究已经很长时间了,从2019年回到香港大学当老师时就开始专注于这一领域。我的团队一直关注具身AI的范式变化,从最早的VQA到原模型,再到让机器人大脑具备理解世界知识的语言驱动能力。目前,我的工作是将大语言模型的范式引入具身AI,目标是实现视觉、语言和动作等所有模态的同时生成。”

王晓刚:鹿明机器人现在发展得很好,也想请喻超介绍一下当前工作以及发展情况?

喻超:鹿明机器人成立于2024年,自我定位是一家拥有最强数据能力的全栈智能公司。在过去一年多时间里,我们完成了四款整机和七款零部件的硬件开发,并建立了月产100台以上的产能。我们构建了像巴优米一样的数据采集方式,解耦了数据采集和本体驱动,旨在解决行业中的数据孤岛问题。我们计划在明年采集100万小时的数据量。在商业合作方面,我们在中远海运等航运领域,以及三菱等高价值场景占据了排他性合作渠道。我们还提出了“鹿明指数”,用以衡量具身智能的最终价值。

王晓刚:作为深度学习的研究者,李弘扬参与了具身智能和自动驾驶领域的模型打造,请李弘扬介绍一下当前工作以及研究情况?

李弘扬:我是香港大学的助理教授,此前曾从事高端自动驾驶的工作。我现在正与**、理想汽车合作,进行世界引擎的工作。本人在具身智能方面曾与上海智元合作,参与了第一代大模型的开发。我的目标是将世界模型和数据驱动的范式引入机器人领域,致力于对标世界一流的智能算法公司。

▎具身智能的发展遇到哪些技术挑战?

王晓刚:在具身时代,物理世界复杂程度远超数字世界,从你的研究来看,尤其是灵巧手方面,挑战是什么?

罗平:从我的研究来看,具身智能的主要挑战在于硬件发热和所需的强大“大脑”。特别在灵巧手方面,市面上的高自由度手运行半小时后温度可能达到七八十度,这使得我们无法实现全掌触觉。我的团队通过激进的方式,将所有电机从手掌内移到外部,解决了温度管理问题,实现了高自由度、最轻、最低成本的手,使得触觉感知更容易实现。对于超拟人本体的大脑,我们要求它必须同时保证高频率的控制信号输出和对环境的大反馈理解能力。

王晓刚:目前大量机器人在展现硬件能力,有时候感觉很厉害,有时候感觉又有点木讷,从本体开发来看,目前具身智能还有什么技术难关?

喻超:从本体开发来看,我们认为硬件本身的壁垒已经不高,核心问题是用户需求与商业化的平衡点。我们面临两大难关:一是缺乏实际的需求引导;二是从1到100的产品化过程。我认为,智能一定是数据量驱动的。然而,具身智能领域的数据量稀少。只有通过商业化的正常过程,完成数据规模化,我们才能实现真正的智能。

王晓刚:世界模型是具身智能研发的重点,目前研发上有哪些难度?

李弘扬:我认为VLA(Vision-Language-Action)这条大致路线是确定的,但‘L’即语言模态在机器人任务中的作用仍需要大量实验来验证。VLA更多应该理解为Video Learning这种形式。世界模型一定是未来技术发展的方向。在机器人具身智能中,它的关键作用不是生成,而在于如何设计Learning Reward,或是Value Learning。我们应该通过世界模型来评估动作轨迹或行为的正确性,并直接将评估结果反馈到VLA的架构中。

▎人类行为如何转移到具身智能上?

王晓刚:从各自领域来看,如何看待特斯拉、Figure AI的技术路线?当前具身智能技术路线是否收敛?人类行为如何转移到具身智能上?

李弘扬:我认为模仿学习,比如看视频是必要的,但要真正学会技能,真机数据是关键。互联网数据或大量的视频数据只能提供宏观层面上的经验,但要真正掌握技能,我们必须通过真机实操来进行。

喻超:我认为Video数据和真机数据都是必须的。Video数据训练的是高阶的智能,它能训练出一个对环境有理解的“光杆司令”,但缺乏实操经验。而解决实操层面的问题,必须依靠真机数据或环境交互。单纯依靠仿真来增加数据信息密度是不现实的,底层对物理世界的学习必须使用真机数据。

罗平:我认为当前的数据采集方式是走向了两个极端,都是在“难为”人或机器:一是人远程操作真机,难为人去学习机器人的动作;二是人戴设备采集操作让机器学,这在难为机器去学习人的复杂动作。因此,我们应该采取双向靠拢的策略:用外骨骼来限制人的活动,让机器更好学;同时,提高机器本体的自由度,使其更像人,以提高数据采集的利用率。我的团队目前正是在做超高拟人自由度的本体。

▎具身智能会先进入哪些使用场景?

王晓刚:具身智能商业化是市场关注重点,预计具身智能什么时候能大规模商业化,最先进入哪些场景?

罗平:我认为具身智能可以在短期,例如3年内落地。主要场景是替换人不喜欢做的事情:例如危险场景,以及家庭协作,这些都可以通过人机协作的方式完成。

我最期待的是具身智能的技术路线、数据采集方式、以及验证方法能够尽快稳定下来。

喻超:对于超大规模的商业化,我认为尚远。但是,萌芽期规模预计在3到4年内是可以看到的。最先落地的场景应该是低技术要求、高刚性需求的领域:娱乐类、危险场景,以及可实现标准化解决方案的工业场景。通过解决一部分节拍问题,这类产品可以实现规模化的边际成本较低。

我最期待的是出现一个类似Google Deep Mind级别的动作态大模型,它应该具备强泛化能力和超强工具能力,最终达到“纲领之脑”的效果。

李弘扬:我认为机器人之后会进入物种大爆发阶段,四足和人形机器人等会并存。我不太倾向于本体最终会趋于统一的观点。关于落地时间,机器人进入家庭场景至少需要10年。在此之前,一种可行的思路是先做好To B场景,例如酒店、餐饮行业。值得一提的是,在早期,遥操作本身也可以成为一个盈利点。

我最期待的是超拟人本体的硬件能够实现出来,同时软件上能实现一个能够融合所有模态的VLA架构,并在至少一两个领域真正实现泛化能力。

▎未来五年最期待具身智能有哪些突破?

王晓刚:最后,我想让大家畅想一下,未来五年你最期待具身智能有哪些突破?

罗平:我们以前做计算机视觉的研究,定义一个问题首先要定义数据集,那其实到了今天,具身智能采集的数据都没有完全定下来,更何况它的技术路线探讨,以及如何去验证scaling law。我相信五年之内这些都会变得明确。

喻超:我自己最期待的突破其实是多模态大模型,至少能除了常规的识别和生成以外,有比较强的推理能力,能够达到通用智能的效果,这样机器人的问题都会变得相对简单。

李弘扬:未来五年我最期待的事是把超拟人的本体硬件实现,同时它能通过VLA把所有的步态和操作融在一起,至少在一两个垂直领域能够真正实现泛化,而不只是远观或者遥操。

王晓刚:具身的技术路线还没有收敛,在过程中需要持续的创新。我们也预祝几位嘉宾在未来的研究和创业路上都能够取得更大成功。谢谢大家,感谢各位的精彩发言。

具身智能正逐步跨越从“数字世界”到“物理世界”的鸿沟。大晓机器人将为机器人装上聪明的“大脑”,让它们从“被动执行”转向“自主探索”;更要将前沿的智能,转化为可靠的产品,融入每一个具体的生活场景。

One more thing,

下周一(12月15日)起,商汤科技即将开启“2025商汤产品发布周”,更多新品尽在商汤视频号,届时大晓机器人也将亮相~

12月15日-19日,我们天天见!

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法