自大模型出现以来,人形机器人在智能化的道路上加速奔跑,成为产业竞逐的新热点。英伟达发布了人形机器人通用模型Project GR00T;初创公司Figure AI完成新一轮6.75亿美元融资,投资方包括微软、英伟达、亚马逊创始人杰夫·贝索斯等;特斯拉旗下人形机器人Optimus性能持续迭代升级……毫无疑问,具身智能领域正在发生巨大的变革。
那么,AI大模型究竟为具身智能的技术及产业发展带来了哪些实质性的变革?3月20日,在由中国经营报社、中经传媒智库举办的“人工智能涌现产业生态焕新”专题研讨会上,中国人民大学计算机系副教授王永才就此问题给出了专业的解释与回答。
“术”层面改变了
所谓具身智能,一般是指有身体的、可以参与交互的、能够感知的智能机器人。王永才指出,传统的机器感知大致包括五项流程,即机器人定位建图、路径规划、目标检测和目标位置姿势等计算、机械臂运动规划,以及执行完成目标抓取、摆放、整理等任务。需要指出的是,这些流程中的每个任务都有很多的研究方法,这些研究方法几乎都是以某一个具体的空间位置作为目标——即非常具体的空间指标,但是人和使用场景之间往往会存在一个偏差,人很难明确地指出要抓取目标的空间坐标是多少。这就造成了传统研究中机器人与人交互的挑战与困难。
“大模型出现后,人与机器之间能够进行自然的交互,也就是说,机器能够听得懂人的语言,那么它可以自主地进行空间的规划和推理,同时又具有自主的运动能力,从而使任务执行具备了一些泛化、通用的能力——机器人能够泛化地分解任务,根据自己指定的目标分解并完成任务。”王永才举例解释,当我们让机器人去厨房倒一杯水,机器人理解这个指令之后,能够完全自主地拆解“去厨房倒一杯水”指令下的所有子任务,并自主完成所有任务,最终把一杯水端给我们。
在王永才看来,传统具身智能在“术”层面的问题——任务和目标由人来指定,当大模型出现后,变成了非常自然的应用场景。总结来说,大模型赋予了具身智能以“灵魂”,机器人能听懂人的语言,自主进行空间规划推理、运动能力,同时具备了泛化的任务分解能力并完成任务。
发展速度超出预期
“具身智能的发展速度超出了此前的预期,这背后有许多技术进步的支持。其中之一是基于视觉和自然语言理解的导航模型,简要来说由人发出指示,机器人接收到指令后,通过视觉识别和计算捕捉场景中的目标,在运动过程中逐渐积累起对这一场景的感知和知识,自主学习后就完全可以基于人的指令在这一场景中自主移动。”在研讨会现场,王永才如是说道。
王永才重点提到了初创机器人公司Figure AI,这家成立于2022年的公司于去年10月展示了其人形机器人Figure 1双足站立行走的演示视频,而到今年1月初,在官方披露的视频中,Figure 1在观察学习了10小时人类制作咖啡的过程后,就“学会”了使用胶囊咖啡机制作咖啡。今年3月,即在应用OpenAI的GPT-4大模型仅14天后,Figure 1能够理解场景,实现非常自然的人机交互。由此使业界发出感叹:通用具身智能似乎不远了。
关于GPT-4如何改变具身智能,王永才基于相关论文的研究及洞察指出,通过自然语言指令(Prompt)和视觉的指令一起输给GPT For Vision(视觉),由此让机器人理解学习场景。在理解之后,根据人的指令再去分解任务,将指令分解为一系列的动作。除此之外,还要结合对环境条件的感知与分析能力,即根据环境条件来调整动作任务。整个流程结束后,大模型把这些理解出来的动作作为训练数据,从而去训练具身智能。“以前更多地依赖计算,现在则变成了去训练大模型。”王永才说。
《中国经营报》记者注意到,就在前不久,斯坦福大学教授、AI视觉领域专家李飞飞团队发布了一项新的具身智能基准BEHAVIOR-1K,在“希望机器人为你做什么”这一问题上,测试基准涵盖了50个生活场景、1000种日常活动的逼真模拟,其最终目的是使机器人实现像人一样在家庭中做服务工作。显然,在大模型驱动之下,人形机器人、具身智能相关技术有望迎来进一步的突破,相关产业的规模化发展也将步入快车道。