具身智能与非具身智能在本质上的显著差异,集中体现在物理具现化能力的实现上,这一差异主要从感知与行动的闭环机制,物理规律的内化理解,仿真到现实的迁移能力与知识获取方式四个维度得以体现。

1

1. 感知与行动的闭环机制

以特斯拉 Optimus 为典型代表的具身智能体(Embodied Agent),借助多模态感知系统(涵盖视觉、触觉、力觉传感器)与关节执行器的高效协同运作,构建了完备的“感知-决策-执行”循环链条。具体表现如下:

1)视觉感知

Optimus 搭载的视觉传感器主要包括 RGB-D 摄像头与激光雷达,这些设备是其实现精准视觉感知的关键。RGB-D 摄像头不仅能够捕捉物体的颜色信息,还能获取深度数据,而激光雷达通过发射激光束并测量反射光的时间来构建精确的三维环境模型。二者相辅相成,赋予机器人强大的三维环境建模能力。在复杂的仓储环境中,这一能力的优势尤为明显。Optimus 可以通过视觉系统迅速扫描周围环境,快速判断货架间的通道宽度,这对于规划行进路径至关重要,能够避免在移动过程中与货架发生碰撞。同时,它还能精准识别货物的摆放位置,无论是形状规则的标准货物,还是形状各异的特殊物品,都能准确分辨,为后续的搬运任务提供可靠依据。例如,在面对不同尺寸和材质的包装箱时,机器人能够根据视觉感知到的信息,确定最佳的抓取点和搬运方式。

2)触觉感知

Optimus 的手指与关节部位覆盖了密集的触觉传感器阵列,具备高达 0.1N 级别的高精度力度感知能力。结合先进的自适应阻抗控制算法,机器人在抓取物体时展现出非凡的精细操作能力。以抓取鸡蛋这类易碎物品为例,在机器人的手指接触到鸡蛋的瞬间,触觉传感器会立即感知到接触力的大小,并将信息反馈给控制系统。控制系统根据预设的力度阈值和当前的接触力情况,结合自适应阻抗控制算法,动态调整手指施力的大小。如果感知到的力过小,系统会自动增加施力,确保鸡蛋被稳定抓取;若力过大,系统则会及时减小力量,避免鸡蛋因受力过大而破裂。这种基于触觉反馈的实时调整机制,使 Optimus 能在各种复杂抓取任务中确保物品的安全,展现出与人类手部类似的精细操作水平。

3)本体觉感知

由编码器与惯性测量单元组成的本体觉传感器是 Optimus 维持自身运动稳定性的关键保障。编码器能够精确测量关节的旋转角度和运动速度,惯性测量单元则可实时监测机器人的加速度和角速度。在行走过程中,本体觉传感器持续为机器人提供肢体运动状态的关键信息。当 Optimus 跨越障碍物时,本体觉传感器会及时感知到腿部关节的角度变化和身体的姿态调整需求,并将这些信息传递给控制系统。控制系统根据这些信息迅速做出决策,调整其他关节的运动参数,以保持身体的平衡和动作的流畅性。在攀爬任务中,本体觉传感器同样发挥着重要作用,帮助机器人精确控制肢体的伸展和收缩,确保在复杂的攀爬环境中找到稳定的支撑点,避免因重心不稳而发生坠落危险。在搬运物体时,本体觉传感器会根据物体的重量和搬运动作的变化,实时调整身体各部分的姿态和力量分配,使整个搬运过程更加平稳、高效。

2

2. 物理规律的内化理解

具身智能通过实体交互不断积累物理常识,形成一种截然不同于单纯文本推导的经验认知体系。以 Optimus 举例,在搬运重物过程中,它需要进行以下操作:

1)质量估算与惯性预判

力传感器反馈的信息能够让机器人迅速估算物体质量,进而预判其惯性。在搬运过程中,机器人会依据这些信息及时调整关节扭矩,整个闭环操作能够在 50ms 内快速完成。例如,在搬运大型机械设备零部件时,Optimus 能够根据力的反馈精准调整自身动作,确保搬运过程的平稳与安全。

2)摩擦力模型构建

通过数千次跌落实验,Optimus 建立了完善的摩擦力模型。凭借这一模型,机器人能够自主判断在不同材质表面的最大抓取倾斜角。例如,在处理表面光滑的金属零件或粗糙的木质材料时,Optimus 能够根据摩擦力模型调整抓取角度,保证抓取的稳定性。

3)复杂地形行走策略

在复杂地形行走时,Optimus 结合地面反作用力与视觉信息,能够准确预测滑移概率。例如,在布满石子的路面或潮湿的地面上行走时,机器人可以根据这些信息调整步伐节奏与重心位置,避免滑倒或摔倒。

3

3. 仿真到现实的迁移能力

在具身智能的发展进程中,数据训练是至关重要的一环,但在真实物理世界中获取数据并进行交互的过程中面临诸多挑战。真实物理世界无法随意加速实验进程,每个实验都必须依靠具身智能体在真实环境中一步一步地执行任务,才能获取到相应的数据。这意味着,在真实环境下进行数据训练,不仅耗时费力,还需要投入大量的资源。例如,要训练一个用于复杂工业场景的具身智能机器人,让它学习各种复杂情况下的操作技能,若按照传统的在真实环境中直接训练的方式,可能需要花费数月甚至数年的时间,其间还可能受到环境因素的干扰,导致训练结果不稳定。

鉴于此,具身智能通常采用 Sim2Real(Simulation to Reality)训练范式。这种范式的核心思想是先在虚拟环境中完成一系列复杂的训练任务,然后将训练好的模型移植到真实环境中,从而有效提高训练效率,降低训练成本。

在虚拟环境中,首要的训练环节是大规模碰撞模拟。研究人员会进行高达 106 量级的碰撞模拟实验,为机器人创造丰富多样的碰撞场景。在狭窄通道中,机器人频繁与各种形状、大小的障碍物发生碰撞。通过反复经历这些碰撞,机器人可以学习到应对碰撞的有效策略。例如,当感知到即将与障碍物碰撞时,机器人能够迅速判断最佳的路径调整方向,向左或向右避让,或是后退重新规划路线,从而避免碰撞并顺利通过狭窄空间。这种在虚拟环境中的反复训练,使机器人积累了大量应对碰撞的经验,为它在真实世界中应对类似情况提供了可靠的决策依据。

基于物理引擎的动力学学习也是 Sim2Real 训练范式的重要组成部分。像 MuJoCo 这样的物理引擎,为机器人在虚拟环境中的动力学学习提供了有力支持。借助这些物理引擎,机器人可以模拟各种运动,深入学习不同动作的动力学原理。在模拟行走动作时,机器人能够分析腿部肌肉力量的变化如何影响身体的前进速度和平衡;在模拟奔跑时,机器人可以研究如何调整步幅和步频来实现更快的速度,同时保持身体的稳定;在模拟跳跃动作时,机器人能够探索如何控制力量和角度,以达到理想的跳跃高度和距离。通过对这些运动的模拟学习,机器人能够深刻理解力与运动之间的复杂关系,从而在真实世界中执行相应动作时,表现得更加自然和流畅。

此外,随机化材质参数训练鲁棒性是 Sim2Real 训练范式的又一关键环节。在虚拟环境中,研究人员会设置不同材质的物体,涵盖不同硬度的塑料、不同粗糙度的金属等。这些材质在物理属性上存在差异,机器人在与它们进行交互时,需要学习如何根据材质的不同来调整操作策略,以保持稳定的操作性能。当机器人抓取不同硬度的塑料物品时,要根据材质的弹性和抗压能力,调整抓取的力度和方式,避免物品被夹碎或滑落;在接触不同粗糙度的金属表面时,机器人需要适应不同的摩擦力,调整移动速度和力度,确保能够稳定地行走或操作。通过这种随机化材质参数的训练,机器人能够提高自身的鲁棒性,增强在复杂多变的真实世界中的适应能力。

当机器人在虚拟环境中完成上述一系列训练,积累了足够的经验和技能后,便可以通过域随机化技术将训练好的模型迁移至物理世界。域随机化技术通过在虚拟环境中引入各种随机因素,模拟真实世界中的不确定性,使得训练好的模型在面对真实世界的差异时,依然能够保持良好的性能。据研究表明,这种训练方式相较于纯实体训练,具有显著的优势,其效率提升了 3 个数量级。这意味着原本需要耗费大量时间和资源的训练过程,现在可以在短得多的时间内完成。这不仅极大地缩短了训练周期,还降低了训练成本,包括硬件设备的损耗、人力的投入以及实验场地的使用等,为具身智能的快速发展和广泛应用提供了有力支持。

4

4. 知识获取方式的根本差异

非具身智能与具身智能在认知形成过程中存在显著差异,这些差异的背后,符号接地问题起到了关键作用。符号接地问题由认知科学家斯蒂夫·哈纳德(Stevan Harnad)于 1990年正式提出,是认知科学、人工智能和哲学领域中具有深远影响的基础问题。其核心问题是如何让抽象符号与现实世界中的对象、概念和经验建立起真正有意义的联系。在传统人工智能发展历程中,早期的符号系统被广泛应用,计算机通过操作抽象符号来执行任务,但这些符号缺乏与现实世界的直接关联,导致人工智能在理解和处理现实问题时面临诸多困难。

下表详细展示了 GPT-4 类非具身智能和具身智能在认知形成过程中的不同维度,这些维度的差异深刻体现了符号接地问题在两种智能形式中的不同表现。

例如,当被问及“如何稳定搬运装满水的敞口容器”时,这种差异尤为明显。

GPT-4 的应对方式:GPT-4 可能会给出基于流体动力学的理论描述,从理论层面分析搬运过程中的受力情况与液体晃动原理。但由于 GPT-4 属于非具身智能,深受符号接地问题的困扰,因此它只是对文本中的流体动力学等相关符号进行处理和组合,缺乏实际操作层面的具体应对方法。那些语言符号在其系统中并未真正与实际搬运场景中的物理对象和操作建立有效联系,无法将抽象的物理知识转换为实际可行的动作指导。

Optimus 的应对方式:Optimus 会根据实际洒水数据,自动调整步态频率和手臂摆动幅度。在实际操作过程中,它会通过传感器实时监测水的晃动情况,不断调整自身动作,将液体晃动幅度控制在 5% 以内,从而实现稳定搬运。具身智能体 Optimus 不存在传统非具身智能面临的符号接地难题,它通过自身搭载的多种传感器,与真实环境中的水、容器等物理对象进

行多模态交互。在这个过程中,它对质量、惯性、摩擦力等物理量有了直观且深刻的认知,这些认知并非基于抽象符号,而是直接来源于与物理世界的具身化交互。

这种差异从本质上反映了具身智能突破了传统 AI 仅局限于符号处理的困境,将具身智能体置于受物理约束的连续时空中。通过具身化交互,具身智能体得以获得对质量、惯性、摩擦力等物理量的直观且深刻的认知。正如人类婴儿通过抓握、爬行等实际动作逐步建立起空间认知,具身智能体正在机器维度重现这一认知进化的关键历程,有效解决了传统非具身智能所面临的符号接地问题,实现了从抽象符号到真实物理世界认知的跨越。

本文摘自《具身智能:从理论到实践》,具体内容请以书籍为准。

具身智能:从理论到实践——jdhttps://item.jd.com/14543133.html?spmTag=YTAyNDAuYjAwMjQ5My5jMDAwMDQwMjcuMiUyM3NrdV9jYXJk&pvid=9ee088d08083410fad7b1d7a628eb0ec

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐