原文翻译

摘要

人类的双手在交互中起着核心作用,这促使人们对灵巧机器人操作展开了越来越多的研究。数据驱动的具身人工智能算法需要精确、大规模、类人的操作序列,而通过传统的强化学习或现实世界中的远程操作来获取这些序列面临着挑战。为解决这一问题,我们提出了MANIPTRANS,这是一种新颖的两阶段方法,用于在仿真环境中将人类的双手机能高效地迁移到灵巧机器人手上。

MANIPTRANS首先预训练一个通用轨迹模仿器来模拟手部动作,然后在交互约束下微调特定的残差模块,从而实现复杂双手任务的高效学习和准确执行。实验表明,MANIPTRANS在成功率、保真度和效率方面都超过了最先进的方法。借助MANIPTRANS,我们将多个手部-物体数据集迁移到机器人手上,创建了DEXMANIPNET,这是一个大规模数据集,包含了诸如笔盖扣合和瓶子拧开等此前未被探索的任务。DEXMANIPNET包含3300个机器人操作片段,且易于扩展,为灵巧手的进一步策略训练提供了便利。

1.引言

具身人工智能(EAI)近年来发展迅速,人们正加大力度使人工智能驱动的具身实体能够与物理或虚拟环境进行交互。正如人类的双手在交互中起着关键作用一样,具身人工智能领域的许多研究都集中在灵巧的机器人手部操作上。在复杂的双手任务中达到类人水平的熟练程度具有重要的研究价值,并且对于通用人工智能的发展至关重要。

因此,为数据驱动的具身智能体训练快速获取精确、大规模且类人的灵巧操作序列变得日益迫切。一些研究使用强化学习(RL)来探索和生成灵巧的手部动作,而另一些研究则通过遥操作收集人机配对数据。这两种方法都存在局限性:传统的强化学习需要精心设计的、特定于任务的奖励函数,这限制了其可扩展性以及任务复杂性,而远程操作则耗费人力且成本高昂,只能产生特定于具身的数据集。

一个很有前景的解决方案是通过模仿学习,在模拟环境中将人类的操作动作迁移到灵巧的机器人手上。这种方法具有多个优势。首先,模仿人类的操作轨迹能产生自然的手-物交互,实现更流畅、更类人的动作。其次,丰富的动作捕捉(MoCap)数据集和手部姿态估计技术使得从人类演示中提取操作知识变得容易获取。第三,模拟提供了具有成本效益的验证,为现实世界中的机器人部署提供了一条捷径。

然而,实现精确且高效的迁移并非易事。如图1所示,人手与机器人手之间的形态差异导致直接的姿态重定向效果欠佳。此外,尽管动作捕捉(MoCap)数据相对准确,但在高精度任务中,误差累积仍可能导致严重失误。而且,双手操作会引入高维动作空间,显著增加了高效策略学习的难度。因此,大多数开创性研究通常止步于单手抓取和提升任务[27, 111, 121, 135],而诸如拧开瓶盖或给钢笔盖帽等复杂的双手活动在很大程度上仍未得到探索。

在本文中,我们提出了一种简单但高效的方法——MANIPTRANS,该方法有助于将手部操作技能(尤其是双手动作)迁移到仿真环境中的灵巧机器人手上,从而实现对参考动作的精确跟踪。我们的核心见解是将这种迁移视为一个两阶段过程:第一阶段是预训练轨迹模仿阶段,仅专注于手部动作;第二阶段是特定动作微调阶段,以满足交互约束。具体而言,我们设计了一个稳健的通用模型,该模型能够学习精确模仿人类手指动作,并具有抗噪声能力。在这种初始模仿的基础上,我们引入了一个残差学习模块,用于逐步优化机器人的动作,重点关注两个关键方面:1)在物理约束下确保与物体表面的稳定接触,以实现有效的物体操作;2)协调双手,确保复杂双手操作的精确、高保真执行。

这种设计的优势有三点:1)在第一阶段,通过大规模预训练专注于动态手部模仿,有效缓解了形态差异。2)基于这一优势,第二阶段专注于跟踪双手与物体的交互,能够精确捕捉细微动作,并促进自然、高保真的操作。3)通过将人类手部动作模仿与基于物理的物体交互解耦,显著降低了动作空间的复杂性动作约束,从而提高训练效率。

基于这一框架,MANIPTRANS能够将任意的、含噪声的手部动作捕捉数据修正为符合物理规律的运动,且无需预设阶段(例如“接近-抓取-操作”)或针对特定任务设计奖励机制。因此,我们在一系列复杂的单双手操作任务中验证了其有效性和效率,包括对多关节物体的操作。借助MANIPTRANS,我们将多个具有代表性的手部-物体操作数据集迁移到Isaac Gym仿真环境[79]中的灵巧机器人手上,构建了DEXMANIPNET数据集,该数据集在运动保真度和柔顺性方面取得了显著提升。目前,DEXMANIPNET包含3300个片段和134万帧的机器人手部操作数据,涵盖了此前未被探索的任务,如笔盖扣合、瓶盖拧开以及化学实验操作等。

我们通过实验证明,MANIPTRANS在运动精度和迁移成功率方面均优于基线方法。值得注意的是,即使在个人计算机上,它在迁移效率上也超过了先前的最先进(SOTA)方法。为了评估其可扩展性,我们进行了跨实体实验,将MANIPTRANS应用于具有不同自由度(DoFs)和形态的灵巧手,仅需极少的额外工作就能实现稳定的性能。此外,我们在真实设备上重放了DEXMANIPNET的双手机器人轨迹,展示了灵活自然的灵巧操作,据我们所知,这是以往基于强化学习(RL)或远程操作的方法所未能实现的。最后,我们使用多种模仿学习框架对DEXMANIPNET进行了基准测试,突显了其对研究界的价值。

总之,我们的贡献如下:

• 我们提出了MANIPTRANS,这是一个简单但有效的两阶段迁移框架,能够在仿真环境中将人类双手操作精确迁移到灵巧的机器人手上,确保对人手和物体参考运动的准确跟踪。

• 利用该框架,我们构建了DEXMANIPNET——一个大规模、高质量的数据集,其包含大量新颖的双肢操作任务,具有高精度和顺应性。DEXMANIPNET具有可扩展性,可作为未来策略训练的宝贵资源。

• 我们的实验表明,MANIPTRANS的性能优于以往的最先进方法。我们进一步证明了其在各种灵巧手配置中的通用性以及在实际部署中的可行性。

2.相关工作

基于人类演示的灵巧操作

从人类演示中学习操作技能提供了一种直观且有效的迁移方法将人类的能力赋予机器人。模仿学习在实现这种能力迁移方面展现出了巨大潜力。近期的研究着重于学习由物体轨迹引导的强化学习策略。QuasiSim通过参数化准物理模拟器将参考手部动作直接迁移到机器人手上,从而改进了这种方法。然而,这些方法仅限于较简单的任务,且计算量很大。最近,针对诸如双手拧瓶盖等具有挑战性的任务,已经开发出了使用特定任务奖励函数的定制解决方案。相比之下,我们的方法无需进行特定任务的奖励设计,就能高效地学习复杂的操作任务。

灵巧手数据集 物体操作是具身智能体的基本能力。目前存在许多基于MANO的手-物交互数据集。然而,这些数据集往往优先考虑与二维图像的姿态对齐,却忽略了物理约束,这限制了它们在机器人训练中的适用性。遥操作方法利用AR/VR系统或基于视觉的动作捕捉(MoCap)在线收集人类到机器人的手部匹配数据,以进行实时数据采集并在有人类参与的闭环中进行校正。但遥操作既耗费人力又耗时,且缺乏触觉反馈常导致动作僵硬、不自然,阻碍了精细操作。相比之下,我们的方法能够将人类演示离线迁移到机器人上。我们的DEXMANIPNET提供了一个大型且易于扩展的人类演示片段集合。

残差学习

由于强化学习(RL)训练存在样本效率低和耗时长的特点,用于逐步优化动作控制的残差策略学习被广泛采用,以提高效率和稳定性。在灵巧手操作领域,多项研究探索了针对特定任务的残差策略。例如,文献[38]在残差策略训练过程中融入了用户输入,而文献[51]则从人类演示中学习纠正动作。GraspGF[118]采用预训练的基于分数的生成模型作为基础,文献[21]将模仿任务分解为手腕跟随和手指运动控制,并集成了残差手腕控制策略。此外,文献[48]利用残差学习构建了专家混合系统[49],DexH2R[139]则将残差学习直接应用于重定向的机器人手部动作。我们的方法与这些方法的不同之处在于,先预训练一个整合了额外动态信息的手指运动模仿模型,然后微调残差策略以适应特定任务的物理约束。这种方法效率更高,且在各种操作任务中具有更强的通用性。

3. 方法

我们在图2中概述了我们的方法。给定参考的人类手-物交互轨迹,我们的目标是学习一种策略,使灵巧的机器人手能够在模拟中准确复现这些轨迹,同时满足任务的语义操作约束。为此,我们提出了一个两阶段框架:第一阶段训练一个通用的手部轨迹模仿模型,第二阶段采用残差模型将初始的粗略运动细化为符合任务要求的动作。

3.1. 预备知识

不失一般性,我们在复杂的双操作手场景中阐述操作迁移问题。在该场景中,左右灵巧手(d={d_{l}, d_{r}})旨在模仿人类双手(h={h_{l}, h_{r}} )的行为,人类双手以协作方式与两个物体(o={o_{l}, o_{r}})进行交互(例如,在盖笔帽任务中,一只手握住笔帽,另一只手握住笔身)。来自人类演示的参考轨迹定义为T_{h}={\tau_{h}^{t}}_{t=1}^{T}T_{o}={\tau_{o}^{t}}_{t=1}^{T},其中T表示总帧数。每只手的轨迹\tau_{h}包括手腕的6自由度位姿w_{h} \in \mathbb{S E}(3)、线速度和角速度\dot{w}_{h}={v_{h}, u_{h}},以及由MANO[96]定义的手指关节位置j_{h} \in \mathbb{R}^{F ×3}及其各自的速度\dot{j}_{h}={v_{j}, u_{j}};这里,F表示手部关键点的数量,包括指尖。同样,每个物体的轨迹\tau_{0}包括其6自由度位姿p_{o} \in \mathbb{S E}(3)以及相应的线速度和角速度\dot{p}_{o}={v_{o}, u_{o}}。为了降低空间复杂度,我们将所有平移量相对于灵巧手的手腕位置进行归一化,同时保留原始旋转以维持正确的重力方向。

我们将此问题建模为一个隐式马尔可夫决策过程(MDP)M=<S, A, T, R, \gamma>,其中s表示状态空间,A表示动作空间,T表示转移动态,R表示奖励函数,γ表示折扣因子。每个灵巧手在时间t的动作记为a^{t} \in A,包含每个灵巧手关节a_{q}^{t} \in \mathbb{R}^{K}用于比例-微分(PD)控制的目标位置,以及施加在机器人手腕上的6自由度力a_{w}^{t} \in \mathbb{R}^{6},这与先前的研究[48, 111, 121]类似,其中K表示机器人手旋转关节的总数(即自由度)。

我们的方法将迁移过程分为两个阶段:1)一个预训练的仅手部轨迹模仿模型I,以及2)一个残差模块R,该模块对粗略动作进行微调以确保任务合规性。时间t的状态针对每个阶段分别定义为s_{I}^{t} \in S_{I}s_{R}^{t} \in S_{R},相应的奖励函数r_{I}^{t}=R(s_{I}^{t}, a_{I}^{t})和\(r_{R}^{t}=R(s_{R}^{t}, a_{R}^{t})\)如3.2节和3.3节所述。对于这两个阶段,我们采用近端策略优化(PPO)[99]来最大化折扣奖励。

3.2. 手部轨迹模仿

在这一阶段,我们的目标是学习一个通用的手部轨迹模仿模型I,该模型能够精确复制人类手指的详细动作。每个灵巧手在时间t的状态定义为s_{I}^{t}={\tau_{h}^{t}, s_{prop }^{t}},其中包括目标手部轨迹\tau_{h}^{t}和当前的本体感觉s_{prop }^{t}={q_{d}^{t}, \dot{q}_{d}^{t}, w_{d}^{t}, \dot{w}_{d}^{t}}。这里,q_{d}^{t}w_{d}^{t}分别表示关节角度和腕部姿态,以及它们相应的速度。我们旨在使用强化学习训练策略\pi_{I}(a^{t} | s_{I}^{t}, a^{\bar{t}-1}),以确定动作a_{I}^{t}(奖励函数)。奖励函数r_{I}^{t}旨在促使灵巧手跟踪参考手部轨迹\tau_{h}^{t},同时确保稳定性和流畅性。它包含三个部分:1)腕部跟踪奖励r_{wrist }^{t}:该奖励最小化差异:w_{d}^{t} \ominus w_{h}^{t}\dot{w}_{d}^{t}-\dot{w}_{h}^{t},表示SE(3)空间中的差异。2)手指模仿奖励r_{finger }^{t}:这一部分促使灵巧手紧密跟随参考手指关节位置。我们在灵巧手上手动选择与MANO模型相对应的F个手指关键点,记为j_{d}。权重w_{f}和衰减率\lambda_{f}是根据经验设置的,以强调指尖,特别是拇指、食指和中指的指尖。参数详见附录。这种设计有助于减轻人类手部和机器人手部之间形态差异的影响:

r_{finger }^{t}=\sum_{f=1}^{F} w_{f} \cdot exp \left(-\lambda_{f}\left\| j_{d_{f}}^{t}-j_{h_{f}}^{t}\right\| _{2}^{2}\right) (1)

3) 平滑度奖励r_{smooth }^{t}:为了减轻运动的抖动,我们引入了一种平滑度奖励,该奖励会对每个关节施加的功率进行惩罚,其定义为关节速度和扭矩的逐元素乘积,类似于[76]中的方法。总奖励定义为:r_{I}^{t}=w_{wrist } \cdot r_{wrist }^{t}+\) \(w_{finger } \cdot r_{finger }^{t}+w_{smooth } \cdot r_{smooth }^{t}

训练策略。将手部模仿与物体交互分离有额外的好处;具体来说,\pi x不需要难以获取的操作数据。我们使用仅包含手部的数据集来训练策略,这些数据集包括现有的手部动作集合[14, 36, 62, 107, 134, 137, 144]以及通过插值生成的合成数据[105]。为了平衡左右手的训练数据,我们对这些数据集进行镜像处理;训练时间和其他细节详见附录。为提高效率,我们采用了参考状态初始化(RSI)和提前终止策略[88, 89]。如果灵巧手关键点j_{d}偏离超过阈值finger,该回合会提前终止并重置为随机采样的动作捕捉状态。我们还利用了课程学习[8],逐渐减小finger,以鼓励初始阶段的广泛探索,随后专注于精细的手指控制。

3.3. 用于交互的残差学习

在预训练的\pi I基础上,我们使用残差模块R来优化粗略动作并满足特定任务的约束。用于交互的状态空间扩展。为了考虑灵巧手与物体之间的交互,我们通过纳入额外的交互相关信息,将状态空间扩展到手部相关状态s_{I}^{t}之外。首先,我们计算来自动作捕捉数据的物体网格o的凸包[116],以在仿真环境中生成可碰撞物体\hat{o}。为了沿着参考T_{\circ}操纵物体,我们纳入了物体的位置p_{\bar{o}}(相对于手腕位置w_{d})和速度\dot{p}_{\dot{\delta}})、质心m_{\delta}以及重力向量G_{\tilde{o}}。为了更好地编码物体的形状,我们利用了BPS表示[91]。此外,为了增强感知,我们使用距离度量来编码手与物体之间的空间关系:D(j_{d}^{t}, p_{\hat{o}}^{t})=\left\|j_{d}^{t}-p_{\hat{o}}^{t}\right\|_{2}^{2},即测量灵巧手关键点与物体位置之间的欧氏距离平方。而且,我们明确纳入了从仿真中获得的接触力C,以捕捉指尖与物体表面之间的交互。这种触觉反馈对于稳定的抓取和操纵至关重要,确保精确的控制持续执行复杂任务。总之,残差模块的扩展交互状态定义为:s_{interact }^{t}= \left \{ \tau^{t}_{o},p^{t}_{\hat{o}},\dot{p}^{t}_{\hat{o}}, m_{\hat{o}}^{t} ,G_{\dot{o}}^{t},BPS(\hat{o}), D(j_{d}^{t}, p_{\hat{o}}^{t}), C^{t} \right \}

残差动作组合策略。给定组合状态s_{R}^{t}=s_{I}^{t} \cup s_{interact }^{t},我们的目标是学习残差动作\Delta a_{R}^{t},以优化初始模仿动作a_{I}^{t},确保任务合规性。在操作过程的每一步中,我们首先对模仿动作a_{I}^{t} ~ \pi_{I}(a^{t} | s_{I}^{t}, a^{t-1})进行采样。以该动作为条件,然后我们对残差修正\Delta a_{R}^{t} ~\) \(\pi_{R}(\Delta a^{t} | s_{R}^{t}, a_{I}^{t}, a^{t-1})进行采样。最终动作计算如下:a^{t}=a_{I}^{t}+\Delta a_{R}^{t},其中残差动作按元素相加。生成的动作a^{t}随后被截断,以符合灵巧手的关节限制。在训练开始时,由于灵巧手的运动已经接近参考手的轨迹,因此残差动作预计接近零。这种初始化有助于防止模型崩溃并加速收敛。我们通过用零均值高斯分布初始化残差模块,并采用预热策略逐渐激活其训练来实现这一点。

奖励函数。我们的目标是以与任务无关的方式,将人类的双手操作技能有效地迁移到灵巧的机器人手上。为此,我们避免了特定于任务的奖励设计,这种设计虽然对单个任务有益,但可能会限制泛化能力。因此,我们的奖励设计保持简单且通用。除了3.2节中讨论的手部模仿奖励r_{I}^{t}之外,我们还引入了另外两个部分:1)物体跟随奖励r_{object }^{t}:最小化模拟物体与其参考轨迹之间的位置和速度差异,特别是p_{\hat{o}}^{t} \ominus p_{o}^{t}\dot{p}_{\hat{o}}^{t}-\dot{p}_{o}^{t}。2)接触力re-word r_{contact }^{t}:当动作捕捉数据集中的手-物体距离低于指定阈值\xi_{c}时,鼓励产生适当的接触力。奖励定义为:r_{contact }^{t}=w_{c} \cdot exp \left(\frac{-\lambda_{c}}{\sum _{f=1}^{F} C_{d_{f}}^{t} \cdot {1}\left(D\left(j_{h_{f}}^{t}, p_{o}^{t} \cdot o\right)<\xi_{c}\right)}\right)

其中,D(j_{h_{f}}^{t}, p_{o}^{t} \cdot o)表示指尖h_{f}与变换后的物体表面之间的最小距离,{1}(\cdot)是指示函数,C_{d_{f}}^{t}表示指尖处的接触力。权重w_{c}和衰减率\lambda_{c}是通过经验设定的,用于平衡奖励函数。残差阶段的总奖励定义为r_{R}^{t}=r_{I}^{t}+w_{object } \cdot r_{object }^{t}+w_{contact } \cdot r_{contact }^{t} .

训练策略。受先前研究[72, 84, 85]的启发,这些研究利用准物理模拟器在训练过程中放宽约束以避免局部最小值,我们在残差学习阶段引入了一种松弛机制。与[72]采用自定义模拟不同,我们直接在Isaac Gym环境[79]中调整物理约束,以提高训练效率。具体而言,我们最初设定将引力常数G设为零,将摩擦系数F设为较高值。这种设置使机器人手在训练初期能够牢固地抓取物体,并有效地与参考轨迹对齐。随着训练的进行,我们逐渐将G恢复到其真实值,并将F减小到合适的值,以接近真实的交互情况。与模仿阶段类似,我们采用RSI、提前终止和课程学习策略。每一轮训练通过从预处理轨迹中随机选择一个非碰撞的近物体状态来初始化机器人手。在训练过程中,如果物体的位姿p_{\hat{o}}^{t}偏离预定义阈值object以上,该轮训练将提前终止。我们逐步减小object,以鼓励更精确的物体操作。此外,我们引入了接触终止条件:如果动作捕捉(MoCap)数据表明人类手已经牢固握住物体(即D(j_{h_{f}}^{t}, p_{o}^{t} \cdot o)<\xi_{t},其中\xi_{t}是终止阈值),则接触力C_{d_{f}}^{t}必须非零。若不满足此条件,将导致提前终止。这种机制确保智能体学习控制接触力,从而促进稳定的物体操作。

3.4. DEXMANIPNET数据集

通过使用MANIPTRANS,我们生成了DEXMANIPNET,它源自两个具有代表性的大规模手部-物体交互数据集:FAVOR [62]和OakInk-V2 [134]。FAVOR采用基于虚拟现实的远程操作,并结合人工实时校正,主要关注物体重排等基础任务。相比之下,OakInk-V2利用基于光学跟踪的动作捕捉技术,针对更复杂的交互操作,如笔帽盖合和瓶盖拧开。

由于灵巧机器人手缺乏标准化,我们采用Inspire Hand[3]作为主要平台,因为它具有高灵巧性、稳定性、成本效益以及广泛的先前应用[24,35,52]。为了应对双手动任务的复杂性,我们采用了Inspire Hand的12自由度模拟配置,与其实体的6自由度机制相比,增强了灵活性。我们在4.4节和4.5节中展示了MANIPTRANS对其他机器人手的适应性以及在现实世界中的部署情况。

我们的DEXMANIPNET包含了文献[134]中定义的61项多样且具有挑战性的任务,包括针对1200个物体的3300个机器人手部操作片段,总计134万帧,其中约600个序列涉及复杂的双手任务。每个片段都在Isaac Gym仿真环境[79]中精确执行。相比之下,最近通过自动增强生成的一个数据集[52]仅包含9项任务中的60个原始人类演示。

4. 实验

在实验中,我们描述了数据集设置和指标(第4.1节),随后介绍了实现细节(第4.2节)。接着,我们将MANIPTRANS与最先进的方法进行了比较(第4.3节)展示跨具身泛化能力(第4.4节),验证实际部署效果(第4.5节),开展消融研究(第4.6节),并对用于学习操作策略的DEXMANIPNET进行基准测试(第4.7节)。

4.1. 数据集和指标

数据集

为了进行定量评估,我们使用了OakInk-V2 [134]的官方验证数据集,其中约一半包含双手任务。为了评估迁移能力,我们手动选择了符合任务完整性和语义相关性的动作捕捉序列,将其筛选为4-20秒的时长,并下采样至60帧/秒。我们排除了涉及可变形物体或超大物体的序列,最终得到约80个片段。 为了进行定性评估,我们还纳入了GRAB [107]、FAOVR [62]和ARCTIC [32]数据集,以展示我们的优势。

评估指标

为从操作精度任务依从性迁移效率三个维度评估 MANIPTRANS 模型性能,我们设计了如下评估指标。这些指标改编自文献 [72],但针对双手操作任务的复杂性,设置了更为严苛的评判标准

逐帧平均物体旋转与平移误差

E_r = \frac{1}{T}\sum_{t=1}^{T} \left(\hat{\text{prot}}_t^o \cdot \left({\text{prot}}_t^o\right)^{-1}\right)

E_t = \frac{1}{T}\sum_{t=1}^{T}\left\|\hat{\text{ptsl}}_t^o - {\text{ptsl}}_t^o\right\|_2^2

其中,prot 和 ptsl 分别代表六自由度(6-DoF)位姿 p 的旋转分量平移分量。误差 Er​ 与 Et​ 的单位分别为角度(°)厘米(cm)

平均关节位置误差(单位:cm)

E_j = \frac{1}{T \cdot F}\sum_{t=1}^{T}\sum_{f=1}^{F}\left\|j_{df}^t - j_{hf}^t\right\|_2^2

该指标用于衡量手部关节位置的平均偏差程度。

平均指尖位置误差(单位:cm)

E_{ft} = \frac{1}{T \cdot M}\sum_{t=1}^{T}\sum_{ft=1}^{M}\left\|t_{dft}^t - t_{hft}^t\right\|_2^2

该指标用于评估指尖运动的模仿精度,可有效补偿人手与机械手之间的形态差异。其中,单手任务的指尖数量 M=5,双手任务的指尖数量 M=10。

任务成功率(SR):当且仅当 Er​、Et​、Ej​ 与 Eft​ 四项指标均低于设定阈值(依次为 30°、3 cm、8 cm、6 cm)时,判定该次轨迹跟踪任务成功。对于双手操作任务,只要任意一只手未满足上述条件,即判定任务失败,相较于单手任务,其成功判定标准更为严格。

4.2. 实现细节

在MANIPTRANS中,我们在每个灵巧机器人手上手动选择了F=21个关键点,这些关键点对应人类手上的指尖、手掌和指骨位置,以减轻形态差异。关于关键点选择和奖励项的权重系数u的详细信息见附录。在训练中,我们采用课程学习策略。初始阈值finger设置为6厘米,然后衰减到4厘米。物体对齐阈值\epsilon_{object }的旋转和平移初始值分别为90度和6厘米,逐渐减小到30度和2厘米。我们使用Actor-Critic PPO算法[99]训练模仿模块I和残差模块R,训练时长为32帧,一个迷你批次大小为1024,折扣因子为\gamma=0.99。优化采用Adam[56],初始学习率为5\times 10^{-4},并使用衰减调度器。所有实验均在Isaac Gym[79]中运行,在配备NVIDIA RTX 4090 GPU和Intel i9-13900KF CPU的个人计算机上,以1/60秒的时间步长模拟4096个环境。

4.3. 评估

如第2节所讨论的,灵巧手操作技术发展迅速,先前的方法在问题表述和任务定义上存在差异。为了进行全面且公平的比较,我们评估了两类方法——结合强化学习的方法和基于优化的方法,以展示MANIPTRANS的准确性和效率。

与强化学习结合方法的比较 由于缺乏先前强化学习结合方法的公开可用代码,我们重新实现了具有代表性的方法:1) 纯强化学习探索,仅使用轨迹跟随奖励,基于[27]采用PPO算法从头开始训练机器人手;2) 重定向+残差学习,将残差动作应用于通过人体和机器人关键点对齐获得的重定向机器人手姿态[94]。作为一个简单的基线,我们还纳入了纯重定向方法——即不进行任何学习的重定向。

如表1所示,我们的方法在多个指标上均优于所有基线方法,在单手和双手任务中都展现出了更高的精度。这些结果证实,我们的两阶段迁移框架能够有效捕捉细微的手指动作和物体交互,从而实现较高的任务成功率和动作保真度。

我们发现,由于灵巧手动作空间的复杂性和误差累积,仅重定向(Retarget-Only)基线几乎不可行。仅强化学习(RL-Only)基线的表现欠佳,因为从头开始探索既耗时又会降低运动精度。与重定向+残差(Retarget + Residual)基线相比,我们的方法——利用预训练的手部模仿模型——展示出更强的控制能力,能够实现与参考轨迹更精准对齐的操作。值得注意的是,在接触密集的场景中,重定向方法常会导致碰撞,从而在残差策略训练过程中造成不稳定性。我们在附录中进一步研究了MANIPTRANS的鲁棒性和时间成本。图3展示了定性结果。

在极少被探索的任务中,突出了MANIPTRANs在迁移人类操作技能时的自然性和精确性。附录中提供了将我们的方法应用于多关节物体的更多细节和定性结果。与基于优化的方法QuasiSim[72]的对比:QuasiSim通过定制化仿真进行优化以追踪人类动作。目前,他们的完整流程尚未发布,且其“随机”选择的验证集也无法获取。因此,直接的定量对比无法实现。为此,我们在图4中进行了定性对比,展示了MANIPTRANs在与QuasiSim相似的设置下,将人类动作迁移到Shadow Hand的能力,且具有更稳定的接触和更流畅的动作。值得注意的是,由于我们的两阶段设计,对于一个60帧的未见过的单手操作轨迹(“旋转鼠标”),我们的方法仅需约15分钟的训练即可获得稳健的结果,而QuasiSim则需要约40小时的优化,这凸显了MANIPTRANs的显著效率。

4.4. 跨实体验证

我们展示了MANIPTRANS在各种灵巧手部形态上的可扩展性。如第3节所述,模仿模块I负责手部关键点跟踪,而残差模块R则捕捉指尖与物体之间的物理交互。我们的框架是它与具体的实体无关,因为它仅依赖于人类手指和机器人关节之间的对应关系,能够轻松适应不同的灵巧手。我们在Shadow Hand[1]、多关节MANO手[27,96]、Inspire Hand[3]和Allegro Hand[2]上对MANIPTRANS进行了评估,这些手具有不同的自由度:分别为12和16(\(K=22,22\))。在不改变网络超参数或奖励权重的情况下,MANIPTRANS在单手任务(图4)和双手任务(图5)中,在所有实体上都实现了一致、流畅且精确的性能。关于Allegro Hand——一种只有四个手指的机器人手的更多细节,在附录中提供。

4.5. 实际部署

如图6所示,我们使用两个7自由度的Realman机械臂[95]和一对升级后的Inspire Hands(配置相同,但增加了触觉传感器)进行实验。为了弥合模拟的12自由度机器人手与6自由度真实硬件之间的差距,我们采用了一种基于拟合的方法,该方法通过优化真实机器人的关节角度q_{\bar{d}} \in \mathbb{R}^{6}(记为)来实现指尖对齐,其公式为:argmin_{q_{\tilde{d}}} \frac{1}{T \cdot M} \sum_{t=1}^{T} \sum_{f t=1}^{M}\left\|t_{d_{f t}}^{t}-t_{\tilde{d}_{f t}}^{t}\right\|_{2}^{2},同时附加一个时间平滑损失:L_{smooth }=\) \(\frac{1}{T-1} \sum_{t=1}^{T-1}\left\|q_{\tilde{d}}^{t+1}-q_{\tilde{d}}^{t}\right\|_{2}^{2}。我们通过求解逆运动学来控制机械臂,使机械臂的法兰与灵巧手的手腕对齐w_{d}。在回放过程中,我们不强制严格的时间对齐,因为真实机器人并不总能像人手那样快速操作。

据我们所知,这是前所未有的成就。例如,在“挤牙膏”时,左手稳稳握住牙膏管,右手拇指和食指灵活地撬开小盖子——这种动作很难通过遥操作捕捉。这凸显了我们的方法在未来现实世界政策学习中的潜力。

D. MANIPTRANS设置详情

D.1. 人手与灵巧手的对应关系

由于人类手部和灵巧机器人手在形态上存在显著差异,我们手动建立了它们之间的对应关系。对于人类手部的指尖关键点,我们选择了文献[127]中定义的三个指尖锚点的中点。对于灵巧手,考虑到它们的形状各异,我们将指尖关键点定义为指垫中心轴上曲率最大的点,因为这些点最有可能与物体接触。对于其他关键点,如手腕和指骨,我们直观地将人类关节的旋转轴与机器人关节的旋转轴对齐。更多细节请参考我们的代码实现。

此外,关于关节化的MANO模型,原始的人手模型MANO[96]具有45个自由度,这由于其庞大的探索空间,给基于强化学习的策略带来了极大挑战。为了缓解这一问题,我们采用了[127]中的方法,通过约束特定的自由度并固定手部碰撞网格,将原始的MANO模型简化为一个22自由度的关节化MANO模型。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐