论文速读 Opt2Skill

Opt2Skill提出了一种结合轨迹优化与强化学习的人形机器人控制框架，通过离线生成动态可行的全身轨迹作为监督信号，训练鲁棒的RL策略。该方法利用全阶动力学优化提供精确参考轨迹，并采用非对称actor-critic架构实现从仿真到实物的迁移。实验表明，该框架能使Digit人形机器人完成爬梯、开门等复杂操作任务，在保持运动自然性的同时具备现实适应性。关键创新在于将基于模型的优化与数据驱动的学习优势相

团长sama

506人浏览 · 2026-01-21 12:40:19

团长sama · 2026-01-21 12:40:19 发布

文章目录

Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation
概述
技术方法
关键实验结果
意义与影响
相关引用

Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation

时间：2024.9.30
论文：[2409.20514] Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation

概述

人形机器人在以人类为中心的环境中操作具有巨大的前景，但控制这些复杂系统以完成多功能运动操作任务仍然是一个重大挑战。传统方法面临基本限制：基于模型的优化控制方法提供精度，但面临计算复杂性和真实世界不确定性的挑战，而强化学习（RL）提供鲁棒性，但存在样本效率低下和运动不自然的问题。Opt2Skill 框架通过系统地结合这两种范式的优势来解决这些挑战，使人形机器人能够执行复杂的、接触丰富的行为。

请添加图片描述

图 1：Digit 人形机器人执行由 Opt2Skill 框架实现的多样化运动操作任务，包括爬楼梯、物体操作、开门和绘画。

技术方法

Opt2Skill 框架由三个主要组成部分构成：离线轨迹优化、基于 RL 的策略训练和直接硬件部署。

轨迹优化阶段

第一阶段使用基于全阶动力学的轨迹优化生成高质量的参考轨迹。与以往依赖简化模型或人体运动捕捉的方法不同，Opt2Skill 利用 Digit 人形机器人完整的 26-DOF 动力学（6 个未驱动的基座 DOF + 20 个驱动关节）。

优化问题表述为：

$\min_{x,u} \sum_{t=0}^{T} \|y_t - \hat{y}_t\|^2 + \|u_t\|^2$

受限于机器人的混合动力学、接触约束、关节限制和摩擦锥约束。其中， $y_t$ 表示机器人的任务空间变量， $\hat{y}_t$ 是期望的参考值， $u_t$ 是关节扭矩。

文章使用 Crocoddyl 设定机器人运动要优化的优化函数，然后通过 DDP 求导求解出各个参数数值，进而将这些参数数值转换成机器人的动作。

求解器采用在 Crocoddyl 中实现的微分动态规划（DDP），能够高效地解决这些复杂的优化控制问题。关键的是，优化显式地包含了接触力和关节扭矩，提供动态一致的运动，尊重机器人的物理约束。

强化学习策略训练

请添加图片描述

_ 图 2：Opt2Skill 框架的整体结构。 (a) 首先，我们利用轨迹优化算法生成结构化且动态上可行的参考轨迹；这些轨迹需要满足接触约束、扭矩限制以及特定任务的要求。 (b) 每条轨迹都包含了关节角度、关节速度、机体位置与方向、线速度与角速度，以及与动态行为相关的参数（如关节扭矩和相互作用力）。 © 这些参考轨迹被用作训练强化学习（RL）策略的“监督信号”；这些策略用于预测关节应达到的目标值，而这些目标值由低层的位置 - 速度（PD）控制器来实时跟踪。最终形成的强化学习策略将基于模型优化的控制策略内化为自身的行为模式，同时具备对干扰、传感器噪声以及系统动态变化的鲁棒性，从而能够直接应用于实际硬件系统中。

生成的轨迹作为监督信号，用于训练鲁棒的 RL 策略。该方法使用带有近端策略优化（PPO）的非对称 actor-critic 框架，以促进从模拟到现实的迁移：

评论者（Critic）：可以访问特权模拟信息，包括真实状态、接触力以及完整的参考轨迹，以实现稳定的价值估计。
执行者（Actor）：仅限于模拟真实传感器数据的噪声本体感受观测，仅接收部分参考信息（目标速度、关节位置、接触力以及扭矩）。

奖励函数结合了任务特定的跟踪目标与正则化项：

$R_t = R_{\text{track}} + R_{\text{torque}} + R_{\text{force}} + R_{\text{regularization}}$

重要的是，该框架包括专门用于关节扭矩跟踪和接触力跟踪的奖励，利用了全阶轨迹优化中可用的独特动态信息。

在部署阶段，策略会使用根据具体测试场景新生成的离线轨迹数据作为参考；此时不会重新使用训练数据，也不会再次运行轨迹规划算法。

RL 详细设置

Tab1 ：奖励设置

类别	术语；专业名词	表达式	重量
任务奖励	关节位置	$\exp(-5\|\hat{\mathbf{q}}_t^{\mathrm{j}} - \mathbf{q}_t^{\mathrm{j}}\|_2^2)$	0.30
	基座位置	$\exp(-20\|\hat{\mathbf{p}}_t^{\mathrm{b}} - \mathbf{p}_t^{\mathrm{b}}\|_2^2)$	0.30
	基座方向	$\exp(-50\|\hat{\boldsymbol{\theta}}_t^{\mathrm{b}} - \boldsymbol{\theta}_t^{\mathrm{b}}\|_2^2)$	0.30
	基座线速度	$\exp(-2\|\hat{\dot{\mathbf{p}}}_t^{\mathrm{b}} - \dot{\mathbf{p}}_t^{\mathrm{b}}\|_2^2)$	0.30
	基座角速度	$\exp(-0.5\|\hat{\boldsymbol{\omega}}_t^{\mathrm{b}} - \boldsymbol{\omega}_t^{\mathrm{b}}\|_2^2)$	0.30
	末端执行器的位置	$\exp(-20\|\hat{\mathbf{p}}_t^{\mathrm{e}} - \mathbf{p}_t^{\mathrm{e}}\|_2^2)$	0.30
	关节扭矩	$\exp(-0.01\|\hat{\mathbf{u}}_t - \mathbf{u}_t\|_2^2)$	0.10
	接触力	$\exp(-0.05\|\hat{\mathbf{F}}_t^{\mathrm{c}} - \mathbf{F}_t^{\mathrm{c}}\|_1)$	0.10
惩罚	动作频率（即用户每单位时间执行操作的次数）	$\|\mathbf{a}_t - 2\mathbf{a}_{t-1} + \mathbf{a}_{t-2}\|_2^2$	-0.05
	扭矩	$\|\mathbf{u}_t / \mathbf{u}_{\mathrm{limit}}\|_2^2$	-0.03
	关节加速度	$\|dot{\mathbf{q}}_t^{\mathrm{j}}\|_2^2$	$10^{-6}$

请注意：“基座位置”奖励并不包含在“步行”任务中。

Tab2：域随机化

类别	参数	类型	范围 / 标准差
观测	关节位置	加性（高斯）	$\sigma = 0.0875$
	关节速度	加性（高斯）	$\sigma = 0.075$
	基座线速度	加性（高斯）	$\sigma = 0.15$
	基座角速度	加性（高斯）	$\sigma = 0.15$
	重力投影	加性（高斯）	$\sigma = 0.075$
延迟	动作延迟	均匀	$0.02]\,\text{s}$
电机	电机强度	缩放（均匀）	$[0.95, 1.05]$
	Kp/Kd 系数	缩放（均匀）	$[0.9, 1.1]$
身体	质量	缩放（均匀）	$[0.9, 1.1]$
环境	重力	缩放（均匀）	$[0.9, 1.1]$
	摩擦	缩放（均匀）	$[0.3, 1.0]$
	地形	离散	flat, rough 平坦、崎岖

观测空间

critic：
评论器的观测空间定义为 $\mathbf{o}_{\text{critic}} = \left[ \mathbf{s}_t^{cp};\ \mathbf{s}_t^{cr} \right]$ ，其中特权本体感知 $\mathbf{s}_t^{cp}$ 为 $[\mathbf{p}_t^b,\ \boldsymbol{\theta}_t^b,\ \dot{\mathbf{p}}_t^b,\ \boldsymbol{\omega}_t^b,\ \mathbf{g}_t,\ \mathbf{q}_t^{\mathrm{j,hist}},\ \dot{\mathbf{q}}_t^{\mathrm{j}},\ \mathbf{p}_t^e,\ \mathbf{a}_{\mathrm{hist}},\ \mathbf{F}_t^c,\ \mathbf{u}_t,\ \mathbf{K}_p,\ \mathbf{K}_d]$ ，包括人形机器人身体平移 $\mathbf{p}_t^b$ 、姿态 $\boldsymbol{\theta}_t^b$ 、线速度 $\dot{\mathbf{p}}_t^b$ 、角速度 $\boldsymbol{\omega}_t^b$ 、投影重力 $\mathbf{g}_t$ （作为基座姿态的代理）、以每 $\delta = 4$ 个时间步采样一次的 $N = 10$ 个历史电机关节位置 $\mathbf{q}_t^{\mathrm{j,hist}} = [\mathbf{q}_t^{\mathrm{j}}, \mathbf{q}_{t-\delta}^{\mathrm{j}}, \dots, \mathbf{q}_{t-(N-1)\delta}^{\mathrm{j}}]$ （即 50 Hz 采样自 200 Hz 控制回路）、电机关节速度 $\dot{\mathbf{q}}_t^{\mathrm{j}}$ 、末端执行器位置（相对于躯干） $\mathbf{p}_t^e$ 、以相同频率采样的 $N$ 个历史动作 $\mathbf{a}_{\mathrm{hist}} = [\mathbf{a}_{t-1}, \mathbf{a}_{t-(1+\delta)}, \dots, \mathbf{a}_{t-(1+(N-1)\delta)}]$ 、接触力 $\mathbf{F}_t^c$ 、关节力矩 $\mathbf{u}_t$ 以及 PD 增益 $\mathbf{K}_p$ 、 $\mathbf{K}_d$ 。参考状态 $\mathbf{s}_t^{cr}$ 定义为 $[\hat{\mathbf{p}}_t^b,\ \hat{\boldsymbol{\theta}}_t^b,\ \hat{\dot{\mathbf{p}}}_t^b,\ \hat{\boldsymbol{\omega}}_t^b,\ \hat{\mathbf{q}}_t^{\mathrm{j}},\ \hat{\dot{\mathbf{q}}}_t^{\mathrm{j}},\ \hat{\mathbf{p}}_t^e,\ \hat{\mathbf{F}}_t^c,\ \hat{\mathbf{u}}_t]$ ，其中帽子 ( $\hat{}$ ) 表示参考轨迹信息。
actor:
执行器的观测空间定义为 $\mathbf{o}_{\text{actor}} = \left[ \mathbf{s}_t^{ap};\ \mathbf{s}_t^{ar} \right]$ ，其中噪声本体感知 $\mathbf{s}_t^{ap}$ 为 $[\tilde{\mathbf{p}}_t^b,\ \tilde{\boldsymbol{\omega}}_t^b,\ \tilde{\mathbf{g}}_t,\ \tilde{\mathbf{q}}_t^{\mathrm{j,hist}},\ \tilde{\dot{\mathbf{q}}}_t^{\mathrm{j}},\ \mathbf{a}_{\mathrm{hist}}]$ ，波浪号 ( $\tilde{}$ ) 表示带噪传感器测量。执行器还接收部分参考信息 $\mathbf{s}_t^{ar} = [\hat{\mathbf{p}}_t^b,\ \hat{\boldsymbol{\omega}}_t^b,\ \hat{\mathbf{q}}_t^{\mathrm{j}},\ \hat{\mathbf{F}}_t^c,\ \hat{\mathbf{u}}_t]$ 。执行器仅接收部分参考，以确保泛化并避免依赖噪声或冗余输入（如全局基座状态或末端执行器姿态），而评论器则可访问完整的特权信息以实现稳定的价值估计。

控制策略的动作空间表示相对于默认站立姿态的偏移量，用于指定 20 个驱动关节的目标位置。这些目标被输入到一个 PD 关节扭矩控制器，其扭矩计算为 $\mathbf{u}_t = \mathbf{K}_p(\mathbf{a}_t + \mathbf{q}_{\mathrm{dflt}}^{\mathrm{j}} - \mathbf{q}_t^{\mathrm{j}}) - \mathbf{K}_d\dot{\mathbf{q}}_t^{\mathrm{j}}$ 。其中， $\mathbf{q}_{\mathrm{dflt}}^{\mathrm{j}}$ 表示默认站立时的关节位置， $\mathbf{q}_t^{\mathrm{j}}$ 和 $\dot{\mathbf{q}}_t^{\mathrm{j}}$ 分别为测得的关节位置和速度。我们的控制策略以 200 Hz 运行，而内部 PD 控制器在仿真（训练阶段）中以 1 kHz 运行，在硬件（部署阶段）中以 2 kHz 运行。策略输出与 PD 控制回路之间未施加显式滤波。在硬件上，我们使用与仿真相同的 PD 增益，并直接将扭矩指令发送给机器人。