具身智能：原理、算法与系统第19章技能学习与运动原语

扩散策略的优势包括：表达多模态分布（如绕过障碍物的左右两条路径），训练稳定性（去噪目标比直接回归更容易学习），以及动作序列的一致性（通过预测动作块而非单步动作）。选项框架（Options Framework）将技能形式化为时间扩展的动作，包含：启动集（技能适用的状态），内部策略（技能执行期间的控制），与终止条件（技能结束的判断）。技能序列学习识别技能间的依赖关系与合法转换。每个技能包含：动作原语（

VectorShift

625人浏览 · 2026-02-23 07:56:07

VectorShift · 2026-02-23 07:56:07 发布

19.3.2 扩散策略(Diffusion Policy)

第19章技能学习与运动原语

19.1 动态运动原语(DMP)

动态运动原语（Dynamic Movement Primitives, DMP）是一种用于表示和学习机器人运动的标准化框架，通过非线性动态系统编码目标导向的运动轨迹。DMP的核心优势在于其稳定性保证、对目标点和速度的适应性，以及便于从示范中学习。

19.1.1 DMP的数学形式

DMP由一组非线性微分方程定义，包含变换系统（transformation system）与正则系统（canonical system）两个耦合部分。变换系统描述系统的运动动力学，正则系统提供时间依赖的相位变量。

对于单自由度系统，变换系统表示为：

正则系统提供单调递减的相位变量 x ：

$\tau\dot{x} = -\alpha_x x$

其中 $\alpha_x$ 为衰减系数。相位变量 x 从1指数衰减至0，替代显式时间依赖，使系统对时间扰动具有鲁棒性。

非线性强迫项 f(x) 由基函数的线性组合构成：

$f(x) = \frac{\sum_{i=1}^N \psi_i(x)w_i}{\sum_{i=1}^N \psi_i(x)}x(g-y_0)$

19.1.2 形状吸引子与目标吸引子

DMP包含两个吸引子机制：形状吸引子（shape attractor）与目标吸引子（goal attractor）。目标吸引子由线性动态系统的收敛特性保证，确保系统最终到达目标位置 g 。形状吸引子通过非线性强迫项 $f(x)$ 编码期望的轨迹形状。

目标吸引子的稳定性由特征方程分析：当 $\alpha_z > 0$ 且 $\beta_z > 0$ 时，线性系统矩阵的特征值实部为负，保证渐近稳定性。即使存在外部扰动，系统仍能收敛至目标点。

形状吸引子通过基函数权重 wi 编码任意复杂的轨迹形状。权重学习通常采用局部加权回归（Locally Weighted Regression, LWR），最小化示范轨迹与DMP生成轨迹之间的误差：

$\min_{w_i} \sum_{t}(y_{\text{demo}}(t)-y_{\text{DMP}}(t))^2$

每个基函数的权重独立学习，实现局部泛化：修改轨迹某段的形状不会影响其他段。

对于周期性运动（如行走、跑步），DMP扩展为节律形式，使用相位振荡器替代衰减正则系统：

其中 ω 为振荡频率，(x,y) 在极限环上运动，产生周期性相位变量。

19.1.3 DMP的学习与调制

DMP的学习过程从示范轨迹中提取权重参数。给定示教轨迹 $\{y_{\text{demo}}(t), \dot{y}_{\text{demo}}(t), \ddot{y}_{\text{demo}}(t)\}_{t=0}^T$ ，首先计算期望的强迫项：

$f_{\text{target}}(x) = \tau^2\ddot{y}_{\text{demo}} - \alpha_z(\beta_z(g-y_{\text{demo}})-\tau\dot{y}_{\text{demo}})$

然后通过线性回归求解权重 wi 。这种学习方法保证DMP能够精确复现示范轨迹。

DMP的调制能力体现在多个方面：目标点调制通过改变 g 实现，系统自动生成到达新目标的轨迹；速度调制通过调整 τ 实现，加速或减速运动而不改变形状；空间调制通过仿射变换（旋转、缩放）实现，适应不同的任务配置。

耦合项（Coupling Term）扩展DMP以响应外部信号。例如，在避障场景中，添加排斥势场耦合项：

$C_t = \sum_{j} \eta \exp(-\gamma \|y-o_j\|)\frac{y-o_j}{\|y-o_j\|}$

其中 $o_j$ 为障碍物位置，η 与 γ 为增益参数。耦合项插入变换系统的速度方程，使轨迹实时偏离障碍物。

19.1.4 DMP的扩展与应用

DMP的扩展包括多自由度协调、时间耦合与层次化组合。多自由度DMP通过共享正则系统实现同步，所有自由度使用相同的相位变量 x ，确保各关节运动的时序协调。

时间耦合（Temporal Coupling）允许DMP根据外部事件调整执行速度。通过监测与目标的距离或感知信号，动态调整时间缩放因子 τ ，实现反应式运动调整。

层次化DMP组合多个原语形成复杂行为。高层DMP生成子目标序列，低层DMP执行具体运动。这种层次结构支持任务分解与复用，如行走DMP调用迈步DMP，迈步DMP调用关节轨迹DMP。

DMP Trajectory Learning

图19.1：DMP轨迹学习与基函数数量影响。上图显示DMP对期望路径的拟合能力，下图展示不同数量基函数（10-100个）对轨迹形状表达能力的影响。更多基函数支持更复杂的形状，但也增加计算负担与过拟合风险。

DMP在机器人操作、行走、抓取等任务中广泛应用。其优势在于数学形式简洁、稳定性保证明确、便于学习与调制。局限性包括难以处理硬约束（如关节限位）、对高维系统的扩展性有限，以及缺乏概率不确定性表示。

19.2 概率运动原语(ProMP)

概率运动原语（Probabilistic Movement Primitives, ProMP）是DMP的概率扩展，将确定性轨迹表示为概率分布，支持不确定性量化、风格变化与强化学习。

19.2.1 轨迹分布表示

ProMP将轨迹建模为时间相关的随机过程，通过权重空间的概率分布诱导轨迹分布。假设权重 w 服从高斯分布：

ProMP Trajectory Distribution

图19.2：ProMP在LASA数据集上的轨迹分布。每种形状显示多条示范轨迹（灰色）与学习的概率分布（绿色为均值，红色为方差）。ProMP捕捉轨迹的变异性，支持在约束下的概率推理。

ProMP的学习通过最大似然估计或贝叶斯推断实现。给定示范轨迹集 $\{\boldsymbol{\tau}_i\}_{i=1}^M$ ，权重后验为：

$p(\mathbf{w}|\{\boldsymbol{\tau}_i\}) \propto p(\mathbf{w})\prod_{i=1}^M p(\boldsymbol{\tau}_i|\mathbf{w})$

高斯先验与共轭似然导致高斯后验，解析更新均值与协方差。

19.2.2 条件概率与风格变化

ProMP的条件概率分布支持在部分观测或约束下的轨迹推理。给定经由点（via-point）约束

条件分布调整均值以通过约束点，同时减小方差反映增加的确定性。

风格变化（Style Variation）通过隐变量模型实现。假设存在风格参数 s （如运动幅度、速度），影响权重分布：

$p(\mathbf{w}|\mathbf{s}) = \mathcal{N}(\boldsymbol{\mu}_w(\mathbf{s}), \boldsymbol{\Sigma}_w(\mathbf{s}))$

通过从示范中分离风格与内容，ProMP能够生成风格一致的新轨迹。风格参数可通过最大似然或变分推断学习。

19.2.3 ProMP的强化学习

19.2.4 与其他原语的比较

ProMP与DMP的主要区别在于概率表示。DMP提供确定性轨迹，稳定性由动态系统保证；ProMP提供轨迹分布，支持不确定性推理与约束满足。DMP的非线性强迫项能够表达复杂形状，但学习需要回归；ProMP的线性权重模型简化学习，但形状表达能力受限于基函数选择。

与隐马尔可夫模型（HMM）相比，ProMP专注于连续轨迹生成，而HMM擅长离散状态转换。ProMP与HMM的结合（如HSMM）同时捕捉时间结构与状态转换，适用于分段运动学习。

PRIMP（Probabilistically-Informed Motion Primitives）扩展ProMP到工作空间（而非关节空间），支持机器人无关的技能表示与迁移。通过学习末端执行器轨迹的6D位姿分布（位置+方向），PRIMP能够在不同机器人之间传递技能，通过工作空间密度适应目标机器人的运动学特性。

19.3 隐式策略表示

隐式策略表示通过能量函数或评分函数定义策略，而非显式的条件分布。这种表示支持多模态动作分布、组合泛化与高维动作空间的学习。

19.3.1 神经网络策略

Behavioral Cloning Neural Network

图19.3：行为克隆的神经网络架构。输入图像经过卷积层提取特征，与状态信息拼接后通过全连接层输出动作。这种端到端学习直接从感知映射到控制，但面临分布偏移与复合误差问题。

神经网络策略的局限性包括：难以表达多模态分布（混合高斯假设模态数固定），对分布外状态泛化能力差，以及缺乏对动作约束的显式处理。

19.3.2 扩散策略(Diffusion Policy)

扩散策略（Diffusion Policy, DP）将策略表示为去噪扩散概率模型（DDPM），通过迭代去噪从随机噪声生成动作。这种表示能够表达任意复杂的、多模态的动作分布。

前向扩散过程逐步添加高斯噪声：

扩散策略的优势包括：表达多模态分布（如绕过障碍物的左右两条路径），训练稳定性（去噪目标比直接回归更容易学习），以及动作序列的一致性（通过预测动作块而非单步动作）。DP3（3D Diffusion Policy）将点云表示与扩散策略结合，在3D操作任务中实现 state-of-the-art 性能。

19.3.3 流匹配与生成模型

流匹配（Flow Matching, FM）是替代扩散模型的生成方法，直接学习概率路径的向量场，实现更高效的采样。与扩散的随机微分方程（SDE）不同，流匹配使用常微分方程（ODE）：

流匹配的优势在于：确定性采样（ODE积分无需随机性），更快的推理（更少的函数评估），以及更好的数值稳定性。MP1（MeanFlow Policy）将流匹配应用于机器人策略学习，实现单步推理，显著加速动作生成。

19.3.4 隐式行为克隆

Implicit Policy Energy Based Model

图19.4：隐式策略的能量函数表示。能量A与能量B定义不同的动作偏好，能量A+B通过乘积组合（对应能量相加）实现策略的组合。这种组合性支持零样本的任务组合与泛化。

推理时通过Langevin动力学或梯度下降采样动作：

$\mathbf{a}_{k+1} = \mathbf{a}_k - \alpha \nabla_\mathbf{a} E_\theta(\mathbf{a}_k, \mathbf{s}) + \sqrt{2\alpha}\boldsymbol{\epsilon}$

隐式策略的优势包括：组合性（能量相加对应分布乘积），对多模态分布的自然表达，以及通过能量景观的形状编码约束。局限性在于推理需要迭代优化，计算成本高于显式前向传播。

19.4 技能组合与重用

技能组合与重用是实现机器人终身学习的关键，使智能体能够积累技能库、组合现有技能解决新任务，并在相似任务间迁移知识。

19.4.1 技能库构建

技能库（Skill Library）是机器人可复用行为的结构化集合。每个技能包含：动作原语（如DMP、ProMP或神经网络策略），前置条件（技能适用的状态），后置条件（执行后的状态变化），以及成功概率。

技能发现（Skill Discovery）从未标注的交互数据中识别可复用的行为模式。无监督方法基于状态空间的分割（如聚类、图分割）或变化点检测识别技能边界。LOTUS（Learning from Observations via Unsupervised Skill Discovery）通过变分推断学习离散技能表示，同时优化技能分解与策略学习。

Skill Library Learning

图19.5：LOTUS终身技能学习框架。初始技能库通过无监督发现从示教数据中提取。面对新任务时，元控制器选择相关技能组合，必要时添加新技能。技能库持续增长，支持不断扩展的任务范围。

技能库的组织影响检索效率。基于语义的索引（如自然语言描述、视觉特征）支持根据任务描述检索相关技能。层次化组织（从原子技能到复合技能）支持不同抽象层次的规划。

19.4.2 技能序列学习与自动机

复杂任务需要按特定顺序执行多个技能。技能序列学习识别技能间的依赖关系与合法转换。有限状态自动机（Finite State Machine, FSM）显式编码技能转换规则，每个状态对应一个技能，转换条件基于状态观测。

隐马尔可夫模型（HMM）与半马尔可夫模型（HSMM） probabilistically 建模技能序列，从示范中学习转换概率与持续时间。HSMM显式建模技能持续时间，适用于非均匀时间尺度的技能。

选项框架（Options Framework）将技能形式化为时间扩展的动作，包含：启动集（技能适用的状态），内部策略（技能执行期间的控制），与终止条件（技能结束的判断）。选项框架与标准RL框架兼容，支持在技能空间而非原始动作空间进行规划。

19.4.3 技能转移与适应

技能转移（Skill Transfer）将在源任务或源机器人学到的技能应用于目标任务或目标机器人。基于原语的转移利用DMP/ProMP的调制能力：改变目标点、速度或形状以适应新情境。基于模型的转移学习源任务与目标任务间的映射（如状态空间对齐、动作空间重定向）。

领域随机化（Domain Randomization）在训练时随机化模拟参数（摩擦、质量、几何），学习对参数变化鲁棒的技能，实现从模拟到真实的零样本转移。元学习（Meta-Learning）学习"如何快速学习新技能"，在遇到新任务时通过少量适应步骤调整策略。

技能适应（Skill Adaptation）在线调整技能参数以应对环境变化。贝叶斯适应更新技能后验分布，强化学习调整技能策略，阻抗控制调整交互刚度。适应的速度与范围取决于技能表示的选择：显式参数（如DMP权重）易于快速调整，隐式表示（如神经网络）需要更多数据但支持更大变化。

19.4.4 终身技能积累

终身学习（Lifelong Learning）要求机器人在不断学习新技能的同时保持旧技能，避免灾难性遗忘（Catastrophic Forgetting）。弹性权重巩固（Elastic Weight Consolidation, EWC）识别对旧任务重要的网络参数，在学习新任务时施加惩罚保护这些参数。

Lifelong Robot Learning

图19.6：模块化终身学习架构。技能库以模块化形式存储，新技能通过元学习快速添加。技能选择基于任务相似性，执行时组合相关技能。模块化设计隔离技能间的干扰，支持持续积累而不遗忘。

模块化架构将技能存储为独立模块（如专家混合Mixture of Experts），新技能添加新专家而非修改共享参数。稀疏激活确保只有相关专家参与推理，减少计算成本与技能间干扰。稀疏扩散策略（Sparse Diffusion Policy, SDP）采用MoE架构，在保持性能的同时实现高效的多任务与持续学习。

技能积累还涉及技能间的知识迁移与组合。组合性（Compositionality）允许从有限原子技能生成无限复合技能。层次化技能学习发现技能间的抽象关系，支持跨领域迁移。元认知（Metacognition）使机器人能够评估自身技能库的覆盖范围，识别知识缺口并主动寻求相关学习经验。

本章小结

技能学习与运动原语为具身智能系统提供了从示范中学习、表示与复用行为的能力。动态运动原语通过非线性动态系统编码稳定的目标导向运动；概率运动原语引入不确定性表示，支持约束推理与强化学习；隐式策略表示通过扩散模型与能量函数表达复杂的多模态分布；技能组合与重用实现了终身学习与持续适应。这些技术的融合正推动机器人从单一任务执行者向通用智能体演进，能够在开放环境中不断积累知识、适应变化并解决新颖挑战。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI五大门派的底牌、命门与终极赌局

作为一个面向Web的动态3D高斯泼溅（3DGS）渲染器，Spark与当前最流行的Web3D框架Three.js集成，并基于Web GL2运行，因此只要有浏览器，无论是桌面端、iOS、Android，还是VR设备，都可以使用。比如Skild AI，它的核心产品“Skild Brain”，作为统一的机器人基础模型，其目标是让同一个“大脑”能够控制任何形态的机器人，无论是四足机器人、人形机器人还是桌面机