如果Policy模型也能动态思考推理，是否能让机器人在真实世界中表现得更好？

近期，研究团队提出了，一种基于能量模型（Energy-Based Model, EBM）的新型策略架构。该方法在模拟与真实机器人任务中均表现出色，显著提升了训练和推理效率，并展现出独特的「零样本重试（zero-shot retry）」能力。⚙️ 在模拟与真实环境中均优于 Diffusion Policy⚡️ 训练与推理所需计算量大幅减少（最高可节省 50 倍）🔁 无需额外重试数据，即可在失败后自

Tom Hardy

684人浏览 · 2025-12-22 22:19:19

Tom Hardy · 2025-12-22 22:19:19 发布

如果策略模型也能动态地思考与推理，尤其能理解“不确定性”，是否能让机器人在真实世界中表现得更好？

原文链接：如果Policy模型也能动态思考推理，是否能让机器人在真实世界中表现得更好？

⚡️ 研究简介：EBT-Policy

近期，研究团队提出了 EBT-Policy（Energy-Based Transformer Policy），一种基于能量模型（Energy-Based Model, EBM）的新型策略架构。

该方法在模拟与真实机器人任务中均表现出色，显著提升了训练和推理效率，并展现出独特的「零样本重试（zero-shot retry）」能力。

主要特点：

⚙️ 在模拟与真实环境中均优于 Diffusion Policy
⚡️ 训练与推理所需计算量大幅减少（最高可节省 50 倍）
🔁 无需额外重试数据，即可在失败后自动恢复
🧠 学会不确定性建模，实现动态计算分配

✍️ 什么是 Energy-Based Transformer (EBT)？

EBT 模型通过学习一个能量值 energy来衡量输入变量之间的匹配程度。

在语言建模任务中，它学习的是上下文与预测之间的能量地形（energy landscape）。

在推理过程中，模型会通过多次前向传播来最小化能量，直到收敛为止。

能量高意味着模型对当前状态不确定，能量低则代表模型更有信心。

因此，EBT 能根据问题的难度自动调整计算资源：

“难的问题多想几步，简单的问题少算几步。”

🤔 如何将 EBT 应用于机器人策略？

EBT-Policy 的核心思想包括：

学习一个关于观测数据（observation）、机器人姿态动作（actions）和上下文（context）的能量地形；
在推理阶段，通过能量最小化搜索低能量的未来动作轨迹。

这种方式不依赖“去噪”生成过程，而是通过能量优化直接寻找最优解，使模型更稳定、更具推理能力。

🧩 关键优势

由于能量地形的引入，EBT-Policy 能够：

学会何时不确定，并据此动态调整推理过程；
具备平衡动力的能力（Equilibrium Dynamics），在出错或分布外状态下自动回到低能量区域；
避免传统模型的暴露偏差（Exposure Bias），训练与推理过程一致；
进行全局能量优化，减少误差积累。

这些特性共同促成了 EBT-Policy 的重试行为（Emergent Retry Behavior）：

当模型检测到自身处于错误状态（高能量），会通过能量动态自然“拉回”正确方向，实现恢复。

🔁 与 Diffusion Policy 的对比

与传统的 Diffusion Policy 相比，EBT-Policy 在多个方面展现显著优势：

对比维度	Diffusion Policy	EBT-Policy
推理方式	去噪生成	能量最小化
推理步数	约 100 步	仅需 2 步
训练–推理一致性	不一致	✅ 一致
不确定性建模	无	✅ 有
失败恢复能力	无	✅ 有

EBT-Policy 不仅更高效、更稳定，还在失败场景中表现出自然的恢复能力。

⚙️ 训练与推理效率

实验结果显示：

EBT-Policy 在训练阶段的收敛速度提升约 66%；
推理阶段仅需 2 次迭代 即可完成动作生成，计算量减少约 50×。

该特性使得模型在低延迟与实时控制任务中具有明显优势。

📈 模拟与真实任务表现

在标准的模拟任务与真实机器人操作任务中，EBT-Policy 的表现均优于 Diffusion Policy。

尤其在真实场景下，模型可以直接利用行为克隆（Behavior Cloning）数据进行部署，几乎无需额外微调即可稳定执行任务。

🧠 为什么 EBT-Policy 表现突出？

分析表明，其性能提升主要源于以下两点：

统一的训练与推理机制：
模型在训练和推理阶段均通过 MCMC 采样进行能量最小化，
减少了训练–推理差异带来的偏差，并在训练过程中学会应对自身的不确定性。
平衡动力学（Equilibrium Dynamics）：
能量模型天然具备吸引子结构，可在分布外状态下自动回到低能量区域，
使模型在面对扰动时能够自我纠正并重新稳定。

这两点共同促使 EBT-Policy 在失败后表现出优雅的重试能力，避免了传统行为克隆模型常见的「崩溃式」错误累积。