如果Policy模型也能动态思考推理,是否能让机器人在真实世界中表现得更好?
近期,研究团队提出了,一种基于能量模型(Energy-Based Model, EBM)的新型策略架构。该方法在模拟与真实机器人任务中均表现出色,显著提升了训练和推理效率,并展现出独特的「零样本重试(zero-shot retry)」能力。⚙️ 在模拟与真实环境中均优于 Diffusion Policy⚡️ 训练与推理所需计算量大幅减少(最高可节省 50 倍)🔁 无需额外重试数据,即可在失败后自
如果策略模型也能动态地思考与推理,尤其能理解“不确定性”,是否能让机器人在真实世界中表现得更好?
⚡️ 研究简介:EBT-Policy
近期,研究团队提出了 EBT-Policy(Energy-Based Transformer Policy),一种基于能量模型(Energy-Based Model, EBM)的新型策略架构。
该方法在模拟与真实机器人任务中均表现出色,显著提升了训练和推理效率,并展现出独特的「零样本重试(zero-shot retry)」能力。
主要特点:
- ⚙️ 在模拟与真实环境中均优于 Diffusion Policy
- ⚡️ 训练与推理所需计算量大幅减少(最高可节省 50 倍)
- 🔁 无需额外重试数据,即可在失败后自动恢复
- 🧠 学会不确定性建模,实现动态计算分配
✍️ 什么是 Energy-Based Transformer (EBT)?
EBT 模型通过学习一个能量值 energy来衡量输入变量之间的匹配程度。
在语言建模任务中,它学习的是上下文与预测之间的能量地形(energy landscape)。
在推理过程中,模型会通过多次前向传播来最小化能量,直到收敛为止。
能量高意味着模型对当前状态不确定,能量低则代表模型更有信心。
因此,EBT 能根据问题的难度自动调整计算资源:
“难的问题多想几步,简单的问题少算几步。”
🤔 如何将 EBT 应用于机器人策略?
EBT-Policy 的核心思想包括:
- 学习一个关于观测数据(observation)、机器人姿态动作(actions)和上下文(context)的能量地形;
- 在推理阶段,通过能量最小化搜索低能量的未来动作轨迹。
这种方式不依赖“去噪”生成过程,而是通过能量优化直接寻找最优解,使模型更稳定、更具推理能力。
🧩 关键优势
由于能量地形的引入,EBT-Policy 能够:
- 学会何时不确定,并据此动态调整推理过程;
- 具备平衡动力的能力(Equilibrium Dynamics),在出错或分布外状态下自动回到低能量区域;
- 避免传统模型的暴露偏差(Exposure Bias),训练与推理过程一致;
- 进行全局能量优化,减少误差积累。
这些特性共同促成了 EBT-Policy 的重试行为(Emergent Retry Behavior):
当模型检测到自身处于错误状态(高能量),会通过能量动态自然“拉回”正确方向,实现恢复。
🔁 与 Diffusion Policy 的对比
与传统的 Diffusion Policy 相比,EBT-Policy 在多个方面展现显著优势:
| 对比维度 | Diffusion Policy | EBT-Policy |
|---|---|---|
| 推理方式 | 去噪生成 | 能量最小化 |
| 推理步数 | 约 100 步 | 仅需 2 步 |
| 训练–推理一致性 | 不一致 | ✅ 一致 |
| 不确定性建模 | 无 | ✅ 有 |
| 失败恢复能力 | 无 | ✅ 有 |
EBT-Policy 不仅更高效、更稳定,还在失败场景中表现出自然的恢复能力。
⚙️ 训练与推理效率
实验结果显示:
- EBT-Policy 在训练阶段的收敛速度提升约 66%;
- 推理阶段仅需 2 次迭代 即可完成动作生成,计算量减少约 50×。
该特性使得模型在低延迟与实时控制任务中具有明显优势。
📈 模拟与真实任务表现
在标准的模拟任务与真实机器人操作任务中,EBT-Policy 的表现均优于 Diffusion Policy。
尤其在真实场景下,模型可以直接利用行为克隆(Behavior Cloning)数据进行部署,几乎无需额外微调即可稳定执行任务。
🧠 为什么 EBT-Policy 表现突出?
分析表明,其性能提升主要源于以下两点:
- 统一的训练与推理机制:
模型在训练和推理阶段均通过 MCMC 采样进行能量最小化,
减少了训练–推理差异带来的偏差,并在训练过程中学会应对自身的不确定性。 - 平衡动力学(Equilibrium Dynamics):
能量模型天然具备吸引子结构,可在分布外状态下自动回到低能量区域,
使模型在面对扰动时能够自我纠正并重新稳定。
这两点共同促使 EBT-Policy 在失败后表现出优雅的重试能力,避免了传统行为克隆模型常见的「崩溃式」错误累积。
🎯 超越 Benchmark:真实世界中的表现
机器人研究中的 benchmark 往往存在随机性与可“调参”性,因此指标并不能完全反映模型在真实场景下的表现。
在实际使用中,EBT-Policy 展现出更好的整体体验:
- 更少灾难性失败
- 更少训练过拟合
- 更平滑的推理过程
- 更强的可解释性
- 更优的分布外泛化能力
研究团队总结道:
“EBT-Policy 不仅性能更强,用起来也更稳定、更‘聪明’。”
⛓️💥 当前阶段与展望
目前实验仍处于早期阶段,后续将继续优化超参数与模型规模。
随着更多实验数据的积累,预计 EBT-Policy 的表现还将进一步提升。
📚 论文与项目链接
- 论文标题:EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
- 📄 论文链接:https://arxiv.org/pdf/2510.27545
- 🌐 项目主页:https://energy-based-transformers.github.io/ebt-policy/
作者团队:
Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu
联系方式:
团队微信: zhicheng-ai0328
作者邮箱: travisddavies@gmail.com
“让策略模型不仅能行动,更能思考。
EBT-Policy:能量驱动的思考型机器人策略。”
具身求职内推来啦
国内最大的具身智能全栈学习社区来啦!
推荐阅读
从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂
工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)
具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂
VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?
1v1 科研论文辅导来啦!
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)