如果策略模型也能动态地思考与推理,尤其能理解“不确定性”,是否能让机器人在真实世界中表现得更好?


原文链接:如果Policy模型也能动态思考推理,是否能让机器人在真实世界中表现得更好?

⚡️ 研究简介:EBT-Policy

近期,研究团队提出了 EBT-Policy(Energy-Based Transformer Policy),一种基于能量模型(Energy-Based Model, EBM)的新型策略架构。

该方法在模拟与真实机器人任务中均表现出色,显著提升了训练和推理效率,并展现出独特的「零样本重试(zero-shot retry)」能力。

主要特点:

  • ⚙️ 在模拟与真实环境中均优于 Diffusion Policy
  • ⚡️ 训练与推理所需计算量大幅减少(最高可节省 50 倍)
  • 🔁 无需额外重试数据,即可在失败后自动恢复
  • 🧠 学会不确定性建模,实现动态计算分配

✍️ 什么是 Energy-Based Transformer (EBT)?

EBT 模型通过学习一个能量值 energy来衡量输入变量之间的匹配程度。

在语言建模任务中,它学习的是上下文与预测之间的能量地形(energy landscape)。

在推理过程中,模型会通过多次前向传播来最小化能量,直到收敛为止。

能量高意味着模型对当前状态不确定,能量低则代表模型更有信心。

因此,EBT 能根据问题的难度自动调整计算资源:

“难的问题多想几步,简单的问题少算几步。”


🤔 如何将 EBT 应用于机器人策略?

EBT-Policy 的核心思想包括:

  1. 学习一个关于观测数据(observation)、机器人姿态动作(actions)和上下文(context)的能量地形;
  2. 在推理阶段,通过能量最小化搜索低能量的未来动作轨迹。

这种方式不依赖“去噪”生成过程,而是通过能量优化直接寻找最优解,使模型更稳定、更具推理能力。


🧩 关键优势

由于能量地形的引入,EBT-Policy 能够:

  • 学会何时不确定,并据此动态调整推理过程;
  • 具备平衡动力的能力(Equilibrium Dynamics),在出错或分布外状态下自动回到低能量区域;
  • 避免传统模型的暴露偏差(Exposure Bias),训练与推理过程一致;
  • 进行全局能量优化,减少误差积累。

这些特性共同促成了 EBT-Policy 的重试行为(Emergent Retry Behavior)

当模型检测到自身处于错误状态(高能量),会通过能量动态自然“拉回”正确方向,实现恢复。


🔁 与 Diffusion Policy 的对比

与传统的 Diffusion Policy 相比,EBT-Policy 在多个方面展现显著优势:

对比维度 Diffusion Policy EBT-Policy
推理方式 去噪生成 能量最小化
推理步数 约 100 步 仅需 2 步
训练–推理一致性 不一致 ✅ 一致
不确定性建模 ✅ 有
失败恢复能力 ✅ 有

EBT-Policy 不仅更高效、更稳定,还在失败场景中表现出自然的恢复能力。


⚙️ 训练与推理效率

实验结果显示:

  • EBT-Policy 在训练阶段的收敛速度提升约 66%
  • 推理阶段仅需 2 次迭代 即可完成动作生成,计算量减少约 50×

该特性使得模型在低延迟与实时控制任务中具有明显优势。


📈 模拟与真实任务表现

在标准的模拟任务与真实机器人操作任务中,EBT-Policy 的表现均优于 Diffusion Policy。

尤其在真实场景下,模型可以直接利用行为克隆(Behavior Cloning)数据进行部署,几乎无需额外微调即可稳定执行任务。


🧠 为什么 EBT-Policy 表现突出?

分析表明,其性能提升主要源于以下两点:

  1. 统一的训练与推理机制
    模型在训练和推理阶段均通过 MCMC 采样进行能量最小化,
    减少了训练–推理差异带来的偏差,并在训练过程中学会应对自身的不确定性。
  2. 平衡动力学(Equilibrium Dynamics)
    能量模型天然具备吸引子结构,可在分布外状态下自动回到低能量区域,
    使模型在面对扰动时能够自我纠正并重新稳定。

这两点共同促使 EBT-Policy 在失败后表现出优雅的重试能力,避免了传统行为克隆模型常见的「崩溃式」错误累积。


🎯 超越 Benchmark:真实世界中的表现

机器人研究中的 benchmark 往往存在随机性与可“调参”性,因此指标并不能完全反映模型在真实场景下的表现。

在实际使用中,EBT-Policy 展现出更好的整体体验:

  • 更少灾难性失败
  • 更少训练过拟合
  • 更平滑的推理过程
  • 更强的可解释性
  • 更优的分布外泛化能力

研究团队总结道:

“EBT-Policy 不仅性能更强,用起来也更稳定、更‘聪明’。”


⛓️‍💥 当前阶段与展望

目前实验仍处于早期阶段,后续将继续优化超参数与模型规模。

随着更多实验数据的积累,预计 EBT-Policy 的表现还将进一步提升。


📚 论文与项目链接

  • 论文标题:EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
  • 📄 论文链接:https://arxiv.org/pdf/2510.27545
  • 🌐 项目主页:https://energy-based-transformers.github.io/ebt-policy/

作者团队:

Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu

联系方式:

团队微信: zhicheng-ai0328

作者邮箱: travisddavies@gmail.com


“让策略模型不仅能行动,更能思考。
EBT-Policy:能量驱动的思考型机器人策略。”

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐