具身智能 — 最新进展与未来展望(2025)(中科院)
并在计算智能(算法和模型)指导下与环境交互的智能体。与只在静态数据或离线仿真上运行的非具身智能不同,具身系统不断感知和行动,从而完成感知–行动闭环。智能在实时中通过。
论文梗概
具身智能(Embodied Intelligence)被定义为拥有物理或虚拟身体,并在计算智能(算法和模型)指导下与环境交互的智能体。与只在静态数据或离线仿真上运行的非具身智能不同,具身系统不断感知和行动,从而完成感知–行动闭环。
智能在实时中通过大脑、身体和环境的协调产生,行为不是单纯的内部计算结果,而是感知引导行动、行动又重塑感知的快速反馈循环。
关键组成部分
具身智能系统由三个主要组成部分构成:
- 智能(Intelligence):计算模型与算法,提供感知、推理和决策能力。
- 具身性(Embodiment):物理机器人或仿真身体,执行动作、感知环境。
- 环境(Environment):外部世界及其对象、结构和动态。
智能体从环境中感知并作出决策,引导身体行动,身体通过形态与传感器与环境交互,可能改变环境,从而形成闭环。
1. 智能(Intelligence)
智能体的“大脑”,通常由深度学习和大规模基础模型实现,提供:
- 强大的感知能力
- 高效的推理与决策能力
- 跨任务与环境的泛化能力
基础模型整合了结构化先验与多模态对齐,使智能体能解析复杂输入,提升在开放环境中的表现。
2. 具身性(Embodiment)
指执行动作的物理或仿真身体:
- 固定基座机械臂(精密工作)
- 轮式/履带平台(物流与检测)
- 四足机器人(稳定移动)
- 人形机器人(交互)
- 仿生系统(空中、水下等)
身体形态决定了感知与能力,智能设计需与身体动力学和传感器相匹配,实现脑–体协同。
3. 环境(Environment)
外部环境包含多样对象、动态物理及接触特性。研究重点:
- 几何建模
- 语义理解(对象识别、场景图)
- 世界模型(动态模拟与规划)
高保真仿真器、数字孪生与领域适配帮助桥接模拟到真实环境的差距,支持多模态感知和复杂 3D 场景操作。
核心能力
具身智能的功能管线包含 感知 → 决策 → 行动,形成闭环:
1. 感知(Embodied perception)
- 主动感知:智能体决定感知的“为什么、什么和如何”
- 3D 感知:从几何管线发展到语义-度量对象中心世界模型
- 支持开放世界感知(Open-set recognition)、全景标注、空间关系推理
2. 决策(Embodied decision-making)
- 扮演闭环中的“大脑”角色
- 层级规划:高层规划器 + 低层控制器,任务分解
- 端到端策略学习:感知输入 + 语言直接映射到动作
- 大语言模型可作为高层规划器,解析指令、注入常识与世界知识
3. 行动(Embodied action)
- 将策略转化为协调运动,类似生物小脑的预测与协调功能
- 模仿学习:从专家演示获得策略,数据高效
- 强化学习:发现最大化长期奖励策略,通常先仿真训练再转真实
- 大模型可辅助任务分解、奖励设计与动作轨迹生成,实现多模态、长时程、接触丰富控制
展望与未来方向
- 端到端方法:替代手工构建的感知–规划–行动管线,直接映射多模态输入到动作,实现跨任务/环境泛化
- 多模态感知:融合视觉、触觉、听觉等信息,形成统一的、不确定性感知模型
- 自适应形态:仿生刚–软混合结构,实现顺应性与精确性,例如刚–软手指,提供多自由度控制
- 真实世界泛化:通过领域随机化、元学习、领域适配,实现零/少样本情况下策略转移和直接硬件调优
结论
具身智能目标是通过持续的感知–行动耦合及学习、身体和环境的协同适应,实现通用能力。随着算法(大脑)、机器人具身(身体)和环境建模进步,AI 将从非具身模型转向安全、稳健的现实世界执行者,为真正学习、适应和行动的机器人奠定基础。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)