【万字长文】大模型赋能具身智能:自主决策与学习方向深度解析!
本文综述了大模型赋能具身智能的两大核心方向:自主决策(分层决策与端到端决策)和具身学习(模仿学习与强化学习)。文章系统分析了大模型如何增强传统方法,并首次将世界模型纳入具身智能研究框架。同时,文章指出了当前面临的数据稀缺、持续学习、计算效率和仿真到现实差距等挑战,为通用人工智能研究提供了理论指导与实践方向。
简介
本文综述了大模型赋能具身智能的两大核心方向:自主决策(分层决策与端到端决策)和具身学习(模仿学习与强化学习)。文章系统分析了大模型如何增强传统方法,并首次将世界模型纳入具身智能研究框架。同时,文章指出了当前面临的数据稀缺、持续学习、计算效率和仿真到现实差距等挑战,为通用人工智能研究提供了理论指导与实践方向。
该综述聚焦大模型赋能的具身智能,系统梳理其在自主决策与具身学习两大核心方向的进展:自主决策涵盖分层决策(大模型增强高层规划、低层执行与反馈优化)与端到端决策(基于视觉-语言-动作(VLA)模型,大模型提升感知、动作生成与部署效率);具身学习重点阐述大模型对模仿学习(扩散模型、Transformer构建策略网络)与强化学习(优化奖励函数设计与策略网络)的增强作用,首次将世界模型纳入具身智能研究,分析其设计方法及对决策与学习的关键支撑,最后指出当前面临的具身数据稀缺、持续学习、计算部署效率及仿真到现实差距等挑战,为通用人工智能(AGI)方向提供理论框架与实践指导。
论文全览

详细总结

引言:研究背景与综述定位
具身智能核心定义:旨在开发具备物理形态的智能系统,能在现实环境中实现感知、决策、行动与学习,是通往通用人工智能(AGI) 的关键路径(参考Turing 1950年提出的智能定义)。
研究瓶颈:传统具身智能依赖预编程规则(如早期符号推理系统),适应性有限;深度学习虽降低环境建模依赖,但模型多为任务特定,泛化性与迁移性差。
大模型的突破:以LLM(如GPT系列)、LVLM(如CLIP)、MLM(如Gemini)、VLA(如RT-2)为代表的大模型,凭借强大的感知、推理、交互能力,革新具身智能研究。
综述价值:
- 填补空白:现有综述多聚焦大模型本身或具身智能单一组件(如规划、模拟器),本文首次系统整合大模型与具身智能的协同机制。
- 核心聚焦:围绕自主决策与具身学习两大核心,同时首次将世界模型纳入具身智能研究框架。
- 分析方法:采用“水平对比+垂直追溯”双维度分析,既对比不同方法(如分层vs端到端决策),又追溯技术演进(如VLA模型从RT-2到Octo的发展)。
基础概念:具身智能与大模型基础
具身智能(Embodied AI)
- 组成结构:包含物理实体(如人形机器人、四足机器人、智能车)与智能体(认知核心,负责决策与学习)。
- 核心流程:模仿人类问题解决范式——通过模仿学习从演示/视频获取技能,面对新场景时分析环境、分解任务、规划策略,结合强化学习与反馈优化(见图2)。
- 核心能力:自主决策(分层/端到端两种范式)与具身学习(通过交互持续优化技能)。

主流大模型类型及演进

| 模型类型 | 核心功能 | 代表模型 | 关键进展 |
|---|---|---|---|
| 大语言模型(LLM) | 自然语言处理、认知推理 | BERT(2018)、GPT系列(GPT-3含1750亿参数,2020)、PaLM(2023)、Llama系列(7B-65B参数,2023) | GPT-3首次实现零样本/少样本学习;ChatGPT(基于GPT-3.5)支持自然交互;Llama系列推动开源研究 |
| 大视觉模型(LVM) | 视觉信息处理(识别、分割等) | ViT(2020)、DINO/DINOv2(2021-2023)、MAE(2022)、SAM(2023,训练于1100万图像) | ViT将Transformer引入视觉;SAM支持语义/实例/目标分割,可通过用户反馈微调 |
| 视觉-语言模型(LVLM) | 跨模态(视觉+语言)融合 | CLIP(2021)、BLIP/BLIP-2(2022-2023)、GPT-4V(2023) | CLIP通过对比学习对齐图文特征;BLIP-2引入QFormer实现高效跨模态融合;GPT-4V支持图文联合输入推理 |
| 多模态大模型(MLM) | 处理多模态(文本、视觉、音频等) | Video-Chat(2023)、Gemini(2023)、DALL·E系列(DALL·E3 2023)、Sora(2024,生成60秒视频) | DALL·E系列实现文本到图像生成;Sora通过扩散模型生成高质量长视频;Gemini高效处理多模态输入 |
| 视觉-语言-动作模型(VLA) | 映射多模态输入到动作 | RT-2(2023,首提VLA)、Octo(2024,800k+轨迹训练)、OpenVLA(2024,开源) | RT-2离散化动作空间;Octo用扩散模型优化动作序列;OpenVLA通过LoRA提升参数效率 |
大模型通用能力增强技术
- In-Context Learning(ICL):通过设计提示词实现零样本泛化,无需额外训练。
- X of Thoughts(XoT):含CoT(链式推理)、ToT(树状推理)、GoT(图状推理),提升复杂问题解决能力。
- Retrieval Augmented Generation(RAG):从外部知识库检索信息,缓解大模型知识过时问题。
- Reinforcement Learning from Human Feedback(RLHF):结合人类偏好训练,使模型输出更符合人类意图。
- Model Context Protocol(MCP):标准化大模型与外部工具交互接口,提升 interoperability。

具身大模型(ELM/EMLM)
- 核心作用:整合多模态(文本、视觉、音频、触觉),赋能具身智能的感知、推理与行动,是自主决策与具身学习的核心支撑。
- 分工差异:LLM作认知骨干,LVM负责视觉感知,LVLM/MLM增强跨模态理解,VLA实现端到端感知-动作映射。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

自主决策:分层与端到端范式
分层自主决策(Hierarchical Paradigm)
- 核心架构:分为感知交互层(依赖视觉模型)、高层规划层(分解任务)、低层执行层(执行动作)、反馈增强层(优化决策)(见图5)。

高层规划(High-Level Planning)

| 规划类型 | 实现方式 | 代表方法 | 优势与局限 |
|---|---|---|---|
| 结构化语言规划 | LLM作规划器或生成PDDL | LLV(引入外部验证器)、LLM+P(生成PDDL) | 提升规划自动化,但需处理PDDL语法错误 |
| 自然语言规划 | LLM分解任务,结合可行性校验 | SayCAN(LLM+RL评估动作价值)、Text2Motion(几何校验) | 灵活性高,但依赖固定技能库;Grounded Decoding动态校验可行性,适配开放任务 |
| 编程语言规划 | 将指令转可执行代码 | CaP(生成Python函数库)、Instruct2Act(多模态模型+代码生成) | 动态适应性强,ProgPrompt通过结构化提示减少无效代码 |
低层执行(Low-Level Execution)

-
传统控制算法:PID(关节控制)、LQR(状态反馈优化)、MPC(无人机路径跟踪),优势是实时性强、可解释性高,局限是动态环境适应性差。
-
学习驱动控制:
-
模仿学习:Embodied-GPT用7B LLM规划,模仿学习生成低层策略。
-
强化学习:Hi-Core分两层,LLM设高层策略,RL生成低层动作。
-
模块化控制:LLM调用预训练模型(如CLIP检测、SAM分割),如DEPS、PaLM-E,优势是可复用性强,局限是可能引入通信延迟。
反馈与增强(Feedback and Enhancement)

| 反馈来源 | 实现方式 | 代表方法 |
|---|---|---|
| 大模型自反思 | Re-Prompting(基于错误反馈调整提示)、内省机制(自主评估优化) | DEPS(描述-解释-规划-选择框架)、Self-Refine(多轮自反馈)、Reflexion(结合长期记忆) |
| 人类反馈 | 建立人机交互闭环,人类提供指导 | KNOWNO(识别知识缺口求助人类)、EmbodiedGPT(控制失败时请求人类输入)、YAY Robot(实时语言修正) |
| 环境反馈 | 结合环境动态调整计划 | Inner Monologue(将多模态输入转语言推理)、TaPA(开放词汇目标检测)、DoReMi(检测计划-执行差异) |
端到端自主决策(End-to-End Paradigm)
- 核心载体:视觉-语言-动作(VLA)模型,直接映射多模态输入(视觉+语言)到动作,避免分层范式的误差累积(见图9)。

VLA模型核心组件

- token化与表示:将视觉(环境图像)、语言(任务指令)、状态(机器人关节/ gripper状态)、动作(控制信号)编码为token。
- 多模态信息融合:通过Transformer的交叉注意力机制,融合多模态token为统一嵌入向量。
- 动作解token化: autoregressive解码器生成动作token,分离散(如RT-2,8维动作空间,每维256个区间)与连续(如Octo,扩散模型生成)两种方式。
VLA模型增强方向

| 增强目标 | 技术手段 | 代表方法 | 效果 |
|---|---|---|---|
| 感知能力提升 | 图像预处理、轨迹信息融合、3D感知 | BYO-VLA(去噪预处理)、TraceVLA(视觉轨迹提示)、3D-VLA(点云处理) | 提升视觉鲁棒性,3D-VLA优于2D模型的空间理解 |
| 轨迹动作优化 | 扩散模型、Transformer | Octo(Transformer+扩散解码器)、Diffusion-VLA(语言模型+扩散解码器) | 生成平滑精准动作,Diffusion-VLA适合语义-动作深度融合任务 |
| 训练成本降低 | 流匹配、轻量化模型、并行解码 | π₀(流匹配,50Hz动作生成)、TinyVLA(知识蒸馏,10M参数)、OpenVLA-OFT(并行解码) | π₀降低计算开销;TinyVLA推理速度提升5倍;OpenVLA-OFT减少推理时间 |
主流VLA模型对比(部分关键模型)


##### 3.2.4 分层vs端到端决策对比 | 对比维度 | 分层决策(Hierarchical) | 端到端决策(End-to-End) | |----------|--------------------------|--------------------------| | 架构 | 感知(SLAM/CLIP)、高层规划(结构化/自然/编程语言)、低层执行(技能库)、反馈(多源) | 感知(token化)、规划(VLA预训练隐含)、动作生成(自回归/扩散)、反馈(闭环内置) | | 性能 | 结构化任务可靠,动态环境受限 | 复杂开放任务表现优,依赖训练数据 | | 可解释性 | 高(模块设计清晰) | 低(黑箱模型) | | 泛化性 | 有限(依赖人工设计结构) | 强(大规模预训练驱动),对数据缺口敏感 | | 实时性 | 低(模块通信延迟) | 高(直接感知-动作映射) | | 计算成本 | 中等(模块独立优化) | 高(训练需大量资源) | | 应用场景 | 工业自动化、无人机导航、自动驾驶 | 家用机器人、虚拟助手、人机协作 |
具身学习:从模仿到强化,大模型全面提效
具身学习基础框架
-
数学建模:定义为8元组 ((S, A, G, T, R, , O, )),其中:
-
(S):环境状态集,(A):动作集,(G):目标集,(T):状态转移概率,®:目标条件奖励函数,():观测集,(O):观测概率,():折扣因子(0≤γ<1)。
-
核心目标:通过交互获取技能,优化策略 (),分层决策中含高层子目标生成(())与低层动作映射(())。

主流具身学习方法对比
| 学习方法 | 核心逻辑 | 优势 | 局限 | 典型应用 |
|---|---|---|---|---|
| 模仿学习(IL) | 模仿专家演示,最小化负对数似然: | 样本效率高,快速获取初始策略 | 依赖高质量演示,泛化性差 | 机器人操作、结构化导航 |
| 强化学习(RL) | 试错交互,最大化期望累积奖励 | 动态环境适应性强 | 需大量样本与计算,奖励函数设计难 | 自主导航、动态任务优化 |
| 迁移学习(TL) | 源任务知识迁移到目标任务,最小化KL divergence | 加速学习,复用技能 | 任务差异大时负迁移 | 跨环境导航、共享结构操作 |
| 元学习(Meta-L) | “学会学习”,MAML优化初始参数 | 少样本快速适配新任务 | 预训练需大量任务与样本 | 多场景导航、操作适配 |
大模型增强模仿学习

- 核心方向:构建更鲁棒的策略网络,解决传统模仿学习泛化性差、演示依赖强的问题。
- 扩散模型-based策略网络:处理复杂多模态动作分布,如Pearce框架(迭代加噪去噪)、DABC(两阶段训练)、Diffusion Policy(U-Net去噪,视觉驱动)、3D-Diffusion(3D输入提升空间理解)。
- Transformer-based策略网络:建模轨迹序列依赖,如RT-1(130k+轨迹训练)、RT-Trajectory(轨迹草图增强泛化)、ALOHA(双机械臂操作)、RoboCat(跨任务模仿,VQ-GAN token化视觉)。
大模型增强强化学习

奖励函数设计(解决人工设计难问题)
| 方法 | 实现逻辑 | 代表工作 | 优势 |
|---|---|---|---|
| 奖励信号生成 | LLM从文本提示生成奖励 | L2R(少样本)、Kwon et al.(零样本) | 无需人工设计,但奖励稀疏 |
| 奖励函数生成 | LLM生成可解释函数,迭代优化 | Text2Reward(Python函数+人类反馈)、Eureka(GPT-4生成+自动优化)、Auto MC-Reward(Minecraft全自动化) | 奖励密集,Eureka超越人类设计奖励 |
策略网络构建(提升离线RL的泛化性与表达性)

| 网络类型 | 技术手段 | 代表方法 | 效果 |
|---|---|---|---|
| 扩散模型-based | 建模复杂动作分布 | DiffusionQL(Q-learning框架)、EDP(单步采样降成本) | 适配多模态动作分布,EDP提升采样效率 |
| Transformer-based | 捕捉轨迹长依赖 | Decision Transformer(序列建模)、Prompt-DT(提示增强少样本泛化)、ODT(离线预训练+在线微调) | 规划一致性强,Q-Transformer结合Q值估计 |
| LLM-based | 利用预训练知识 | GLAM(LLM+PPO)、LaMo(GPT-2+LoRA)、Reid(BERT+外部知识库) | Reid在D4RL基准上超越Decision Transformer,训练时间减少 |
世界模型:设计与具身智能应用

世界模型设计类型
| 类型 | 核心原理 | 代表模型 | 优势 |
|---|---|---|---|
| latent空间世界模型 | 编码观测到 latent空间,预测动态 | RSSM(基础)、PlaNet(CVAE+GRU)、Dreamer系列(Dreamer V3用symlog提升稳定性) | 连续控制任务表现优,样本效率高 |
| Transformer-based | 注意力机制建模多模态与长依赖 | IRIS(VQ-VAE token化+自回归Transformer)、Genie(时空Transformer,互联网视频预训练)、TWM(Transformer-XL,长依赖) | 复杂记忆交互任务优,Genie生成可交互环境 |
| 扩散-based | 加噪去噪生成预测序列 | Sora(视频生成,60秒)、UniPi(轨迹视频生成)、UniSim(联合训练互联网与机器人数据) | 高保真预测,Sora支持语言驱动视频生成 |
| JEPA(联合嵌入预测架构) | 分层规划+自监督学习,聚焦语义特征 | Meta JEPA(Yann LeCun提出) | 提升常识能力,平衡快速反应与深度推理 |
世界模型在具身智能中的作用
辅助自主决策
- 模拟验证:在虚拟环境测试决策,降低现实成本,如NeBula(贝叶斯滤波构建信念空间)、UniSim(生成高/低层控制的视觉结果)。
- 知识增强:提供环境常识与全局知识,如WKM(整合全局任务知识与局部状态知识)、Agent-Pro(建模“信念”理解社交环境)。
辅助具身学习
- 状态转移模拟:减少现实交互,如RobotDreamPolicy(世界模型内训练策略)、DayDreamer(Dreamer V2生成 latent状态预测)、SWIM(互联网人类视频预训练,理解交互)。
- 数据生成:合成稀缺数据,如SynthER(生成离线RL轨迹)、MTDiff(生成多任务轨迹)、VPDD(人类操作数据预训练,减少机器人数据需求)。
挑战与未来展望
核心挑战
- 具身数据稀缺:现有数据集规模远小于视觉语言数据(如VIMA 65万演示、RT-1 13万演示 vs LAION-5B 57.5亿图文对),原因是机器人设计多样、现实交互复杂。
- 持续学习(Continual Learning):
- 灾难性遗忘:学习新任务导致旧技能丢失(如机器人平地导航训练后,崎岖地形导航能力下降)。
- 探索效率低:难平衡新经验探索与旧知识利用。
- 现实不确定性:传感器退化、机械磨损影响学习。
- 计算与部署效率:
- 训练成本高:Diffusion-VLA需数百GPU训练数周,计算量达PFlops级。
- 部署受限:RT-2需20GB显存,边缘设备(如机器人)资源有限;云端部署存在隐私与实时性问题。
- 仿真到现实差距(Sim-to-Real Gap):仿真环境的物理动力学(摩擦、碰撞)与视觉渲染(光照、材质)无法完全匹配现实,导致策略迁移失败。
潜在解决方向
- 数据稀缺:世界模型合成数据(如SynthER)、整合人类数据集(如Ego4D),需解决现实差距与动作对齐问题。
- 持续学习:经验回放(缓解遗忘)、正则化(约束权重更新)、自监督学习(内在动机驱动探索)、多智能体协作。
- 效率优化:参数高效微调(LoRA,成本降为全微调的1/10)、模型压缩(知识蒸馏、量化,如TinyVLA 10M参数)、硬件加速(定制芯片)。
- 仿真到现实:高精度模拟器(如Genesis,可微渲染)、域适应技术。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)