具身智能十年演进

**具身智能十年演进（2016-2026）**从仿真训练走向现实落地，经历了四个关键阶段： 1）Sim2Real突破期（2016-2018）：通过域随机化解决仿真与现实的分布对齐问题； 2）数据规模化（2019-2020）：跨机器人数据集和自动域随机化推动泛化能力； 3）多模态融合（2021-2023）：Transformer和扩散模型引入生成式策略，视觉-语言-动作（VLA）模型成为核心； 4）

jzwspace

636人浏览 · 2026-01-26 10:22:56

jzwspace · 2026-01-26 10:22:56 发布

下面按“具身智能（Embodied AI）2016→2026 十年演进”给你一份专业 + 前沿 + 系统工程视角的长文：用时间轴串起关键范式变化，再把背后的技术主线（数据、模型、表示、仿真、硬件、评测与安全）讲透，最后给出2026 往后确定性路线与工程落地抓手。

1) 十年一句话主线

2016–2026 的具身智能主线：
从“在仿真里用深度强化学习学会单一技能（但很难上真机）”，演进到“以大规模数据 + 视觉-语言-动作（VLA）/通用策略为核心的可迁移、可微调、可组合的‘通用机器人政策（Generalist Policy）’”，并通过Sim2Real、跨机器人数据、合成数据与安全护栏逐步走向现实世界的稳定落地。

2) 四阶段时间轴：2016→2026

我把十年拆成四段，每段都有非常清晰的“范式标志”。

阶段 A｜2016–2018：Sim2Real 的“第一性问题”被正面攻克

关键词：深度 RL 在仿真成功，但现实落地被“现实鸿沟”卡死；域随机化成为关键桥梁

**现实鸿沟（Reality Gap）**是当时最大障碍：仿真里学到的策略，上真机就崩。
**域随机化（Domain Randomization）**开始系统化：通过随机纹理、光照、相机、物体参数，让模型“把真实世界当成仿真分布的一种”。这一思路在 2017 年被经典工作系统论证并展示可转移到真实抓取等任务。(arXiv)
同期出现更复杂的真实系统验证：OpenAI 的 Dactyl 项目把高维灵巧手控制推到公众视野（强调在真实机器人上验证 RL 学到的灵巧行为）。(OpenAI)

阶段总结（重要但常被忽略）：

具身智能首先是“分布对齐”与“工程可控性”的问题，而不是算法是否酷。

阶段 B｜2019–2020：从“单实验”走向“数据规模化”的预演

关键词：大规模机器人数据集、跨机器人经验共享、自动域随机化、把“泛化”当目标

OpenAI 用**自动域随机化（ADR）**等方法在仿真中训练灵巧手解决魔方，并迁移到真实硬件，强调对扰动的鲁棒性与从仿真到现实的系统工程路径。(OpenAI)
学界开始推动“机器人版 ImageNet”：RoboNet 提出跨多种机器人平台共享的大规模数据资源，目标是通过多机器人、多场景数据缓解“每个实验都从零采集”的瓶颈。(arXiv)

阶段总结：

行业开始意识到：要让具身智能真正泛化，必须像视觉/NLP一样进入“数据规模化”与“跨域共享”。

阶段 C｜2021–2023：从“策略学习”到“生成式策略”，从“视觉”到“视觉+语言”

关键词：Transformer 进入机器人；扩散模型进入控制；多模态提示与组合泛化出现

这一阶段出现了两个深刻变化：

(1) 生成式模型进入控制

Diffusion Policy 把动作序列建模为扩散生成过程，在多任务视觉运动控制上取得强表现，尤其擅长处理多峰动作分布与高维动作空间。(arXiv)
这类方法的意义在于：机器人控制不再只是“输出一个确定动作”，而更像“在可行集合里生成一段高质量动作轨迹”。

(2) 多模态提示（Prompting）与组合泛化

VIMA 提出用文本+视觉 token的多模态 prompt 来表达大量操纵任务，并提供系统化泛化评测协议，推动“像用 prompt 驱动模型一样驱动机器人”。(arXiv)

(3) VLA（Vision-Language-Action）开辟“互联网知识 → 机器人动作”的通道

DeepMind 的 RT-2 明确提出：把互联网规模视觉-语言模型的语义能力注入端到端机器人控制，形成 VLA 模型并展示更强泛化。(arXiv)

阶段总结：

具身智能开始沿着“大模型的三件套：预训练、对齐、微调”走向机器人领域：
表示更统一（token/latent）→ 任务表达更语言化 → 策略更生成式。

阶段 D｜2024–2026：通用机器人策略（Generalist Policy）成形：跨机器人、跨任务、可微调、可组合

关键词：Open X-Embodiment、RT-X、Octo、π0、GR00T、Gemini Robotics；数据与平台生态爆发

这一阶段的标志是：“通用策略”从概念走向可复现的开源/平台化形态。

(1) 跨机器人真实数据规模化：Open X-Embodiment / RT-X

Open X-Embodiment 汇聚 22 种机器人、百万级真实轨迹，RT-X 证明跨机器人协作训练可以带来正迁移。(arXiv)

(2) 开源通用策略代表：Octo

Octo 以大规模跨机器人数据为底座，强调“可快速微调到新机器人/新传感器/新动作空间”，并在多个平台上验证作为通用初始化的价值。(arXiv)

(3) 从桌面到“移动双臂全身控制”：Mobile ALOHA

Mobile ALOHA 把数据采集与学习从桌面操作推进到移动+双臂+全身协同，并强调低成本遥操作采数与跨数据集共训带来的收益。(arXiv)
这代表具身智能从“实验室桌面玩具”向“家庭/服务场景”跨了一步（至少在研究范式上）。

(4) “机器人基础模型”叙事成型：π0 与 GR00T

Physical Intelligence 发布 π0，明确提出“通用机器人政策/机器人基础模型”方向。(pi.website)
NVIDIA 在 2024 宣布 Project GR00T，并在 GTC 生态中把仿真、算力（如 Jetson Thor）、训练工作流与基础模型打包成平台路线。(NVIDIA Newsroom)
2025 NVIDIA 进一步推出 Isaac GR00T N1（预训练、可定制，强调“通用机器人时代”），体现平台化加速。(The Verge)