具身智能的“大脑”与“小脑”：整体架构与小脑运控分析

无宜

1650人浏览 · 2026-05-01 17:13:17

无宜 · 2026-05-01 17:13:17 发布

具身智能的“大脑”与“小脑”：整体架构与小脑运控分析

摘要

本文从生物学“大脑-小脑”的分工隐喻出发，全面剖析具身智能机器人的“大脑”（感知决策系统）与“小脑”（运动控制系统）的架构设计、技术栈与前沿进展。文章首先阐释了大小脑的功能定义与协同机制，分析了传统控制、模仿学习与强化学习三大技术路线在小脑运控中的应用格局，随后以“小脑”为核心，详细介绍了其在轮式/足式底盘与机械臂等异构形态上的控制方法与开源项目实践。最后，对大小脑融合的未来趋势进行了展望。本文旨在构建一幅从宏观架构到微观算法的完整技术地图，帮助研究者快速建立对具身智能大小脑的系统性认知。

一、从生物隐喻到工程架构：为什么机器人需要“大脑”和“小脑”？

1.1 生物神经科学的启示

在人体神经系统中，大脑皮层是最高指挥中枢，负责意识、认知、思维、记忆、语言、情绪等高级神经活动，控制全身的随意运动并感知外界刺激（视觉、听觉、触觉等）。小脑则主管运动调节与平衡维持，协调大脑发出的随意运动，使动作精准、稳定、流畅，同时维持身体姿势与肌肉张力。

这一精妙的“决策-执行”分工为机器人系统设计提供了天然范本：将环境理解、任务规划、语义推理等高阶认知功能交由“大脑”承担，将实时运动规划、关节控制、力觉调节、平衡维持等低延迟、高精度的运动控制任务交给“小脑”处理。机器人若要真正实现“像人一样灵活”，就必须在控制器层面实现这种“双脑协同”。

1.2 工程化的“大脑-小脑”框架

在具身智能工程实践中，“大脑-小脑”架构并非严格的生物学复刻，而是为了在复杂系统中实现“认知-控制-执行”的模块化管理与协同优化的分层解耦设计范式。当前行业已经形成了较为共识的层次化定义：

层级	生物类比	核心功能	典型硬件/软件栈
大脑（决策规划系统）	大脑皮层	多模态感知融合、环境理解、任务拆解、推理与决策、自然语言交互	高性能GPU/NPU（如NVIDIA Jetson Thor）、VLM/VLA大模型、多模态感知技术
小脑（运动控制系统）	小脑+脑干	实时运动规划、全身协调控制、关节力矩/角度控制、力觉柔顺控制、平衡维持	实时MCU/DSP（如Intel Core Ultra、RK3588）、RTOS、EtherCAT总线、MPC/WBC/RL算法
肢体（执行感知层）	骨骼肌+感觉器官	关节驱动、力/触觉传感、视觉采集、惯性测量	关节电机、六维力传感器、IMU、深度相机

二、大脑：具身智能的“思维中枢”

2.1 核心使命

大脑解决的是 “要做什么” 的问题。当机器人接收到“请递给我一杯水”这样的指令时，大脑需要完成：

语义解析：理解自然语言指令的含义与意图；
环境感知：通过视觉传感器定位水杯的位置、姿态，识别周围障碍物；
任务规划：将“递水”拆解为“移动到水杯附近→抓取水杯→移动到目标位置→递出”等步骤序列；
动态调整：在执行过程中根据突发情况（如人员走动、水杯滑落）实时调整规划。

2.2 核心技术栈

大脑的技术路径目前仍处于多元探索阶段，主要分为以下几类：

（1）视觉-语言-动作模型（VLA）
VLA模型将视觉、语言和动作统一到一个端到端的模型中。代表性工作包括：

OpenVLA：开源VLA基础模型，支持多任务操作
RDT-1B：基于扩散模型的双臂操作基础模型
π系列（π0/π0.5）：Physical Intelligence推出的通用机器人控制模型
Xiaomi-Robotics-0：小米于2026年2月开源的首代VLA大模型，采用“大脑+小脑”混合架构，在仿真和真机任务中均取得优异成绩

（2）分层规划架构
如卓世科技的Tri-Core架构，集成了直觉（System 1）、逻辑（System 2）和共情（System 3）三核协同，其中System 1（小脑）基于VLA实现反应式控制，System 2（大脑）基于VLM实现长程规划与因果推理。

（3）跨本体通用大脑
Skild AI开发的“omni-bodied brain”可在单一AI模型下控制多种形态的机器人，甚至能在肢体受损后自适应继续运行。

三、小脑：具身智能的“行动中枢”

3.1 核心使命

小脑解决的是 “怎么做” 的问题。当大脑给出了任务规划后，小脑需要：

轨迹生成：根据目标位置和当前状态，实时生成机械臂末端或底盘的运动轨迹；
全身协调：协调多自由度关节的协同运动（人形机器人通常有30+自由度），确保动作流畅；
力觉控制：精确控制施加在物体上的力——拿水杯时力太小会滑落，力太大会捏碎；
平衡维持：在行走、跑步、上下楼梯等动态过程中，实时调整重心以应对地面不平、外力碰撞等扰动；
毫秒级实时响应：运动控制回路通常要求1kHz以上的控制频率。

具身智能控制系统的目标是使机器人能够像人类一样自然地行走、奔跑、跳跃，并完成各种复杂的操作任务。

3.2 小脑控制的三条技术路线

小脑运控的技术路线正在经历从传统模型到数据驱动的深刻变革。笔者将当前主流方法归纳为三大范式：

（1）基于模型的控制方法（Model-Based Control）

这是最经典的小脑运控路线，在工业机器人和仿人机器人早期发展中占据主导地位。

核心思想：基于精确的机器人动力学/运动学模型，通过在线优化计算控制指令。

主要方法：

倒立摆+ZMP（零力矩点）模型：将机器人简化为倒立摆，通过保持ZMP在支撑多边形内来保证行走稳定。由梶田秀司首次系统阐述，是双足机器人步态控制的经典方法。其核心动力学方程为：\(\ddot{x} = \frac{g}{h}(x - p_x)\)，其中 \(x\) 为质心水平位置，\(p_x\) 为ZMP位置，\(h\) 为质心高度。该方法简单有效，但面对复杂地形时鲁棒性不足。
模型预测控制（MPC，Model Predictive Control） ：在每个控制周期内求解一个有限时域的优化问题，预测系统未来状态并计算最优控制序列，但只执行第一步而后重新优化。优势在于能够显式处理约束（如关节限位、力矩上限），是本田ASIMO等早期人形机器人的核心控制方法。
全身控制（WBC，Whole-Body Control） ：将多个任务（如保持平衡、跟踪轨迹、维持特定姿态）按照优先级分层求解，高优先级任务优先满足，低优先级任务在零空间中求解。WBC特别适合处理人形机器人这种多自由度、多任务的冗余系统。

优缺点：

✅ 原理清晰，稳定性和安全性可证
✅ 适合高精度、结构化的工业场景
❌ 依赖精确建模，模型误差会导致性能下降
❌ 面对非结构化环境（如碎石、草地）泛化能力差

（2）模仿学习（Imitation Learning / Learning from Demonstration）

模仿学习从人类示教数据中学习控制策略，绕过了复杂的手工建模。

核心思想：通过遥操作、动捕、视频等方式收集专家/人类操作数据，让模型“观察并复现”这些行为。

代表性工作：

Diffusion Policy：将扩散模型引入机器人控制策略建模，在复杂操作任务中展现出卓越的多模态行为表达能力。它通过对动作序列逐步去噪生成平滑轨迹，特别适合精细操作任务（如拧瓶盖、叠衣服）。
ACT（Action Chunking Transformer） ：将动作序列分块预测，解决长时域操作中的误差累积问题。
TWIST：遥操作全身模仿系统，通过将人类动作捕捉数据重新定位到人形机器人，使用强化学习和行为克隆结合的方法开发全身控制器。这是目前少数能实现人形机器人全身操作、腿足操作和全身表达性运动的统一策略框架。
GAE通用动作预训练大模型：西湖大学王东林教授团队于2026年发布，搭载于泰坦o1人形机器人，可实现“随时、随地、随性”模仿人类动作，打破地域距离限制。

优缺点：

✅ 无需精确动力学建模
✅ 能够处理复杂精细操作
❌ 数据采集成本高（真机遥操作）
❌ 泛化到未见场景的能力有限
❌ 人类视频数据信息含量低，仿真数据存在Sim2Real Gap

（3）深度强化学习（Deep Reinforcement Learning）

强化学习正在迅速成为机器人运动控制领域的主导范式，尤其在足式机器人Locomotion任务中已取得压倒性优势。

核心思想：让机器人在仿真环境中通过大量“试错”自主学习，根据奖励函数优化控制策略。

为什么强化学习在步态控制中几乎“一统天下”？

因为“走路”这件事的奖励函数极其容易定义：“往前走速度达到1m/s给+1分，摔倒了给-100分。”这样的奖励函数简洁明了，极其适合强化学习。当前标准范式是在NVIDIA Isaac Sim等仿真器中并行启动上万条“平行宇宙”中的机器人，用PPO（Proximal Policy Optimization）算法让它们大规模试错训练，训练完成后通过域随机化（Domain Randomization）技术实现零样本（Zero-shot）迁移到真实机器人。

Sim-to-Real迁移的突破：

桥介数物开发的通用“小脑”方案，通过Sim2Real训练，最快3天可完成一套动作开发，动作准确率提高到92%，迁移成功率高达80%。
Agility Robotics为Digit人形机器人开发了全身控制基础模型，深度强化学习正快速成为人形机器人的主导控制范式。

代表性框架：

MaskedMimic（NVIDIA）：通过运动修补实现统一全身人形控制，第一阶段在全身运动跟踪任务上训练RL agent，随后泛化到多种运动任务。
分层学习框架：许华哲团队提出的结合行为克隆与强化学习的方法，高层视觉规划器与低层运动控制器协同，让四足机器人在不依赖额外机械臂的情况下完成提篮子、按按钮、开关门等任务。

优缺点：

✅ 无需精确建模，鲁棒性强
✅ Sim-to-Real迁移能力持续提升
✅ 适合高度动态和复杂地形
❌ 奖励函数设计困难（尤其在操作任务中）
❌ 训练计算资源消耗大
❌ 可解释性差

（4）力控与运控：小脑内部的两条哲学路线

在小脑内部，还存在力控与运控两条技术路线的持续博弈：

力控派：以力觉反馈为核心，模拟人类指尖感知与柔顺交互，追求“像人一样精准用力”。非夕科技、赛博格机器人等企业深耕这一方向。
运控派：以轨迹规划+全身协同为核心，模拟人类肢体联动与平衡控制，追求“像人一样灵活移动”。

两者的本质分歧源于不同应用场景对末端控制需求的差异：有些任务对力要求极高（如精密装配），有些任务对位置精度要求极高（如激光切割）。力位混合控制正是在这一背景下兴起，它在任务空间中动态划分“力控制子空间”与“位置控制子空间”，实现基于任务语义的智能解耦。事实上，当前业界越来越倾向于力控与运控的融合——在需要精确位置时用位控，在需要柔顺交互时用力控，最终走向“力位一体”的统一框架。

3.3 小脑技术的演进全景图

时期	代表方法	技术特点	典型应用
经典控制期	ZMP + LIP	简化模型 + 几何约束	ASIMO、HRP系列
优化控制期	MPC + WBC	在线优化 + 任务分层	Atlas（早期）、Digit
数据驱动期	RL（PPO）+ Sim2Real	仿真试错 + 域随机化	宇树、宇树机器狗后空翻
模仿学习期	Diffusion Policy + ACT	遥操作数据 + 扩散生成	ALOHA、Stanford烹饪机器人
融合智能期	RL + IL + MPC + WBC	多范式协同	Optimus、Figure 01

四、不同形态的小脑控制实战

小脑运控虽然技术原理相通，但面对不同的本体形态（轮式底盘、足式底盘、机械臂），算法重点和控制逻辑存在显著差异。以下逐一剖析。

4.1 轮式底盘的运动控制

轮式底盘是结构最简单的移动形态，但其运动控制也有独特挑战。

核心任务：

轨迹跟踪：控制底盘按照给定路径（直线、圆弧、样条曲线）行驶
速度控制：平滑启停，避免急加速/急减速造成惯性冲击
障碍物绕行：根据激光雷达/深度相机数据动态调整路径

主流控制方法：

(1) PID/TEB + 运动学模型（工业AGV主流方案）
基于差速驱动或阿克曼转向的简单运动学模型，通过PID/TEB控制器实现路径跟踪。这是最成熟、最可靠、成本最低的方案，已在工厂AGV中广泛应用。

(2) 模型预测控制（MPC） （高动态场景）
当需要高速行驶或精确轨迹跟踪时，MPC通过预测未来状态来优化控制输入，比PID有更好的动态性能。例如，在脑-机接口控制轮式机器人的研究中，MPC被用来结合概率性脑-机接口以提高控制精度和效率。

(3) 强化学习（复杂环境自适应）
在非结构化环境（如户外的碎石、泥泞路面）中，强化学习训练的控制器展现出更强的鲁棒性，能够自动适应不同地面条件。

硬件要求：相对较低，通常采用嵌入式MCU/DSP即可实现实时控制，控制频率一般为100-500Hz。

4.2 四足/双足机器人的运动控制（Locomotion）

足式机器人的运动控制是实现难度最高的领域，涉及高度非线性、强耦合的动力系统和频繁的离散状态切换（单支撑相↔双支撑相）。

核心挑战：

动力学复杂性：人形机器人拥有30+自由度，每个关节运动都影响整体平衡；
接触动力学：足-地接触涉及力传递、摩擦和冲击，在不平整地面上更为复杂；
平衡控制：必须主动维持平衡，快速响应外部扰动——这也是为什么四足机器人在被猛踹一脚后必须瞬间计算重心偏移、调整关节力矩来恢复平衡；
能量效率：人类行走能效极高，而大多数双足机器人能耗远高于人类。

主流控制方法：

(1) ZMP + MPC + WBC经典范式（结构化平坦地面）
适合已知地面条件、对动作精度要求高的场景，如工厂巡检、楼梯攀爬。许多早期人形机器人（ASIMO、HRP-4C）采用此方案。

(2) 强化学习 + Sim-to-Real（当前主流）
这是当前学术和产业界最火热的技术路线，几乎所有我们看到的高动态机器狗动作（后空翻、跑酷、崎岖地形奔跑）底层都是这套RL范式。

典型流程：

在Isaac Sim/Isaac Gym中并行训练数千个agent；
设计线速度、角速度跟踪+能耗+存活率的复合奖励函数；
通过域随机化（摩擦系数、质量、地面摩擦等参数随机化）增强泛化性；
训练好的策略网络直接部署到真实机器人。

宇树科技、DeepRobotics等公司的机器狗产品普遍采用RL方案。2026年4月，有研究者开发出基于“运动本能”与“任务规划”融合的整合控制器，仅用深度相机就让四足机器狗在六类障碍物随机排列的场地中实现78%以上的通关成功率，最高冲刺速度达到3.2m/s。

(3) 模仿学习 + RL混合（新兴方向）
先用人类运动捕捉数据提供参考运动，再用RL在仿真中精调。TWIST系统是这一范式的代表：第一阶段通过重定向人类动捕数据生成参考运动片段，第二阶段使用RL+BC（行为克隆）训练一个稳健、自适应的全身控制器。

Locomotion知识体系全景

上述进展的背后，是一套日益成熟的Locomotion工程知识体系。以下从训练范式、动作空间、奖励工程、Sim-to-Real技术和感知层次五个维度，构建足式机器人小脑运控的完整知识地图。

（一）训练范式全景

范式	核心思想	典型方法	适用场景	优缺点
单阶段RL	策略直接从本体感知输入学习控制输出	PPO + 本体感知 + 域随机化	简单地形、速度跟踪	训练简单但泛化受限
Teacher-Student两阶段	Teacher用特权信息（地形高度、摩擦系数等）训练，Student仅用本体感知模仿Teacher行为	RMA、DreamWaQ、TAR	复杂地形（楼梯、碎石）	提升盲走能力但存在分布偏移
视觉驱动	直接在观测中加入深度/RGB图像，端到端学习	VMTS、Extreme Parkour、WMP	极限地形（跳箱、深沟）	可预测地形但Sim2Real更难
模仿+RL混合	先用人类动捕/视频数据提供运动先验，再用RL精调	AMP、TWIST、HumanX	风格化步态、类人运动	动作自然但需动捕数据
多范式协同	MPC/WBC提供参考轨迹 + RL处理扰动 + IL引入先验	Thor、Tien Kung-Lab	高强度全身运动	性能天花板高但工程复杂

Teacher-Student范式的关键地位：这是Locomotion领域最具统治力的训练范式。Teacher利用仿真中的"特权信息"（privileged information）——包括地形高度扫描、地面摩擦系数、外部扰动力、质量/惯量真值等——学习高性能运动策略。Student则仅依赖本体感知（IMU、关节编码器）来模仿Teacher的输出。关键技术包括：

历史观测编码：将过去N帧本体感知（通常50-100帧，约0.5-1秒历史）拼接或通过GRU/LSTM/TCN编码，使Student能"推断"地面状态；
对比表征对齐（如TAR，2025）：通过对比学习将Student隐空间与Teacher对齐，较传统行为克隆方法OOD泛化提升40%，训练加速2倍；
生成对抗迁移（如TMP，2025）：以Teacher运动分布为"先验"，通过GAN判别器让Student生成与Teacher分布一致的步态，同时解耦网络结构依赖；
VAE隐式估计（如DreamWaQ）：用变分自编码器将本体感知历史编码为环境隐变量，替代特权信息。

（二）动作空间设计

动作空间的选择对训练速度和最终性能有决定性影响（Peng et al.研究结论）：

动作空间	控制层级	训练速度	稳定性	扭矩/能耗效率	主流度
目标关节角度 + 底层PD	位置层	★★★★★	★★★★★	★★★	最主流（Sim2Real首选）
目标关节速度 + 底层阻尼	速度层	★★★★	★★★	★★★★	较少使用
直接关节力矩	力矩层	★★	★★	★★★★★	高物理仿真度场景
混合空间（不同关节用不同空间）	混合层	★★★★	★★★★	★★★★	新兴方向

为什么目标关节角度是主流选择？

训练平滑性：PD控制器天然提供"站立控制器"初始行为，而直接力矩控制从零力矩开始探索，初期几乎不可能站稳；
Sim2Real缓冲：PD控制器对仿真误差有天然容错——即使力矩估计有偏差，位置闭环仍能驱动关节到目标位置；
安全边界：tanh激活函数（有界输出）+ PD跟踪天然限制输出激进程度，减少实机振动和损坏风险；
实践中通常采用100-200Hz的控制频率，底层PD运行在1kHz以上。

（三）奖励函数工程

奖励函数设计是RL Locomotion中最耗时但也最关键的环节。典型奖励体系包含四大类：

类别	典型奖励项	权重策略	设计难点
命令跟踪	线速度跟踪MSE、角速度跟踪MSE、航向跟踪	固定高权重（主导项）	多命令（线速度+角速度+航向）冲突时的权衡
能量效率	关节力矩平方惩罚、关节速度惩罚、关节加速度惩罚、电机功率	课程化递增（训练初期低权重，逐步增加）	避免过度惩罚导致策略陷入局部极小（不动）
步态与运动质量	足端离地高度、空中时间、步态对称性、躯干姿态、足地接触时序	中等固定权重	与命令跟踪的平衡——过度强调步态会降低速度响应
安全与鲁棒性	碰撞惩罚、关节限位惩罚、躯干高度/倾斜限制、存活奖励	课程化（训练初期低，逐步严格）	约束设计不当导致策略过于保守，丧失动态性能

工程实践中的关键经验：

约束优于奖励（KAIST，2024）：将关键安全需求（如躯干倾斜角≤30°、足端力≤阈值）建模为约束而非奖励，只需调一个惩罚系数，显著减少调参工作量；
单项权重原则：优秀的奖励函数最终只需要1-2个主导项决定权重，其余用课程因子动态调整；
"不惩罚探索"原则：不要在训练初期对摔倒给过重惩罚，否则策略会选择"永远站着不动"的最优解。

（四）Sim-to-Real迁移技术栈

仿真到现实的迁移是Locomotion的关键瓶颈，当前已形成系统化技术栈：

技术层	具体方法	解决的问题	成熟度
域随机化（DR）	质量±30%、摩擦系数[0.2,1.5]、质心偏移、地面刚度/阻尼随机化	动力学参数不确定性	★★★★★（标配）
扰动注入	随机推力（0-200N）、随机力矩、基座速度扰动	外部扰动鲁棒性	★★★★
执行器网络	用神经网络建模电机PD响应、摩擦、反冲、延迟	电机建模误差（SEA执行器尤关键）	★★★★
系统辨识（SysID）	实测真实机器人质量、惯量、执行器响应曲线并回填仿真	仿真参数与真实的静态偏差	★★★
观测噪声注入	对IMU、编码器加高斯噪声、延迟随机化	传感器噪声	★★★★
地形课程	从平坦→波浪→台阶→离散障碍渐进式训练	泛化到未知地形	★★★★★
对抗域随机化（ADR）	用对抗网络自动寻找策略最薄弱的仿真参数分布	手动DR覆盖不到的极端情况	★★

（五）感知层次与演进路径

Locomotion的感知集成经历了清晰的代际演进：

第一代：Blind Locomotion（纯本体感知）
  └─ 输入: IMU + 关节编码器历史(0.5-1s)
  └─ 仅能通过"脚碰到的感觉"间接推测地形
  └─ 代表: RMA, DreamWaQ

第二代：Privileged → Proprioceptive蒸馏
  └─ 训练时Teacher有地形高度图(Scandots)
  └─ Student通过历史观测推断隐式地形表征
  └─ 代表: Teacher-Student范式主流方法

第三代：Scandots → Depth蒸馏 (Scandots-to-Depth)
  └─ Teacher用Scandots(特权地形扫描点)训练
  └─ Student用深度图像编码器替代Scandots
  └─ 代表: Extreme Parkour(CMU), WMP(SJTU), VMTS

第四代：端到端RGB/多视图视觉
  └─ 直接从RGB图像学习控制,无需中间地形表征
  └─ 代表: HumanX(从人类视频), EAGLE

当前产业落地仍以第一、二代为主，但学术前沿已全面迈向第三、四代——从"盲走"到"看见"是Locomotion最确定的进化方向。

4.3 机械臂的运动控制（Manipulation）

机械臂的控制聚焦于与物体的精细物理交互——抓取、插入、拧盖子、叠衣服等。与行走相比，操作面临的核心难点完全不同：极复杂的接触物理学（摩擦力与形变）、视觉遮挡和高维度（6DOF + 灵巧手可达20+DOF）。

核心任务：

轨迹规划：在关节空间或笛卡尔空间中规划避碰路径
力控/柔顺控制：精确控制末端力输出，实现阻抗/导纳控制
抓取规划：确定抓取点和抓取姿态
双臂协调：双臂之间的同步与协同（如传递物体）

主流控制方法：

(1) 基于模型的控制（工业场景成熟方案）

逆运动学（IK）+ 逆动力学（ID）+ 关节PID/前馈控制
笛卡尔空间阻抗控制：\(F = K_p(x_d - x) + K_d(\dot{x}_d - \dot{x})\)
MPC在机械臂中的应用（处理约束和预测性控制）

(2) 模仿学习（操作任务的王者方案）
在操作任务中，模仿学习目前比RL更占优势，因为：

操作任务的奖励函数极难定义（“成功插入USB”这个事件很难用数学表达式描述）；
存在大量高质量的遥操作数据。

主要方法包括：

Diffusion Policy：通过扩散生成轨迹，对复杂操作（拧瓶盖、叠衣服、炒菜）表现卓越。
ACT：对长序列任务进行分块动作预测，解决误差累积问题。
VLA模型：如π0、OpenVLA，直接从视觉+语言输出动作指令。

(3) 强化学习（正在渗透操作领域）
尽管RL在操作任务中尚不如模仿学习普及，但在以下场景中展现潜力：

灵巧手抓取（需要探索最优抓取策略）
力控任务（力觉反馈闭环）
双臂协作（需要协调策略）

典型案例：机械臂“用多大力气拿杯子、怎么拿才能稳当又不捏碎、移动过程中如何保持平衡——这些精细活，都是小脑在实时计算和调整”。天津大学开发的系统中，小脑正是基于强化学习的决策控制模块，负责具体动作的精准执行。

Manipulation知识体系全景

与Locomotion以RL为主导不同，Manipulation的知识体系以**模仿学习（IL）**为核心支柱。以下从数据体系、动作表征、策略架构、感知谱系、基准评测和数据缩放定律六个维度，构建机械臂操作领域小脑运控的完整知识地图。

（一）模仿学习数据体系

数据是Manipulation的第一性原理。当前已形成三级数据生态：

层级	代表数据集/平台	规模	格式标准	本体覆盖	下游模型
大规模聚合（L1）	Open X-Embodiment (OXE)	100万+轨迹 / 22种本体 / 527技能 / 60+子数据集	RLDS (TFRecord)	机械臂+四足+移动	RT-1-X, RT-2-X, OpenVLA, Octo
专项高质量（L2）	LeRobot / DROID	7.6万轨迹（DROID）/ 多数据集	Parquet+MP4	双臂ALOHA+移动操作+灵巧手	SmolVLA, LeRobot策略库
任务定制（L3）	单实验室采集	50-500条演示/任务	各异	单一平台	从零训练/微调

OXE的关键意义：Open X-Embodiment被视为机器人学的"ImageNet时刻"。它由21所研究机构联合构建，将60+个来源各异的机器人数据集统一为RLDS格式——核心贡献是证明了跨本体训练存在正迁移：在多机器人混合数据上训练的RT-X策略，其性能优于仅在单一机器人数据上训练的策略。这证明了具身智能领域的"scaling law"初步成立。

遥操作数据采集方式：

采集方式	代表性设备/系统	数据精度	采集效率	部署成本	适用任务
主从遥操作	ALOHA双臂系统、GELLO	★★★★★	★★★	中（开源硬件）	双臂协调、精细装配
手持式遥操作	UMI（Universal Manipulation Interface）	★★★★	★★★★	低（手机/手柄）	快速数据收集、Scaling Law研究
VR/AR遥操作	Apple Vision Pro + 逆运动学映射	★★★★	★★★★	中高	复杂灵巧操作
动捕全身映射	OptiTrack/Xsens → 人形机器人重定向	★★★	★★	极高	全身操作（TWIST范式）
键盘/3D鼠标	SpaceMouse + 键盘微调	★★★	★★★★	极低	简单Pick-and-Place
人机协同（HITL RL）	人工实时纠正RL策略（UC Berkeley/DeepMind）	★★★★★	★★	高（需专家实时参与）	困难探索任务

LeRobot生态的工程创新：HuggingFace的LeRobot项目将数据集格式从TFRecord升级为Parquet + MP4/AV1压缩视频，存储降低5-10倍，加载速度显著提升，成为PyTorch生态下的事实标准。

（二）动作表征设计

机器人的动作表征直接影响策略学习的难度和泛化性：

表征维度	选项A	选项B	选项C	主流趋势
参考系	绝对位姿（世界坐标系）	增量/相对位姿（当前EE为原点）	混合（部分关节绝对+EE增量）	B为主流（更好泛化）
控制空间	笛卡尔空间（末端位姿6DoF+夹爪）	关节空间（各关节角度/力矩）	混合（末端+关键关节）	A为模仿学习主流
动作粒度	单步（1帧）	分块/Chunking（16-64帧）	可变长	B为主流（ACT/Diffusion Policy）
输出形式	回归均值（确定性）	分布生成（扩散/流匹配）	离散化分类	B为主流（多模态）
物理统一	标准化归一化	物理可解释统一动作空间	Float Tokenization	B（如RDT-1B跨46+异构数据集）

为什么Chunking + 扩散生成是主流组合？

多模态分布：同一任务的解法不唯一（如"先左手还是先右手"），扩散模型天然对多模态分布建模，避免了回归均值导致的"动作平均化/冲突"；
时序一致性：分块预测16-64帧动作，天然保证动作序列的平滑性和物理合理性；
闭环执行：只执行块中前k帧（通常2-4帧），然后重新生成，实现高频重规划。

动作Token化的前沿：双臂VLA模型（如RDT-1B）引入动作VQ-VAE，将16维双臂动作×50步压缩为32个token，大幅降低自回归解码的计算开销。关键优势是学到的token对应"有物理意义的动作模式"而非"盲目的数值分箱"。

（三）策略架构谱系

架构家族	核心机制	代表模型	参数规模	开闭源	核心优势
扩散策略	条件去噪扩散过程	Diffusion Policy, RDT-1B(1.2B), 3D Diffuser Actor	10M-1.2B	开源	多模态表达力最强，操作任务王者
自回归Transformer	逐帧预测动作序列	ACT, GR-1, GR-MG	100M-500M	部分开源	长序列任务，时序依赖建模
VLA大模型	VLM + 动作头	OpenVLA(7B), π0(≈3B), RT-2-X, Octo	1B-55B	OpenVLA/Octo开源	零样本泛化、语言指令理解
流匹配策略	连续归一化流 (CNF)	PhysiFlow	100M-300M	研究	生成速度极快（较自回归快126倍）
3D感知策略	3D体素/点云→动作	VolumeDP, RVT, PerAct	20M-200M	部分开源	空间推理精度高，LIBERO SOTA 88.8%
分层策略	高层VLM+底层运动	LeVERB, WholeBodyVLA	1B-10B	研究	Loco-Manipulation的核心范式

VLA模型的工程内核：OpenVLA(7B)是目前最具影响力的开源VLA模型，融合SigLIP+DinoV2双视觉编码器，以Llama 2 7B为主干，将动作token化为离散标签。仅需10-150条演示+LoRA微调即可适配新机器人——微调参数量仅1.4%（全量）却能匹配全量微调性能。

（四）感知谱系

Manipulation的感知远比Locomotion复杂——物体姿态、接触力、遮挡状态都是关键：

感知模态	传感器	解决的核心问题	数据维度	技术难点
2D RGB	多视角RGB相机	物体识别、语义理解、场景上下文	(H,W,3)	2D→3D动作映射的错配（VolumeDP的核心改进方向）
深度/3D	RGB-D相机、结构光	物体位姿估计（6DoF）、避碰路径、抓取姿态	点云(N,3) / 体素	遮挡后完全失效
触觉（Tactile）	GelSight、力传感器	接触检测、滑移检测、物体在手中位姿跟踪（In-Hand）	触觉图像	高精度6DoF跟踪的漂移（InvariantCloud方案：亚2°偏航误差）
力控反馈	六维力/力矩传感器(F/T)	装配插入力、抓取力安全边界	(6,)	阻抗控制参数在线调整
视觉-触觉融合	RGB-D + Tactile	遮挡场景下的物体位姿，ICP+加权点云对齐	多模态融合	异质传感器的数据对齐和权重分配

视觉-触觉融合的新范式（RDP, RSS 2025 Best Student Paper Finalist）：

"慢-快"双层架构：底层扩散策略(_{10Hz)生成高层动作块，上层非对称分词器利用触觉/力觉反馈实现高频(}50Hz)闭环控制；
在面对人为扰动（推、拉物体）时，闭环触觉反馈使策略能实时调整力/位置输出——这是纯视觉策略无法做到的。

（五）基准评测矩阵

当前Manipulation领域的主要评测基准：

基准	规模	核心评测能力	当前SOTA	局限
LIBERO	130任务	终身学习、跨任务迁移、长序列（5+步）	RT-X 3.0: 81% (LIBERO-100); VolumeDP: 88.8% (LIBERO-90)	仿真渲染简化，缺乏真实物理
CALVIN	34任务、长序列(1-5条指令连续执行)	语言条件化长期规划（最关键能力）	FLOWER: Avg.Len 4.35 (D→D); UniVLA: Avg.Len 4.63 (全→D)	场景多样性受限
ManiSkill3	高自由度灵巧操作	Sim2Real可部署性、灵巧手控制	活跃研究中	对新手门槛高
VLABench	100任务（60基础+40复合）	复杂场景理解、多步逻辑推理、世界知识迁移、长程规划	2025新兴基准	SOTA尚低
SIMPLER	真实机器人验证	Sim到Real的镜像评估	主流VLA模型对比	一个指标不够全面
RoboSuite/Meta-World	50基础操作任务	多任务RL基础能力	Pick-and-Place已"解决"（>95%）	长序列仍是<50%

基准的核心发现：

Pick-and-Place已基本解决（>95%成功率），不再是研究热点；
长序列操作（Long-Horizon Manipulation）仍是硬骨头——所有已知VLA模型均<50%成功率；
跨本体迁移的正迁移现象已得到验证（Open X-Embodiment + RT-X），但迁移效率仍需提升；
VLABench代表的"多步逻辑推理+世界知识"维度的评测正在成为新焦点。

（六）数据缩放定律

2024年底清华大学的研究系统性地揭示了Manipulation的数据Scaling Law：

多样性远比数量重要：策略泛化性能与环境/物体数量的关系近似幂律分布（power-law relation），而单一环境/物体的演示数量超过一定阈值后几乎无效；
高效采集策略：4个数据采集者工作一个下午收集的数据，即可让2个任务达到约90%未知环境+未见物体的成功率；
模型规模也起作用：在数据多样性充足的前提下，增大策略网络参数量能持续提升性能；
产业启示：氧化操作数据（Pick-and-Place、开抽屉等简单任务）已"商品化"，未来数据价值在于高精度专家数据、长序列移动操作、灵巧手In-Hand操作等物理复杂度高的稀缺数据。

4.4 Loco-Manipulation：移动操控一体化的新前沿

传统上，locomotion（移动）与manipulation（操作）被视为两个独立的控制问题，分别由不同的算法模块处理。然而，真实世界中的任务往往要求机器人边走边做——例如走到货架前抓取货物、蹲下捡起地面物品、边行走边开门等。这种**全身移动-操控一体化（Loco-Manipulation）**正成为2025-2026年具身智能小脑领域最具挑战性的前沿方向。

核心挑战

Loco-Manipulation的难点不在于单一技能，而在于行走与操作必须在同一任务中长期、稳定地协同发生：

移动与操控的"两张皮"：导航模块负责"走"，操控模块负责"抓"，两个系统各自为政。机器人要"边走边抓"时，导航只规划行走路径，完全不管手部动作；操控只计算抓握力矩，不顾及身体重心偏移。误差不断累积导致长距离、多步骤任务几乎必败。
数据成本的"天花板"：全身协同动作依赖专业动捕设备、人工遥操作采集数据，一套完整的"行走+抓取+放置"数据成本可能高达数万元，且数据集极度稀缺。
频率与推理的"错配"：高层视觉-语言推理（VLA）的速度只有10Hz，而底层动力学控制需要至少50Hz的高频输出才能保证稳定——就像大脑每秒只发10次指令，身体却要每秒做出50次调整，动作必然卡顿、失衡，甚至摔倒。

五大里程碑工作（2025-2026）

（1）LeVERB（UC Berkeley，2025.06）——分层架构定调

LeVERB的核心思路是：不要让高层语义直接对接底层控制，而是加一个"中间层"。系统被拆分为两个独立但协同的子系统：

高层LeVERB-VL（System 2，10Hz）：基于CVAE构建，输入视觉场景和语言指令，输出"潜动作向量（latent verb）"——如"下蹲+向前伸手+抓握"的抽象表征。训练完全不用真机遥操作，靠合成渲染的虚拟场景+文本标注完成，大幅降低数据成本。
底层LeVERB-A（System 1，50Hz）：轻量级全身控制器（WBC），用Transformer+强化学习训练，只接收高层的"潜动作向量"，输出高频力矩指令。不依赖视觉输入，只靠本体感知（proprioception）保证50Hz稳定输出。

关键创新在于"潜动作词汇表"——给高层语义和底层控制搭建了"翻译词典"，既解决了10Hz和50Hz的频率错位，又让底层控制器具备了语义理解能力。

（2）SONIC（NVIDIA，2026.02）——仿真到现实的闭环

SONIC框架聚焦于解决Sim-to-Real的迁移难题。通过引入物理感知的域随机化和自适应扰动注入技术，SONIC在Isaac Sim中训练的策略能够零样本迁移到真实人形机器人上。其核心贡献在于：

提出"渐进式难度课程"，从平坦地面逐步过渡到复杂地形，让策略自适应学习环境的不确定因素；
采用"双编码器"架构，分别处理本体感知信号和视觉信号，避免模态间的信息干扰；
在真实机器人上验证了连续行走+抓取的一体化能力，为工业场景部署提供了可行路径。

（3）WholeBodyVLA（智元AGIBOT / 港大 / 复旦，2025.12）——VLA驱动全身协同

WholeBodyVLA首次将VLA技术扩展到双足人形机器人的全身控制，验证了其在全身loco-manipulation任务中的可行性。针对真机数据稀缺问题，引入两项关键创新：

从人类视频中学习：通过从第一视角人类视频中学习移动与操作的潜在动作表示，模型能够不依赖大规模机器人遥操数据，直接获取对loco-manipulation行为的统一语义理解。
面向移动操作的RL控制器（LMO）：将通用连续运动控制目标简化为一组离散运动指令（前进、侧移、转向、下蹲），仅保留loco-manipulation必要的强化学习训练目标，显著提升了控制器在运动执行时的稳定性。

在智元灵犀X2人形机器人上的实验表明，WholeBodyVLA能够完成大范围长程移动操作，具备距离泛化性、操作泛化性和地形泛化性。

（4）PhysiFlow（2026）——流匹配驱动的实时全身控制

PhysiFlow用流匹配（Flow Matching）算法替代传统的自回归生成，直接生成50Hz的动作块，推理延迟仅18.65ms，速度比自回归模型提升126倍。其架构模仿人类神经系统分工：

大脑皮层（10Hz）：VLM负责高层语义理解与任务规划；
基底神经节（50Hz）：流匹配网络负责动作规划；
小脑（1000Hz）：PD跟踪控制器负责精准执行。

这种分层频率架构解决了VLA模型直接输出底层控制指令导致的延迟问题，同时保持了端到端训练的便利性。

（5）ULC（Unified Loco-Manipulation Controller，2026）——统一策略的端到端控制

ULC提出了一种单一策略框架，同时跟踪根速度、根高度、躯干旋转和双臂关节位置，以端到端方式实现统一控制，而无需牺牲性能。与将控制分解为独立的上下半身策略的分层架构不同，ULC证明单一统一策略可以实现跟踪精度、大工作空间和鲁棒性的结合。关键技术包括：

顺序技能获取：渐进式学习复杂度；
残差动作建模：细粒度控制调整；
命令多项式插值：平滑运动过渡；
随机延迟释放：增强鲁棒性；
负载随机化：泛化到外部扰动；
质心跟踪：提供显式策略梯度以维持稳定性。

在Unitree G1人形机器人上的验证表明，ULC相比解耦方法具有更好的跟踪性能和更大的工作空间覆盖率。

技术趋势总结

工作	时间	机构	核心贡献	控制频率
LeVERB	2025.06	UC Berkeley	潜动作词汇表+分层控制	10Hz/50Hz
SONIC	2026.02	NVIDIA	渐进式课程+双编码器	50Hz
WholeBodyVLA	2025.12	智元/港大/复旦	人类视频学习+LMO控制器	10Hz/50Hz
PhysiFlow	2026	研究机构	流匹配+三层频率架构	10Hz/50Hz/1kHz
ULC	2026	研究机构	统一策略端到端控制	50Hz

从上述工作可以看出，当前loco-manipulation领域呈现出三大技术趋势：

分层解耦成为共识：高层语义理解（10Hz）与底层运动控制（50Hz-1kHz）分离，通过"潜动作"或"latent verb"等中间表征桥接，既解决了频率错配问题，又保留了系统的可解释性。
数据效率大幅提升：从依赖昂贵的真机遥操作数据，转向从人类视频、合成渲染场景中学习，显著降低了数据获取成本。
统一策略优于解耦策略：ULC等最新研究表明，端到端的统一控制策略在跟踪精度和工作空间覆盖率上优于传统的上下半身解耦方案，这代表了小脑控制器设计的重要演进方向。

4.5 不同形态控制的对比总结

维度	轮式底盘	四足/双足机器人	机械臂	全身移动操控（Loco-Manipulation）
自由度	2-3	12-30+	6-20+	30+（全身协调）
控制频率	100-500Hz	500-2000Hz	500-2000Hz	10Hz/50Hz/1kHz分层
核心难题	轨迹跟踪精度	动态平衡+地形适应	精细力控+柔性交互	移动与操作协同+全身平衡
主导方法	PID+MPC	RL+Sim-to-Real	模仿学习+力控	分层VLA+RL/WBC统一策略
Sim-to-Real难度	低	中（步态）	高（接触物理）	极高（全身耦合）
代表性硬件	AGV/AMR	Atlas/Optimus/宇树/小米CyberDog	Franka/Kinova/达明/灵巧手	智元灵犀X2/宇树G1/天工
开源项目	ROS Navigation	OpenLoong/萝博派对/Unitree RL GYM	RoboTwin/ALOHA	WholeBodyVLA/ULC/LeVERB

五、开源生态：从学习到实践

5.1 学习资源与指南

Embodied-AI-Guide（GitHub Stars 10,000+）：国内最热门的具身智能中文知识库与资料索引，定位“百科全书”。涵盖从入门到深入的全方位内容，并包含RoboTwin 2.0动手教程（完成至少需要16GB显存）。
ScaleLab具身智能入门指南：上海交大ScaleLab整理的具身智能前沿研究导览，覆盖VLA模型、仿真平台和人形机器人运动/模仿学习等关键方向。
Datawhale Easy-Embodied：面向新手的具身智能学习项目。

5.2 关键开源项目与平台

（1）全栈开源平台

OpenLoong（人形机器人（上海）有限公司）
OpenLoong是当前最具影响力的全栈开源人形机器人项目之一，整体架构从下至上依次为：具身数据 → 具身实体 → 具身小脑 → 云端大脑。其具身小脑层是整个平台的核心，包含：

具身智能子系统集：遥操控、模仿学习、强化学习等软件包
全身动力学子系统集：动力学仿真、全身动力学控制、数据记录与中间件支持

OpenLoong的突出贡献在于：

硬件全开源（公版人形机器人图纸、BOM表）
标准化分布式总线（EthanCat）
虚实迁移一致性保障
支持模仿学习和强化学习的训练部署全流程

萝博派对（RoboParty）Roboto Origin
2025年用120天实现“从0到跑起来”的传奇项目，2026年1月在GitHub全栈开源，包括硬件结构、运控算法到工程化流程。是全球少数实现“全栈开源+可复现”的人形机器人项目。

（2）小脑运动控制专项

北京人形机器人创新中心——XR-1
面向具身小脑能力的VLA模型，与RoboMIND 2.0数据集和ArtVIP配套发布，旨在为具身小脑提供通用动作能力。

桥介数物——通用机器人“小脑”
国内少数专注提供通用型运动控制解决方案的商业公司，攻克人形、四足及轮足等各类机器人的运动控制难题。其方案通过Sim2Real训练，为用户提供“按需调用”的基础运动控制模块。

小米Xiaomi-Robotics-0
采用“大脑+小脑”混合架构的VLA大模型，在仿真和真机任务中均获优异成绩，2026年2月开源。

（3）仿真与训练平台

RoboTwin 2.0：双臂机器人自动化数据合成与评测平台，提供50个双臂任务和主流操作策略集成。
NVIDIA Isaac Sim/Lab：强化学习训练的核心仿真平台，提供域随机化和并行训练能力。
RoboVerse：仿真平台集成框架，统一多种仿真器和训练工具。

（4）跨本体协作框架

北京大学发布的RoboOS——业内首个跨本体具身大小脑协作框架，搭配开源具身大脑RoboBrain，可实现跨场景多任务轻量化部署与跨本体协作，将单机智能推向群体智能。这是具身智能从单体走向群体的重要基础设施。

六、未来展望：从“双脑分离”到“端到端融合”

6.1 大小脑深度融合

当前“大脑+小脑”的分层架构虽然工程上实用，但本质上是一种解耦简化。未来趋势是向端到端感知-控制方向发展：

VLA模型正在模糊大脑和小脑的边界，直接从视觉+语言输出底层动作；
多模态大模型开始内化部分运动控制能力。

6.2 通用小脑的梦想

“通用小脑”意味着一个统一的运动控制模型，可以控制不同形态、不同自由度的机器人本体：

桥介数物提出“按需调用基础运动控制模块”
北京人形机器人创新中心开源XR-1小脑模型
Skild AI展示跨形态、跨本体的通用控制能力

6.3 力控与运控的统一

随着力位混合控制技术的成熟，力控与运控的界限将逐渐模糊，最终走向统一框架。“力位解耦控制”代表了这一方向：在任务空间中根据接触状态动态分配力控制与位置控制子空间。

6.4 数据飞轮驱动迭代

从传统的“手工调试参数”迈向“数据驱动迭代”：

真机运行数据持续回流，微调模型
世界模型合成训练数据补充真实数据缺口
多机器人共享数据池，群体加速学习

6.5 轻量化与边缘部署

通过模型量化、知识蒸馏等技术，将复杂的控制策略压缩到嵌入式平台，实现低功耗、低延迟的边缘推理——这是大规模商用的必经之路。

参考资源一览

类别	资源名称	链接/说明
知识库	Embodied-AI-Guide	GitHub: tianxingchen/Embodied-AI-Guide
知识库	ScaleLab具身智能指南	scalelab-sjtu.github.io/embodied_guide
开源平台	OpenLoong	GitHub: loongOpen/openloong
开源平台	萝博派对（RoboParty）	首个全栈可复现人形机器人
开源模型	XR-1（北京人形）	具身小脑VLA模型
开源模型	Xiaomi-Robotics-0	小米大脑+小脑混合架构
开源模型	OpenVLA / π0 / RDT-1B	操作VLA基础模型
仿真平台	RoboTwin 2.0	双臂自动化数据合成与评测
仿真平台	NVIDIA Isaac Sim/Lab	RL训练与Sim-to-Real
框架	RoboOS + RoboBrain	跨本体大小脑协作框架（北大）
商业方案	桥介数物	通用机器人“小脑”运控方案
商业方案	阿普奇KiWiBot	双域融合控制器
商业方案	智微智能	Jetson Thor大脑 + Core Ultra小脑