7天掌握LeRobot：机器人学习新利器

本文是「7 天上手 LeRobot」系列的第 1 篇，主要回答三个问题：1）LeRobot 从哪来？2）它在机器人学习生态里的地位和作用是什么？3）它的整体框架长什么样？

m0_66230761 · 2025-12-01 19:36:22 发布

本文是「7 天上手 LeRobot」系列的第 1 篇，主要回答三个问题：
1）LeRobot 从哪来？
2）它在机器人学习生态里的地位和作用是什么？
3）它的整体框架长什么样？

如果对 Hugging Face 有了解，会知道它靠 Transformers 库把 NLP 的模型和预训练权重做成了“标准件”；而 LeRobot 可以理解成 Hugging Face 想在机器人领域做的一次类似尝试。

官方的定义大致可以概括为：

LeRobot 是 Hugging Face 开源的机器人学习库，提供 模型、数据集、仿真环境和端到端训练/部署工具，目标是让现实世界的机器人学习更易用、更可复现。

它有几个关键词值得标出来：

LeRobot 在 Hugging Face 官方的 机器人课程（Robotics Course） 中被作为主力工具贯穿使用，从“传统机器人学”讲到“基于数据和大模型的机器人学习”，都是围绕 LeRobot 展开的。

在 LeRobot 之前，机器人学习一般长这样：

结果就是：你花在“接线+写 glue code”上的时间，远大于花在“设计算法和调参”上的时间。

Hugging Face 在 2024 年左右正式推出 LeRobot，希望做一件类似当年 Transformers 在 NLP 里做的事：

把“模型 + 数据集 + 环境 + 训练代码”打包成一个标准化的生态，降低机器人学习的进入门槛。

从公开资料里可以看到的大致演进：

2024 年：LeRobot 正式对外发布，被称为「面向现实世界的第一个开源机器人学习库之一」，主打统一格式的机器人数据集 + 模仿学习/RL 模型实现。
2024–2025 年：
- 发布了 LeRobotDataset 数据格式，配套的 HF 博客详细讲了如何用视频编码把机器人数据做得既小又好用。
- 开始接入各种真实机器人（比如 SO-100 / SO-101）、仿真平台（Isaac、LIBERO、MetaWorld 等）。
2025 年 v0.4.0：这是一个比较大的里程碑版本，引入：
- LeRobotDataset v3.0：为 OXE、DROID 这类几百 GB 甚至 TB 级别数据集设计的分块 + 流式格式。
- 新一代 VLA（视觉-语言-动作）模型，比如 π0.5、GR00T N1.5 等。
- 新的插件系统，简化硬件对接；增加对 LIBERO、MetaWorld 等仿真套件的支持。
- 官方推出完整的 机器人学习课程 和长篇 Tutorial（《Robot Learning: A Tutorial》），都以 LeRobot 为实战库。

可以看到，LeRobot 不是“一个单独的仓库”，而是在逐渐变成 机器人学习生态：从硬件到仿真，从数据集到模型，从课程到社区。

如果你之前接触过 RL 或机器人，可能用过：

LeRobot 的定位有点像：

把“Gym + RL 库 + 数据集格式 + 真机控制”的功能合在一个统一的、以 Hugging Face Hub 为中心的框架里。

具体来说，它在生态里做了几件“补位”的事情：

标准化机器人数据集格式（LeRobotDataset v3.0）
- 支持 多模态（状态、图像、多机位视频），用视频编码 + Parquet 元数据的方式把容量压缩到原始的十几分之一甚至更少。
- 显式支持 多百万条 episode + 流式读取，对大规模开放数据集（OXE、DROID）非常友好。
模型和策略的“模型库化”
- 不只是 ACT 这种模仿学习策略，还有以 视觉-语言-动作（VLA） 为代表的通用机器人策略，如 π0、π0.5、GR00T N1.5 等。
EnvHub：社区驱动的仿真环境中心
- 可以把自己的仿真环境上传到 Hub，然后用一行代码加载：
```
from lerobot.envs.factory import make_env 
env = make_env("lerobot/cartpole-env", trust_remote_code=True)
```
- 这样做的好处是：环境和数据集、模型一样被版本化和分享，可以快速复现实验。
和真实机器人硬件强绑定
- 官方重点支持 SO-100 / SO-101 等开源机械臂，并提供从组装、标定、遥操作、录制数据、训练、推理的一整套教程。
- 通过像 LeIsaac、phosphobot 这样的配套项目，打通 真机 ↔ 仿真 ↔ 数据集 ↔ 大模型 的闭环。

总结一句：

LeRobot 把原来散落在各处的“机器人学习基础设施”尽量统一到一个可复用的框架里，既方便研究，也方便工程落地。

为了后面几天好展开，我们先用一个“逻辑架构图”来认认门：

简单拆一下模块：

环境与硬件层
- 真机：SO-101、Koch 等机械臂，通过 robot_devices 接入。
- 仿真：通过 EnvHub 加载各种环境，包括基于 IsaacLab 的 LeIsaac 场景。
数据采集层
- 遥操作（teleoperation）：人用 Leader 臂、手柄、VR 等控制机器人。
- 录制（record）：把机器人状态、动作、相机图像等保存成 LeRobotDataset 格式，为后续训练做准备。
数据集层：LeRobotDataset v3.0
- 统一的 时间序列 + 多模态 数据结构，可直接被 PyTorch DataLoader 使用。
- 支持大规模、多 episode 的流式训练。
Processor 层
- 负责把“原始数据字典”转成“模型需要的张量结构”，包括归一化、裁剪、重命名字段、tokenization 等。
策略 / 模型层
- 各种基于模仿学习、强化学习或 VLA 的策略，比如 ACT、π0、π0.5、GR00T N1.5 等，可直接在 Hub 上获取或微调。
训练 & 推理流水线
- 官方提供了训练、评估、推理脚本和命令行工具，能在多 GPU 上训练，也能跑在 Jetson 等边缘设备上执行策略。