lerobot 复现
lerobot 复现
一、 实验目的 (Experiment Goal)
本实验旨在通过 LeRobot 框架与 SO101 主从机械臂,验证从硬件交互到数据存储的完整 Pipeline。
核心任务:通过 Teleoperation(远程操作)采集用于 ACT 算法的离线数据集。
核心目标:验证数据的平滑性、同步性以及针对模仿学习的可学习性。
二、 实验系统配置 (System Setup)
-
硬件环境
主臂 (Leader):用于人类操作输入,捕捉关节指令。
从臂 (Follower):执行端,配备 Gripper (夹爪)。
视觉:Hand-eye 摄像头(OpenCV 驱动),提供第一人称视角。
-
软件环境
框架:LeRobot
可视化:rerun.io (用于多维数据实时回放与分析)。
技术栈:Python 3.10, TCP Streaming。
三、 数据采集方式 (Data Collection)
使用 lerobot.record 脚本进行实时采集,主要记录以下模态数据:
State (状态):从臂反馈的真实关节角 (observation.xxx.pos)。
Action (动作):主臂下发的期望指令 (action.xxx.pos)。
Vision (视觉):相机图像流 (observation.handeye)。
⚠️ 注意:本次实验仅采集约 10 组 Episode,属于极小规模数据集。
四、 Rerun 可视化诊断 (关键分析)
- 数据流分布 (Streams)
在 Rerun 界面左侧,可以清晰看到各通道的活跃度。重点在于 TCP Server 的稳定性,如果数据包大小波动过大,可能意味着网络层存在丢包或延迟。
2. 时间序列曲线分析 (TimeSeries)
通过对比 observation(实际位置)与 action(指令位置):
同步性检查:正常情况下,observation 应跟随 action,且带有微小的时间滞后(System Latency)。
异常特征:实验图中出现了密集的高频尖峰(Spikes),尤其在 Wrist(手腕)和 Gripper(夹爪)关节。
结论:这表明主臂采集到的动作信号含有大量的人手震颤或编码器噪声。
- 视觉与动作的关联性
右侧 Hand-eye 画面显示,在接近目标物体时,存在明显的“犹豫”和“微调”动作。这种视觉状态未变但动作大幅震荡的情况,是模仿学习的“毒药”。
五、 问题深度诊断 (Problem Analysis)
-
时间抖动量 (Jitter)
成因:人手在 teleop 时不可避免的生理性微颤,以及主从臂映射算法中缺乏低通滤波。
后果:ACT 算法会尝试学习这些“高频噪声”,导致模型推理时机械臂出现不正常的抽搐。
-
演示非专家化 (Non-Expert Demo)
成因:操作者在抓取前的反复修正。
思考:Imitation Learning 的假设是
Action=f(Observation)
Action=f(Observation)。当同一个视觉位置对应多个方向的修正动作时,模型会因“多峰分布”而产生困惑(Regression Averaging),最终表现为“抓不准”。
-
数据量与泛化能力
现状:10 组数据。
判断:对于基于 Transformer 的 ACT 来说,10 组只能实现对特定轨迹的“硬背”,一旦物体位置偏移 1 厘米,模型大概率会失败。
六、 💡 AI 助手的思考与进阶建议
- 关于“干净数据”的哲学
在具身智能领域,10 组高质量(平滑、果断)的数据,远比 100 组低质量(抖动、犹豫)的数据更有价值。
建议:在采集时,宁可动作慢,也要保证动作的单调性(即一旦决定闭合夹爪,就不要再中途松开)。
- LeRobot 的工程改进
你可以在数据进入记录器之前,在代码层加入一个简单的平滑滤波器:
指数移动平均 (EMA):对主臂的 action 进行平滑,过滤掉高频震颤。
Deadzone (死区):过滤掉人类细微的、非意图的位移。
- 训练策略:数据增强
既然数据只有 10 组,在训练时必须开启强力的图像增强(Color Jitter, Random Crop),否则模型会过度拟合背景中的固定光影。
4. 下一步实验方案
目标 方法
消除抖动 采用“慢动作采集法”,人为降低 Teleop 速度。
提高泛化 保持目标物体在相机视场内的不同象限分布。
验证 Pipeline 即使只有 10 组,也要跑通 lerobot.train,观察 Loss 曲线是否收敛。
七、 实验总结
结论:本批次数据属于 “Pipeline 验证级” 数据,不建议用于最终任务部署。
价值评估:这次实验最成功的点在于你通过 Rerun 发现了数据质量问题。在机器人学习中,能通过可视化手段定位到“数据抖动”和“动作犹豫”,就已经跨过了最难的一道坎。接下来的重点应放在**“规范化演示”和“数据预处理”**上。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)