【论文自动阅读】DataMIL : Selecting Data for Robot Imitation Learning with Datamodels
本文提出DataMIL框架,基于数据模型范式,通过策略自身识别能提升机器人模仿学习性能的数据,用任务特定数据的替代损失函数避免昂贵的环境推演,在60多个模拟和现实操作任务中验证其有效性,提升任务成功率且优于多个基线方法。
·
DataMIL 相关信息梳理
快速了解部分
基础信息(英文):
- 题目:DataMIL : Selecting Data for Robot Imitation Learning with Datamodels
- 时间年月:2025年5月
- 机构名:UT Austin(得克萨斯大学奥斯汀分校)、MIT(麻省理工学院)、Stanford University(斯坦福大学)
- 3个英文关键词:Imitation Learning、Data Curation、Large Robot Datasets
1句话通俗总结本文干了什么事情
本文提出DataMIL框架,基于数据模型范式,通过策略自身识别能提升机器人模仿学习性能的数据,用任务特定数据的替代损失函数避免昂贵的环境推演,在60多个模拟和现实操作任务中验证其有效性,提升任务成功率且优于多个基线方法。
研究痛点:现有研究不足 / 要解决的具体问题
- 机器人领域通用策略虽在多种任务上平均性能良好,但在单个特定任务上表现欠佳,需用新获取的任务特定数据进一步调优,而将任务特定数据与大型先前数据集的精选子集结合协同训练时,随意选择数据可能损害下游性能。
- 为训练高性能模型选择数据难度大,若要测试每个数据子集需重新训练和评估模型,在机器人领域因评估涉及现实世界中的策略推演,耗时且有风险,难以实现。
- 以往机器人数据选择方法依赖启发式规则(如语言描述、视觉、运动或状态 - 动作对相似性),未考虑数据点对策略性能的实际影响,存在局限性。
- 自然语言处理和计算机视觉领域基于数据模型的高效数据选择框架,因机器人策略学习需现实世界推演,评估不可行,难以直接应用于机器人领域。
核心方法:关键技术、模型或研究设计(简要)
- 提出DataMIL框架,基于数据模型范式,以端到端方式进行数据选择,利用策略自身识别能最大程度提升性能的数据点,直接针对任务成功优化数据选择,筛选出提升策略性能的数据,剔除损害性能的数据。
- 引入任务特定数据的新型替代损失函数,避免选择过程中在环境中进行昂贵的推演,使DataMIL可在现实世界中应用且不降低性能。
- 采用两种数据模型估计方法:回归估计器和基于元梯度的估计器,均以线性形式近似模型训练结果,通过计算数据重要性得分实现数据选择。
- 对训练数据进行聚类(如子轨迹、任务、整个领域聚类),减少单个数据点影响估计的噪声;在数据模型估计中加入部分目标任务数据,减少分布偏移,提升数据选择的可靠性和适用性。
深入了解部分
相比前人创新在哪里
- 首次将数据模型框架扩展到机器人模仿学习领域,解决机器人领域特有的数据选择挑战,以往数据模型主要应用于自然语言处理和计算机视觉,未有效适配机器人领域的现实推演需求。
- 提出替代损失函数作为代理指标,无需额外推演且完全可微,替代传统依赖现实世界推演的真实目标指标(如成功率),解决机器人领域评估成本高、不可微的问题,使数据模型估计可行。
- 采用端到端、性能感知的数据选择方式,直接估计每个数据点对最终任务成功的影响,而非依赖启发式规则,更能准确筛选出对策略性能有积极作用的数据,避免传统启发式方法忽略数据实际影响的缺陷。
- 针对机器人数据特点进行聚类处理和分布偏移缓解,提升数据模型估计的准确性和稳定性,传统方法未针对机器人数据的序列性和异质性进行此类优化。
解决方法/算法的通俗解释,以及具体做法
通俗解释
DataMIL就像为机器人模仿学习挑选“优质学习资料”的智能工具。它先通过两种方法(回归和元梯度)给每个数据点打分,判断其对提升机器人特定任务性能的重要性。为避免在现实中反复测试机器人(即推演)的高额成本,用任务相关数据的损失值作为替代指标来评估数据好坏。还会把相似的数据归为一类,减少单个数据评估的误差,同时加入少量目标任务数据,让挑选的“资料”更贴合当前任务需求。最后挑选出得分高的优质数据,和目标任务数据一起训练机器人,提升机器人在特定任务上的表现。
具体做法
- 数据模型估计
- 回归估计器:从先前数据集中随机抽取N个子集,为每个子集训练策略并评估目标指标(如成功率),通过最小化预测值与实际评估值的平方和,计算每个数据点的重要性得分τ(z_i),公式为:{τ(z1),...,τ(zn)}:=argminτ∈Rn∑j=1N(∑j:zi∈Djτi−M(A(Dj)))2\left\{\tau\left(z_{1}\right), ..., \tau\left(z_{n}\right)\right\}:=arg min _{\tau \in \mathbb{R}^{n}} \sum_{j=1}^{N}\left(\sum_{j: z_{i} \in D_{j}} \tau_{i}-\mathcal{M}\left(\mathcal{A}\left(D_{j}\right)\right)\right)^{2}{τ(z1),...,τ(zn)}:=argminτ∈Rn∑j=1N(∑j:zi∈Djτi−M(A(Dj)))2。
- 基于元梯度的估计器:当目标函数M关于模型参数可微时,通过计算影响函数(一种经典统计量)来估计数据重要性,无需训练大量策略子集,仅需对先前数据集进行几次模型训练,大幅降低计算成本,数据模型预测形式为f^(D′)=∑zi∈D′τ(zi)\hat{f}\left(\mathcal{D}'\right)=\sum_{z_{i} \in \mathcal{D}'} \tau\left(z_{i}\right)f^(D′)=∑zi∈D′τ(zi)。
- 替代指标设计:定义代理指标M^(π,Dtarget)=1∣Dtarget∣∑(s,a)∈Dtarget−LBC(π(s),a)\hat{\mathcal{M}}\left(\pi, \mathcal{D}_{target }\right)=\frac{1}{\left|\mathcal{D}_{target }\right|} \sum_{(s, a) \in \mathcal{D}_{target }}-\mathcal{L}_{B C}(\pi(s), a)M^(π,Dtarget)=∣Dtarget∣1∑(s,a)∈Dtarget−LBC(π(s),a),其中LBC\mathcal{L}_{B C}LBC为行为克隆损失(如负对数似然损失、l1损失、扩散模型的去噪得分匹配目标),利用少量预留的目标任务演示数据计算,无需环境推演且可微。
- 数据聚类:根据数据集规模和特点,将训练数据按不同时间尺度聚类,如在中等规模数据集(如LIBERO)中采用子轨迹聚类,在大规模数据集(如OXE)中采用整个轨迹聚类,减少单个数据点影响估计的噪声。
- 分布偏移缓解:在现实世界场景(如OXE)中,将目标任务数据DtargetD_{target}Dtarget分成两半,一半与先前数据一起用于数据模型估计,另一半用于评估代理指标,使策略学习与目标领域更好对齐,减少分布偏移影响。
- 数据选择与策略训练:根据数据模型估计的聚类影响得分,选择排名前x%的先前数据形成DselD_{sel}Dsel,采用协同训练方法,在每个训练步骤中以概率α从DtargetD_{target}Dtarget采样,以概率1 - α从DselD_{sel}Dsel采样,训练下游策略π,其中α设为0.5在实验中表现良好。
基于前人的哪些方法
- 数据模型框架:借鉴自然语言处理和计算机视觉领域的DataModels框架,该框架通过近似目标指标与数据子集的关系,实现高效数据选择,避免大量模型训练和评估,DataMIL在此基础上针对机器人领域特点进行适配和扩展。
- 数据归因方法:基于机器学习领域的数据归因研究(如影响函数、TRAK方法等),通过估计数据对模型性能的影响来实现数据选择,DataMIL中的元梯度估计器就利用了影响函数的思想,准确计算数据重要性。
- 模仿学习与策略训练:基于传统的行为克隆(BC)方法,将选择后的数据与目标任务数据结合进行协同训练,协同训练思路参考了机器人学习中结合多源数据提升模型性能的相关研究(如BridgeData的跨域数据融合)。
- 数据聚类技术:借鉴计算机视觉和机器人领域中对数据进行聚类以减少噪声、提升数据利用效率的方法,如按任务、子轨迹等维度聚类,增强数据影响估计的稳定性。
实验设置、数据、评估方式
实验设置
- 任务场景:涵盖模拟和现实世界场景,共60多个机器人操作任务。
- 模拟场景:包括MetaWorld的50个机器人操作任务(7自由度Sawyer机械臂)、LIBERO基准的10个长周期任务(多样物体、布局和场景)。
- 现实世界场景:基于Open - X Embodiment(OXE)数据集,包含来自不同实验室、机器人、相机设置、光照条件和物体排列的异构数据,测试4个任务(Franka - Ball、Franka - Pouch、Tiago - Sink、Droid - Multitask),涉及两种机器人实体。
- 模型架构
- MetaWorld场景:使用基于车库(garage)框架的MLP策略,带有高斯动作头,考虑目标条件和无目标条件两种设置。
- LIBERO和OXE场景:使用语言条件的Octo模型(基于Transformer的扩散策略),初始化为预训练的Octo - Small checkpoint,加速训练。
- 训练参数
- MetaWorld:行为克隆策略训练,部分实验中因协同训练提升不明显,仅使用选择的数据DselD_{sel}Dsel训练,每个策略在3个随机种子上训练和评估。
- LIBERO:对Octo模型微调10k步,协同训练比例α = 0.5,每个策略在5个随机种子上训练,评估50次推演的成功率。
- OXE:对Octo - Small checkpoint微调50k步,协同训练比例α = 0.5,现实世界评估采用固定数量的推演(如Franka - Ball 14次、Franka - Pouch 17次等),部分任务(如Droid - Multitask)考虑完全成功和部分成功,部分成功权重为0.5,采用单个随机种子评估。
实验数据
- MetaWorld数据集:由脚本化专家策略生成的演示数据(4000个 episode,共350K环境步骤)和多任务SAC智能体的探索轨迹(1200万过渡样本,均匀子采样100万环境步骤)组成,每个目标任务使用5个专家演示作为DtargetD_{target}Dtarget。
- LIBERO数据集:先前数据集为LIBERO - 90(4500个人类遥控演示,每个任务50个演示),目标任务为LIBERO - 10的10个任务,每个目标任务随机采样5个演示作为DtargetD_{target}Dtarget。
- OXE数据集:使用OXE的子集(OXE13、OXE23、OXE24),包含多个子数据集(如RT1、BC - Z、Bridge等),目标任务数据通过遥控操作收集,不同任务的目标演示数量不同(如Franka - Ball 10个、Franka - Pouch 30个等),具体数据集构成和任务对应关系如下表:
|任务|实体|先前数据集|先前数据选择比例|目标演示数量|评估次数|
| ---- | ---- | ---- | ---- | ---- | ---- |
|Franka - Pick|Franka - Panda|OXE13|1%|10|14|
|Franka - Pouch|Franka - Panda|OXE23|0.75%|30|17|
|Tiago - Sink|Tiago|OXE24|0.5%|20|39|
|Droid - Multitask(Drawer)|Franka - Panda|OXE24|1%|10|10|
|Droid - Multitask(Bread)|Franka - Panda|OXE24|1%|15|12|
|Droid - Multitask(Napkin)|Franka - Panda|OXE24|1%|15|10|
评估方式
- 评估指标:主要采用任务成功率(策略完成任务的比例)作为评估指标,部分任务(如Droid - Multitask)区分完全成功和部分成功,部分成功按0.5权重计入成功率。
- 基线对比:与多种基于相似性启发式的基线方法对比,包括BehaviorRetreival(BR,基于状态 - 动作对VAE latent空间相似性)、FlowRetrieval(Flow,基于图像流特征VAE相似性)、STRAP(基于预训练DinoV2特征和动态时间规整的子轨迹相似性)、Action Retrieval(AR,基于动作序列相似性),同时对比仅使用目标数据(TargetOnly)和使用所有数据(All - Data/ Random,OXE场景因数据量大用Random替代All - Data)的基线。
- 有效性验证:通过在不同场景(模拟、现实)、不同任务上比较DataMIL与基线方法的成功率,验证DataMIL的有效性;通过分析DataMIL选择的数据类型(如实体、数据集分布、样本质量),验证其数据选择的合理性;通过对比使用真实指标(推演成功率)和代理指标(替代损失)的DataMIL性能,验证代理指标的有效性。
提到的同类工作
- 机器人数据筛选相关工作
- Re - Mix:通过DoReMi风格优化学习数据领域的最佳混合比例,用于提升通用策略训练效果,关注通用策略训练的数据混合,而非特定任务的数据选择。
- 基于互信息准则和策略推演评分的方法:通过互信息或策略推演识别“高质量”轨迹,用于通用策略训练,未针对特定任务的数据选择优化。
- BehaviorRetreival(BR):基于状态 - 动作对的VAE latent空间相似性从大型数据集中子采样数据,依赖状态 - 动作相似性启发式,未考虑数据对策略性能的实际影响。
- FlowRetrieval(Flow):基于图像流特征的VAE相似性选择数据,属于视觉相似性启发式方法,存在与BR类似的局限性。
- STRAP:基于预训练DinoV2特征和动态时间规整的子轨迹相似性检索数据,依赖视觉和时间序列相似性,未直接关联策略性能。
- Action Retrieval(AR):基于动作序列相似性选择数据,仅关注动作维度,忽略状态等其他关键信息对任务的影响。
- 数据模型与数据归因相关工作
- DataModels框架:用于自然语言处理和计算机视觉领域的高效数据选择,通过近似目标指标与数据子集的关系实现数据选择,但因机器人领域的推演需求无法直接应用。
- TRAK方法:用于大规模数据归因,估计数据对模型行为的影响,为DataMIL的数据归因提供思路,但未针对机器人模仿学习场景适配。
- 基于元梯度的估计方法:在计算机视觉和语言建模中用于高效数据模型估计,DataMIL借鉴其思想并适配机器人领域,实现数据重要性的高效计算。
- 数据归因在语言模型预训练和指令调优中的应用:用于改进语言模型预训练和指令调优,通过选择有影响力的数据提升模型性能,为DataMIL在机器人领域的应用提供跨领域参考。
和本文相关性最高的3个文献
- 文献标题:Datamodels: Predicting predictions from training data
- 作者:A. Ilyas, S. M. Park, L. Engstrom, G. Leclerc, and A. Madry
- 发表会议/年份:Proceedings of the 39th International Conference on Machine Learning, 2022
- 相关性说明:本文提出的DataMIL框架核心基于该文献的DataModels框架,该文献首次系统阐述了数据模型的概念,通过近似模型性能与数据子集的关系实现高效数据选择,为DataMIL提供了基础理论框架。DataMIL在其基础上,针对机器人模仿学习的特点(如现实世界推演成本高、数据序列性等)进行改进,引入替代损失函数、数据聚类等技术,将数据模型框架扩展到机器人领域,是DataMIL方法设计的核心依据。
- 文献标题:Open x-embodiment: Robotic learning datasets and rt-x models: Open x-embodiment collaboration 0
- 作者:A. O’Neill, A. Rehman, A. Maddukuri, A. Gupta, A. Padalkar, A. Lee, A. Pooley, A. Gupta, A. Mandlekar, A. Jain, et al.
- 发表会议/年份:2024 IEEE International Conference on Robotics and Automation (ICRA), 2024
- 相关性说明:该文献提出的Open X-Embodiment(OXE)数据集是DataMIL现实世界实验的核心数据集。OXE作为大规模异构机器人数据集,包含不同实验室、机器人、场景的数据,为DataMIL验证在复杂、异构数据上的有效性提供了关键实验平台。DataMIL在OXE数据集上的4个现实任务中展示了其数据选择能力,证明了其在大规模真实机器人数据上的适用性,该数据集是DataMIL实验验证的重要支撑,直接体现了DataMIL的实际应用价值。
- 文献标题:Octo: An open-source generalist robot policy
- 作者:Octo Model Team, D. Ghosh, H. Walke, K. Pertsch, K. Black, O. Mees, S. Dasari, J. Hejna, C. Xu, J. Luo, T. Kreiman, Y. Tan, L. Y. Chen, P. Sanketi, Q. Vuong, T. Xiao, D. Sadigh, C. Finn, and S. Levine
- 发表会议/年份:Proceedings of Robotics: Science and Systems, Delft, Netherlands, 2024
- 相关性说明:该文献提出的Octo模型是DataMIL在LIBERO和OXE场景中使用的核心策略模型。Octo作为基于Transformer的开源通用机器人策略,为DataMIL提供了高性能的基础模型架构。DataMIL通过对预训练的Octo模型进行微调,结合选择的数据提升其在特定任务上的性能,验证了DataMIL与现有先进机器人策略的兼容性和协同提升效果。该模型的选择直接影响了DataMIL实验的可行性和性能上限,是DataMIL实验设计中不可或缺的部分。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)