机器人的工作学习：部署期间的人机交互自主性和学习

23年7月来自德州Austin的论文“Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment”。随着计算能力的飞速发展和深度学习的进步，新型机器人能力展现惊人。然而，这些学习系统泛化能力较弱，且在实际任务中需要大量的训练数据。为了在充分发挥最先进机器人学习模型优势的同时，弥补其不足，提

硅谷秋水

1536人浏览 · 2026-02-02 00:15:00

硅谷秋水 · 2026-02-02 00:15:00 发布

23年7月来自德州Austin的论文“Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment”。

随着计算能力的飞速发展和深度学习的进步，新型机器人能力展现惊人。然而，这些学习系统泛化能力较弱，且在实际任务中需要大量的训练数据。为了在充分发挥最先进机器人学习模型优势的同时，弥补其不足，提出一个系统 Sirius——基于分工的人机协作框架。在该框架中，部分自主机器人负责处理大部分决策，并能可靠地完成任务；同时，人类操作员监控整个过程，并在出现挑战性情况时进行干预。这种人机协作模式能够确保在复杂任务中安全部署。此外，还引入一种学习算法，以提升策略在任务执行过程中收集数据上的性能。其核心思想是利用近似的人类信任度对训练样本进行重新加权，并通过加权行为克隆来优化策略。在仿真和真实硬件上对 Sirius 进行评估，结果表明 Sirius 在一系列接触丰富的操作任务中始终优于基线，在仿真中策略成功率比最先进的方法提高 8%，在真实硬件上提高 27%，收敛速度提高一倍，内存大小减少 85%。

人机交互学习智体利用交互式的人类反馈信号来提升其性能[9, 10, 59]。人类反馈可以作为丰富的监督来源，因为人类通常拥有先验的领域信息，并且可以交互式地指导智体的学习进程。人类反馈的形式多种多样，例如干预[25, 37, 50]、偏好[3, 8, 32, 53]、排名[4]、标量值反馈[35, 55]以及人类注视[60]。这些反馈形式可以通过策略塑造[19, 27]和奖励建模[11, 33]等学习技术集成到学习循环中，从而实现从异步策略迭代循环中更新模型[7]。

在机器人操作领域，一种方法是将人类干预融入模仿学习算法[25, 37, 50]。另一种方法是采用深度强化学习算法，利用学习的奖励，这些奖励可以来自偏好[32, 53]或奖励草图[5]。虽然这些方法相比无人干预的方法展现出更高的性能，但它们需要大量的人工监督，并且无法将部署过程中的人工控制反馈再次融入学习循环以提升模型性能。相比之下，本文专门考虑上述对现实世界机器人系统至关重要的场景。
如图所示：Sirius 系统通过共享控制，使人与机器人能够协作完成操作任务。人监控机器人的自主执行过程，并通过远程操作进行干预和修正。部署过程中收集的数据将被算法用于在后续的策略学习轮次中改进机器人的策略。
请添加图片描述

加权克隆学习（BC）框架为多种最先进的离线强化学习（RL）方法奠定了基础[28, 42, 54]。不同的权重分配区分了高质量样本和低质量样本，使得算法优先学习高质量样本。高优势样本表明它们的行为可能有助于获得更高的未来收益，因此应该赋予更高的权重。通过样本加权方案，这些方法过滤掉低优势样本，专注于从数据集中的高质量样本中学习。然而，在实践中，有效学习价值估计可能极具挑战性，尤其是在数据集未能涵盖足够广泛的状态和动作分布时——此前的研究[15, 20]已强调这一挑战。在部署场景中，数据仅包含最终完成任务的成功轨迹。

与价值学习框架不同，一些先前的研究[7, 17, 37]开发专门针对人机交互场景的加权克隆学习（BC）方法。特别是，Mandlekar[37]提出干预加权回归（IWR），该方法根据样本是否为人为干预来设计权重。受这些先前研究的启发，本文引入一种简单而实用的加权方案，该方案利用部署数据的独特属性来学习高性能智体。

Sirius 是人机协同框架，它能够从人和机器人的部署数据中学习并不断改进策略。

人机协同部署框架

人机协同系统旨在不断从部署经验和人工反馈中学习，从而获得高性能的机器人策略，并随着时间的推移降低人工的工作量。它由两个同时进行的组件构成：机器人部署和策略更新。在机器人部署（如图上线程）中，机器人在人工监控下执行任务；在策略更新（如图下线程）中，系统利用部署数据改进策略，以用于下一轮任务执行。
请添加图片描述

系统在预热阶段使用初始策略，在此阶段，引导机器人策略 π_1，该策略基于少量人工演示进行训练。初始时，内存缓冲区包含一组人类演示轨迹 D⁰ = {τ_j }，其中每条轨迹 τ_j = {s_t, a_t, r_t, c_t = demo} 由状态、动作、任务奖励以及数据类别标志 c_t 组成，该标志表明这些轨迹是人类演示轨迹。

在训练初始策略 π_1 后，部署机器人执行任务，并在执行过程中收集一系列轨迹以改进策略。持续监控机器人执行情况的人类操作员会根据机器人是否已执行或将要执行次优行为进行干预。需要注意的是，采用的是人机门控 [25] 而非机器人门控 [22]，以确保任务执行的成功以及系统在实际部署中的可靠性。通过此过程，获得一个新的轨迹数据集 D′，其元素为 τ_j = {s_t, a_t, r_t, c_t}，其中 c_t 表示该转换是机器人动作（c_t = robot）还是人为干预（c_t = intv）。将此数据追加到已收集的内存缓冲区 D¹ ← D⁰ ∪ D′ 中，并在此新数据集上训练新的策略 π_2。

在后续轮次中，部署机器人收集新数据，同时更新策略。将“轮次”定义为策略更新和部署的时间间隔：它包括完成一个策略的训练，并同时收集一组部署数据。在第 i 轮中，使用所有先前的数据训练策略 π_i。同时，机器人持续使用当前最佳策略 π_i−1 进行部署，并收集部署数据 D′。在第 i 轮结束时，将此数据追加到已收集的内存缓冲区 Dⁱ ← Dⁱ⁻¹ ∪ D′ 中，并在此聚合数据集上训练新的策略 π_i+1。

系统聚合来自长期部署环境中的数据。这带来一系列独特的挑战：首先，生成的数据来自混合分布，包含机器人策略动作、人类干预和人类演示；其次，系统生成的数据量不断增长，给学习算法带来内存负担和计算效率低下的问题。

人机协同策略学习

提出一种简单而有效的学习方法，该方法利用部署数据的独特特征来学习有效的策略。关键洞见在于，人类干预提供关于人类信任和人类对机器人执行判断的信息信号，利用这些信息来指导算法的设计。方法的核心思想是利用人类纠正反馈的结构，基于近似质量评分对训练样本进行重新加权。利用这些加权样本，采用加权行为克隆方法训练策略，从而在混合质量数据上学习策略。

方法源于对如何利用人类干预结构的两点洞见。

首先，人类干预样本非常重要，应该在学习过程中优先考虑。获取人类操作的样本成本很高，通常需要进行优化，但人类干预发生在机器人无法完成任务且需要帮助的情况下。这些是风险敏感的任务状态，因此这些区域的数据极具价值。因此，这些状态-动作对应在权重函数中排名靠前，并且应该提高人工干预样本的权重，使这些样本对学习产生更大的积极影响。

此外，不仅应该考虑使用哪些人工样本，还应该考虑人工干预发生的时机。当机器人自主运行时，它通常会表现出合理的行为。但当它需要人工干预时，通常是因为机器人犯了错误或表现出了次优行为。因此，人工干预隐含地代表了人类对机器人行为的价值判断——人工干预之前的样本质量较低，效果也较差。目标是最大限度地减少人工干预对学习的影响。

基于这些认识，设计一种根据干预引导的数据类别类型进行加权的方案。数据集中的每个样本（s、a、r、c）都包含一个数据类别类型 c，用于指示该样本代表的是人类演示动作、机器人动作还是人工干预动作。为了体现人工干预的时机，区分并惩罚每次人工干预之前采集的样本。将每次人工干预之前的片段定义为一个单独的类别，即干预前（preintv）（如图所示）。这种分类基于人类伙伴的隐式评估，将机器人样本分为正常机器人样本和次优干预前样本。总体而言，这产生了四种类别类型 c ∈ {demo, intv, robot, preintv}。
请添加图片描述

在长期部署环境中，大部分数据将是机器人动作，而人为干预通常只占数据集样本的一小部分，因为干预仅发生在轨迹的关键区域；干预前的样本虽然比例虽小但不可忽略，可能会产生不利影响（参见上图左饼图）。现在，将类别分布更改为新的分布 P*©，其中增加人为干预样本的比例，并降低干预前样本的比例（参见上图右饼图）。在这种新分布下，根据重要性抽样规则，每个类别 c 中训练样本的权重 w(s, a, c) 可以等效地设置为 w(s, a, c) = P*©/P©。

内存管理

随着部署的持续进行和数据集的不断增长，大数据会减缓训练收敛速度并占用过多的内存空间。假设遗忘（定期从内存中丢弃样本）有助于优先保留对学习至关重要且有用的经验，从而加快收敛速度，甚至进一步改进策略。此外，选择合适的遗忘方式至关重要，因为希望保留对学习最有益的数据。因此希望研究以下问题：在数据存储有限且部署数据流永无止境的情况下，如何吸收最有用的数据并保留更多有价值的信息用于学习？

假设有一个固定大小的内存缓冲区，当缓冲区满时，会用新样本替换现有样本。考虑五种管理部署数据内存缓冲区的策略。每种策略都检验以下不同的假设：

LFI（最少干预）：首先剔除干预次数最少的轨迹中的样本。（保留人为干预次数最多的轨迹，可以保留最有价值的人类和关键状态样本，从而最大程度地促进学习。）
MFI（最频繁干预）：首先拒绝来自干预次数最多的轨迹的样本。（与需要干预的轨迹相比，成功且未受干预的机器人轨迹能提供更高质量的学习数据。）
FIFO（先进先出）：按照样本添加到缓冲区的顺序拒绝它们。（来自性能更佳策略的最新数据是更高质量的学习数据。）
FILO（先进后出）：首先拒绝最近添加的样本。（来自性能较差策略的初始数据具有更高的状态覆盖率和数据多样性，有利于学习。）
均匀：随机均匀地拒绝样本。（均匀选择轨迹可以产生均衡的多样化样本组合，有助于学习过程。）
结合干预引导的策略更新加权方案和内存管理策略，在算法 1 中展示部署中人机协同学习的整体工作流程。

实现细节

对于机器人策略（如图所示），采用最先进的行为克隆算法 BC-RNN [39] 作为模型骨干。用 ResNet-18 编码器 [21] 对第三人称和手眼图像进行编码 [36, 39]。将图像特征与机器人本体感觉状态连接起来，作为策略的输入。网络输出动作的高斯混合模型 (GMM) 分布。
请添加图片描述

对于干预引导加权方案，设置 P*(intv) = 1/2。50% 的比例设置参考先前的工作 [37]，该工作将干预权重提高到合理的水平。设置 P*(preintv) = 0，有效地消除干预前样本的影响。演示权重维持数据集中演示样本的真实比例：P*(demo) = P(demo)。最终，P*(robot) 会相应地进行调整。在这种新的分布下，由于 intv 类的比例增加，隐式地降低 robot 类的比例。需要注意的是，演示样本的比例保持不变，因为它们仍然是重要的、有用的学习样本，尤其是在机器人生成低质量数据的初始更新阶段。这与 Mandlekar [37] 的 IWR 方法形成对比，后者将所有非干预样本视为一个单一类别，从而降低演示样本的贡献（基于其未加权比例）。每个样本的权重为 w(s, a, c) = P*©/P©。

将每次人为干预之前的长度为 l 的片段设置为 preintv 类。超参数 l 的最优选择取决于人的反应时间，它量化操作员对机器人错误行为的反应速度。先前的研究 [50, 51] 表明，从机器人开始犯错到操作员实际进行纠正干预之间存在响应延迟。基于操作员的经验观察显示，平均反应时间为 2 秒，大致相当于 15 个机器人动作所需的时间。因此，将 l 设置为 15。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

大二寒假实践（1）

摘要：本文探讨了大模型的两大应用方向——大语言模型和具身智能的发展现状与挑战。大语言模型因数据充足发展迅速，而具身智能受限于交互成本高、数据标注昂贵等问题进展缓慢。作者认为具身智能是更有价值的科研方向，并分析了强化学习等关键技术。文章还介绍了基础模型的特点、评估方法，以及具身智能的六大发展趋势，包括从单一任务转向预训练模型、解决数据稀缺问题等。最后指出具身智能短期内难以实现AGI，但仍是值得投入的

DAMO开发者矩阵

【视觉SLAM十四讲】建图

DAMO开发者矩阵

AI应用架构师必看：零样本学习如何解决跨域业务落地的3大痛点？

想象一下，你是一家大型企业的AI应用架构师，负责将AI技术应用到各个业务领域。公司业务广泛，从医疗影像诊断到金融风险预测，再到智能客服，不同领域的数据特点、业务需求和应用场景千差万别。传统的AI模型通常需要大量特定领域的数据进行训练，才能达到较好的性能。但在实际业务中，获取这些大规模的标注数据往往成本高昂，甚至在一些新兴领域根本无法实现。比如，在医疗领域，要训练一个准确的疾病诊断模型，需要大量经过