RISE: 基于组合式世界模型的自改进机器人策略

价值模型由预训练的VLA策略参数化,这带来两个优势:首先,预训练策略已在广泛的机器人数据集上训练,具有以机器人为中心的理解。在虚拟仿真器中,智能体可以并行执行大规模交互,状态和奖励的更新都是可控且可访问的。基于想象的策略改进关键依赖于一个与奖励相关的信号,该信号需要在较长的时间范围内具有稠密性,并且对接触丰富的操作中的细微故障非常敏感。在训练过程中,策略以优势信号为条件,该优势信号由学习的价值模型

Hermit_Rabbit

281人浏览 · 2026-03-11 19:05:40

Hermit_Rabbit · 2026-03-11 19:05:40 发布

1. 研究背景与动机

视觉-语言-动作(VLA)模型在机器人领域取得了显著进展,通过在大规模数据上预训练获得了广泛的语义理解和指令跟随能力。然而,这些模型在接触频繁且动态的操作任务中仍然表现脆弱。当机器人执行过程中出现轻微偏差时,这些偏差会累积并最终导致任务失败。

这一现象源于模仿学习的固有局限性:一旦机器人偏离专家演示的轨迹,它就缺乏纠正错误的恢复技能,无法自主调整回正确路径。

强化学习提供了一条通过试错来提升鲁棒性的原则性路径。在虚拟仿真器中,智能体可以并行执行大规模交互,状态和奖励的更新都是可控且可访问的。然而,这种可控性和并行性在现实世界中并不成立。预计3月开源：Github

物理世界的强化学习面临三大核心挑战:

安全风险:机器人在探索过程中可能损坏硬件或环境
硬件成本:需要大量机器人并行运行以获得足够的数据
环境重置:每次试验后需要人工监控和重置,串行执行耗时且劳动密集

在这里插入图片描述

图1: 传统物理世界强化学习的瓶颈 vs RISE的解决方案

为了弥合仿真器与物理世界之间的差距,研究者们开发了世界模型。世界模型首先从被动经验中学习,然后模拟不同动作条件下的未来结果。然而,构建适用于现实世界机器人的世界模型面临两个根本性挑战。

第一个是可控性挑战:世界模型必须忠实地跟踪动作,以准确表示其后果。尽管通过集成高容量生成模型可以提高视觉真实感,但如何提高对各种动作的可控性仍然是一个开放性问题。

第二个是学习信号挑战:从想象中学习需要中间动作的信息性学习信号,而不是仅仅依赖于二元指标。否则,确定最终成功将需要世界模型模拟整个任务执行过程,这超出了大多数生成世界模型的可靠范围。

2. RISE核心创新:组合式世界模型

RISE提出了一个整体学习框架,通过想象力强化机器人基础模型以实现自改进。其核心创新在于将世界建模问题分解为两个独立但协同的目标:动力学预测和价值估计。

这种组合式设计允许每个组件使用最适合其角色的架构和训练目标,从而实现更高效的学习。动力学模型专注于预测未来的多视角观测,而价值模型则负责评估想象状态的质量。

2.1 动力学预测模型

动力学模型负责预测未来的多视角观测。RISE基于预训练的Genie Envisioner初始化动力学模型,该模型继承了LTX-Video的架构优势,在生成质量和推理速度之间实现了良好的平衡。

相比Cosmos等高级世界模型需要10分钟以上才能合成25个多视角观测,Genie Envisioner仅需不到2秒即可达到相同的视野范围,速度提升300倍。这种高效的生成能力是应用强化学习训练的关键支柱。

然而,GE-Base最初是基于文本而非细粒度的机器人动作进行训练的。为了赋予模型精确的动作控制能力,RISE通过引入轻量级动作编码器,在大规模动作标注数据集上对模型进行优化。

RISE采用任务中心批处理策略来提高动作可控性:每个批次仅从一小部分任务中采样,同时覆盖更多与不同动作相关的同一任务的样本。这种批处理策略在批次优化中优先考虑同一场景下的动作多样性,而非场景多样性。

在这里插入图片描述

图2: 组合式世界模型的定性展示

2.2 价值估计模型

基于想象的策略改进关键依赖于一个与奖励相关的信号,该信号需要在较长的时间范围内具有稠密性,并且对接触丰富的操作中的细微故障非常敏感。

RISE学习一个价值估计器,将感官观测映射到标量值,用于对想象的展开进行评分。价值模型由预训练的VLA策略参数化,这带来两个优势:首先,预训练策略已在广泛的机器人数据集上训练,具有以机器人为中心的理解。

其次,该策略骨干与多视图输入兼容,而通用VLM大多只支持单视图。价值模型的训练采用双重目标函数:结合进度估计和时间差分学习。

进度回归能够提供密集的信号,但通常过于平滑且对失败不敏感。时间差分学习同时利用成功和失败的演示来建立价值函数,从而区分成功和错误。最终的价值学习目标函数简单地结合这两个项,分别利用学习稳定性和错误敏感性。

3. 闭环自改进管道

RISE的核心优势在于其闭环自改进管道,该管道持续生成想象的展开,估计优势,并在虚拟空间中更新策略,而无需昂贵的物理交互。整个流程分为三个阶段:策略预热、展开阶段和训练阶段。

3.1 策略预热阶段

在进行策略内改进之前,首先使用离线收集的数据对学习过程进行预热。这一阶段将策略锚定到目标任务上物理上合理的行为分布,从而避免在后续阶段进行盲目探索。

数据构成包括专家演示、策略成功和失败的部署以及人工干预的修正。在训练过程中,策略以优势信号为条件,该优势信号由学习的价值模型标记。

…详情请参照古月居

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

VLAN技术课程课后总结

VLAN即虚拟局域网（Virtual Local Area Network），是在物理局域网基础上划分出的逻辑二层网络，其划分不受物理端口位置的限制。二层的单播、广播、组播帧仅在同一个VLAN内转发、扩散，不会直接进入其他VLAN之中。本质上，VLAN技术就是将1台物理交换机在逻辑上划分为若干台完全独立的逻辑交换机，实现了二层广播域的精准隔离。

DAMO开发者矩阵

基于 A 星（A*）算法的网格环境下的往返式全覆盖路径规划研究（Matlab代码实现）

全覆盖路径规划是移动机器人导航领域的核心问题之一，针对传统遍历算法在障碍环境下路径重复率高、转弯次数多的问题，本文提出一种基于 A 星（A*）算法的往返式全覆盖路径规划方法。以 20×20 网格环境为研究载体，构建含指定障碍点的 0-1 网格地图，依托 A * 算法的路径搜索能力，设计两种往返式遍历策略：基础策略采用按行往返遍历逻辑，优化策略则通过行列交替且正反序遍历的方式，实现对无障碍网格的无重