浙大 × 西湖大学最新：超越π0.5，融合人类数据与世界模型的高效VLA训练框架

FRAPPE提出了一种面向VLA模型的高效微调新范式：通过表征对齐与多源数据顺滑融合，在可接受的推理开销的前提下，显著提升模型的泛化能力、长时序能力与隐式世界建模能力。

Tom Hardy

872人浏览 · 2026-02-27 17:02:23

Tom Hardy · 2026-02-27 17:02:23 发布

将预测未来动态的世界建模能力和具身策略模型 (VLA) 相结合对提升机器人推理能力和泛化能力至关重要。然而，当前的方法面临两个主要问题：1. 训练目标迫使模型过度关注像素级重建，这限制了语义学习和泛化能力；2. 在推理过程中依赖预测的未来观察结果，往往会导致误差积累。为了解决这些挑战，本文提出了通过并行渐进扩展实现的未来表示对齐 (FRAPPE) 方法。在 RoboTwin 基准测试和实际任务中的实验表明，经过 FRAPPE 训练后的策略在性能上超越了RDT-1B, π0.5等先进模型，并在长时程和未见过的场景中表现出强大的泛化能力。

论文题目：FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment
论文链接：https://arxiv.org/abs/2602.17259
项目主页：https://h-zhao1997.github.io/frappe/
论文时间：Feb, 20, 2025
作者单位：浙江大学，西湖大学，香港科技大学（广州），华南理工大学，上海科技大学，清华大学

原文链接：浙大 × 西湖大学最新：超越π0.5，融合人类数据与世界模型的高效VLA训练框架

🛠️ 方法概述

FRAPPE的设计哲学是通过渐进式扩展来提升模型的世界建模能力和参数，方案聚焦于训练机制和模型结构两个层面对已有的基础模型进行后训练优化：

1. 训练机制：隐式世界建模（Implicit World Modeling）

模型不采取显式生成未来观测的像素这一显式建模，而是通过对未来观测在隐空间的表征进行对齐，使模型能够在统一的语义空间中理解动作与视觉信息，提升跨任务泛化能力。

2. 模型结构：并行扩展（Parallel Scaling）

FRAPPE 将具有单一推理流的VLA模型进行扩展，通过复制多个输入进行并行的前向计算，每个流对齐一个独立的视觉编码器（实验中采取的并行度为3，分别对齐DINOv2，CLIP和ViT的表征），同时学习多个教师表征，避免模型学习单一的归纳偏置。

🧩 训练方案

具体实践中，FRAPPE 采取渐进式扩展训练：

Mid-Training阶段，模型进行全参数微调并和单一的视觉编码器 Theia 进行对齐，这一步保证了预训练模型可以适应世界建模训练的训练范式；
Post-Training阶段引入并行扩展机制，通过多个prefix和LoRA模块将模型转换为混合专家架构并进行多教师特征对齐的并行训练。

🧪 实验验证

1. 仿真结果

在RoboTwin Benchmark的8个子任务中，FRAPPE 在平均成功率上超越了采用naive fine-tuning的VLA base model（RDT-1B、π0、π0.5）、小模型基线 (DP) 以及基于预测表征的生成式基线 (VPP)。

在更小参数模型的仿真实验中，RDT-130M使用 FRAPPE 进行后训练，在RoboTwin上的性能可以与RDT-1B持平，展现出了该方案在小参数模型中仍然适用，并对性能和泛化性有显著提升。

2. 真机实验

在真机实验中，FRAPPE 的性能在四个基本的双臂操作任务上超过了 RDT-1B 和 π0.5，并且在未见的复杂场景下展示出了更优越的泛化性。

在包含三个子任务的长程任务中，在最终成功率上 FRAPPE 和 π0.5 表现相当。作为对比，RDT-1B 则无法成功按顺序完成三个子任务。

3. 人类数据协同训练

与其他工作类似，没有动作标签的人类视频也可以增益训练世界模型的训练过程。本文在大规模的人类视频擦操作数据集 (Ego (Web)) 和人类执行相同下游任务的数据 (Ego (Task)) 两种数据源上都进行了实验。实验表明两种数据都能够提升下游任务的成功率，可以极大的减少遥操作数据的采集规模，降低数据成本。

⚡️ 计算效率

尽管在推理中由于并行扩展架构引入了额外的参数和计算量，模型仍然可以保持和RDT-1B相近的推理延迟以及可接受的显存占用。

✅ 总结与展望

FRAPPE提出了一种面向VLA模型的高效微调新范式：
通过表征对齐与多源数据顺滑融合，在可接受的推理开销的前提下，显著提升模型的泛化能力、长时序能力与隐式世界建模能力。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ESXi 8.0安装后网络不通？3步排查vSwitch/IP/VLAN，新手也能搞定

优先排查vSwitch是否绑定有效物理网卡，再核对vmkernel端口IP与网关、网段是否匹配，最后检查VLAN标签是否与物理网络一致。这三个步骤层层递进，覆盖了90%以上的网络不通场景，操作简单、逻辑清晰，新手只要跟着步骤排查、纠正错误，就能快速恢复网络连通。本文详细拆解了前期准备、分步排查、连通性测试、异常处理及常见误区，格式与之前ESXi系列教程保持一致，降低新手学习成本。

DAMO开发者矩阵

电商客服机器人选型实战：从知识库、转人工到自动解决率的能力对比

DAMO开发者矩阵

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。