周六上午！一起聊聊π_RL，面向流匹配VLA模型的强化学习微调框架

北京大学博士生陈康将于12月6日分享《面向流匹配VLA的强化学习后训练框架》。研究提出Flow-Noise和Flow-SDE两种技术路线，解决了流式模型在强化学习中似然求解难题。Flow-Noise通过可学习噪声计算动作似然，Flow-SDE则将去噪转化为随机微分方程。该框架在LIBERO测试平台达到97%以上性能，在ManiSkill任务中成功率提升50%至90%。直播将在青稞社区视频号/B站同

青稞社区.

997人浏览 · 2025-12-04 12:32:02

青稞社区. · 2025-12-04 12:32:02 发布

青稞社区：https://qingkeai.online
原文链接：https://mp.weixin.qq.com/s/2csJ_-JGbaPMOJyyjDMeeg

强化学习可以减少 VLA 模型对大量数据的依赖。我们提出了面向流匹配VLA（ $π_0$ , $π_{0.5}$ ）的强化学习微调框架 $π_{RL}$ ，并提出了 Flow-Noise和 Flow-SDE两种微调技术路线。

Flow-Noise 在单层 MDP 中引入可学习噪声，通过完整的去噪序列计算动作似然；

Flow-SDE 则将去噪过程转化为随机微分方程（SDE），在双层 MDP 中实现“边生成边交互”的强化学习。

两种方法共同解决了流式模型在强化学习中难以求解似然的问题。

在公开测试平台LIBERO平均性能达到97.6%和98.3%，同时在包含4,352种抓取-放置任务组合的ManiSkill环境当中成功率涨幅 50%，最终成功率超90%。

12月6日（周六）上午10点，青稞Talk 第95期，北京大学博士生陈康，将直播分享《从 $π_0$ 到 $π_{RL}$ ：面向流匹配 VLA 的强化学习后训练框架》。

论文：π_𝚁𝙻 : Online RL Fine-tuning for Flow-based Vision-Language-Action Models
链接：https://arxiv.org/abs/2510.25889
代码：https://github.com/RLinf/RLinf

分享嘉宾

陈康，北京大学计算机学院在读博士生，以第一作者身份在CVPR、NuerIPS、AAAI等会议上发表多篇文章，研究方向为VLA强化学习训练及计算摄影成像。

主题提纲

从 $π_0$ 到 $π_{RL}$ ：面向流匹配VLA的强化学习后训练框架

1、流匹配 VLA 模型介绍及 RL 训练难点
2、面向流匹配 VLA 的 RL 微调框架 $π_{RL}$
- Flow-Noise
- Flow-SDE
3、 $π_0$ 和 $π_{0.5}$ 微调实践
4、AMA （Ask Me Anything）环节

直播时间

12月6日10:00 - 11:00

参与方式

Talk 将在青稞社区【视频号：青稞AI、Bilibili：青稞AI】上进行直播，欢迎预约观看～～

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。