在VLA机器人研究领域,大语言模型(VLM)的语义推理能力与机器人实时控制需求长期存在矛盾——大模型的低推理速度严重限制了全身体控的稳定性与响应性。Astribot 团队提出的 DuoCore-FS 框架,以 “快慢双路径异步架构” 为核心,通过 “模态对齐缓冲 - 全身体动作token化 - 跨时标联合训练” 的三层技术体系,首次实现 3B 参数大模型与 30Hz 高频全身体控的兼顾,为复杂场景下的机器人操纵提供了全新解决方案。

论文题目:Astribot: Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

论文链接:https://arxiv.org/pdf/2512.20188

核心亮点:真正异步快慢双路径、模态对齐桥接缓冲、全身体动作token化、端到端联合训练、3 倍于同类模型的推理速度

原文链接:全身操控!星尘推出异步快慢的VLA策略,端到端训练+3 倍于同类模型的推理速度

问题根源:大模型驱动机器人操纵的三大核心挑战

DuoCore-FS 的设计逻辑源于对现有 VLA 系统痛点的精准洞察,三大核心挑战构成技术突破的起点:

频率耦合瓶颈

传统 VLA 系统将 VLM 推理与动作生成绑定在同一频率,大模型(尤其是 3B 级以上)的低推理速度(通常<15Hz)直接限制了全身体控的响应频率,无法满足多关节、动态场景的实时需求。

全身体控表征难题

全身体操纵涉及 25+ 自由度(DoF)的关节协调,高维动作空间导致传统离散token化方案出现组合爆炸,难以实现紧凑且统一的动作表征。

异步训练推理错位

现有异步双系统架构多采用固定频率配比或级联设计,缺乏真正的并行执行机制,且端到端训练缺失导致高层语义推理与底层实时控制难以高效协同。

方案设计:DuoCore-FS 的三层技术闭环

针对上述挑战,DuoCore-FS 构建了 “快慢双路径 - 桥接缓冲 - token化 - 联合训练” 的完整技术闭环,层层递进实现大模型语义指导与高频全身体控的统一:

第一层:异步双路径架构——解耦推理与控制频率

创新设计真正并行的快慢双系统,实现语义推理与动作生成的频率解耦:

  • 慢路径(1-3Hz):基于 3B 参数 VLM(如 PaliGemma-3B、Qwen2.5-VL-3B),处理视觉观测、本体感受与自然语言指令,生成语义隐藏态、推理特征与融合查询,提供高层任务意图指导;
  • 快路径(25-30Hz):采用轻量级扩散策略网络,整合桥接缓冲的最新语义表征与实时感知数据,生成连续、协调的全身体动作块(action chunk),保障实时控制响应;
  • 核心差异:区别于 FiS-VLA 的固定频率配比、Hume 的级联设计,DuoCore-FS 实现完全并行异步执行,快路径频率不受慢路径推理速度约束。

第二层:关键技术组件——支撑双路径高效协同

模态对齐桥接缓冲

作为快慢系统的交互接口,存储指令嵌入、融合查询等模态对齐表征,慢路径以 1-3Hz 刷新,快路径以 25-30Hz 读取,既传递高层语义指导,又避免频率耦合。缓冲同时保留原始指令表征与动态推理特征,防止关键任务信息丢失。

全身体动作token化

针对 25DoF 全身体动作空间,设计几何感知的 RVQ-VAE token化方案:

  • 动作分解:将 29 维动作向量拆分为位置增量(pos)、姿态增量(rot)、夹爪开度(grip)三个语义组件;
  • 多流token化:通过独立 1D 卷积编码器处理各组件,再经残差向量量化(RVQ)生成离散token,每个流维护 1024 规模码本;
  • 损失设计:位置与夹爪分支采用 L2 重建损失,姿态分支采用 SO (3) 测地线距离损失,确保token化表征的几何一致性。
跨时标联合训练

分两阶段实现端到端优化,解决快慢系统频率差异导致的训练推理错位:

  • 第一阶段:独立训练慢路径 VLM,优化语义推理与动作token预测,对齐视觉 - 语言 - 动作模态;
  • 第二阶段:引入跨时标采样策略,模拟真实部署中的异步延迟(Δ~U [0, Δ m a x \Delta_{max} Δmax]),联合训练快慢路径,采用加权损失( λ s l o w \lambda_{slow} λslow=1, λ f a s t \lambda_{fast} λfast=10)强化快路径的精准控制能力。

第三层:异步推理流水线——保障实时部署性能

部署阶段采用全异步执行流程,进一步优化推理效率:

  • 慢路径优化:采用 Jacobi 式并行解码策略,加速 VLM 推理,降低语义更新延迟;
  • 快路径加速:通过 TensorRT 编译 BF16 精度模型,确保 25-30Hz 稳定输出;
  • 缓冲容错机制:快路径优先使用缓冲中最新语义表征,即使慢路径未更新,仍可基于历史有效信息维持稳定控制。

验证逻辑:从定量指标到真实场景的全面性能验证

DuoCore-FS 在 Astribot S1 全身体机器人平台上,通过 “基准任务 - 泛化能力 - 异常场景 - ablation 分析” 的四级验证体系,充分证明其技术有效性:

核心性能突破

在爆米花舀取(长时程全身体任务)与饮料柜关门(短时程任务)中,DuoCore-FS 表现远超同类模型:

  • 速度提升:推理频率达 32.3Hz,是 π₀ 模型(12.5Hz)的 2.6 倍,满足全身体控实时需求;
  • 精度保持:整体成功率 90%,超越基线模型,且在细粒度动作(如勺子对齐、爆米花倾倒)中表现稳定;

  • 泛化能力:分布外场景(杯子置于桌沿等未见过位置)中,整体成功率 50%,远超基线模型的 10%;

  • 异常鲁棒性:杯子倾倒、倒置、被移走等场景中,检测与恢复成功率 95.8%,略高于基线的 91.7%。

关键能力验证

  • 语言跟随:在相同视觉观测下,执行 “关门” 指令的成功率达 42.9%,是基线模型(14.3%)的 3 倍,证明慢路径语义推理的有效性;

  • token化效率:RVQ-VAE token化方案的平均token长度仅 36,远短于 FAST token化的 81.12,推理频率提升 3.4 倍,且任务成功率达 83.3%(FAST 方案为 0%)。

局限与未来方向

DuoCore-FS 作为大模型驱动全身体控的突破性工作,仍存在可优化空间:

  • 慢路径推理加速:未来可探索一致性解码等技术,进一步降低 VLM 推理延迟,提升语义更新频率;
  • 快路径效率优化:减少扩散模型的流匹配步骤,探索单步生成方案,突破 30Hz 频率上限;
  • 桥接机制升级:设计更精细的模态交互机制,强化快慢路径的语义对齐,提升复杂任务成功率;
  • 多模态融合拓展:融入力触觉、听觉等信号,适配接触密集型任务,进一步提升真实场景鲁棒性;
  • 任务覆盖扩展:需在更多动态场景、长时程任务中验证框架的通用性与稳定性。

总结:DuoCore-FS 的范式价值与行业影响

DuoCore-FS 的核心贡献不仅在于实现了 3B 级 VLM 与 30Hz 全身体控的兼顾,更在于建立了 “异步架构 - 模态对齐 - token化 - 联合训练” 的完整技术链路:通过真正并行的快慢双路径破解频率耦合瓶颈,通过 RVQ-VAE token化解决全身体控表征难题,通过跨时标训练消除异步执行的训练推理错位。其开源的训练、推理与部署方案已集成于 Astribot 机器人平台,为机器人学、计算机视觉、自然语言处理等领域提供了统一研究平台,推动大模型驱动的机器人操纵从实验室走向真实场景,加速通用自主机器人的产业化落地。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐