全身操控！星尘推出异步快慢的VLA策略，端到端训练+3 倍于同类模型的推理速度

Astribot团队提出的DuoCore-FS框架创新性地解决了大语言模型（VLM）与机器人实时控制间的矛盾。该框架采用"快慢双路径异步架构"，通过模态对齐缓冲、全身体动作token化和跨时标联合训练三层技术体系，首次实现3B参数大模型与30Hz高频全身体控的兼顾。实验表明，该方案推理速度达32.3Hz，是同类模型的2.6倍，整体任务成功率90%，在分布外场景中表现优异。该研究为复杂场景下的机器人

Tom Hardy

332人浏览 · 2025-12-26 15:01:42

Tom Hardy · 2025-12-26 15:01:42 发布

在VLA机器人研究领域，大语言模型（VLM）的语义推理能力与机器人实时控制需求长期存在矛盾——大模型的低推理速度严重限制了全身体控的稳定性与响应性。Astribot 团队提出的 DuoCore-FS 框架，以 “快慢双路径异步架构” 为核心，通过 “模态对齐缓冲 - 全身体动作token化 - 跨时标联合训练” 的三层技术体系，首次实现 3B 参数大模型与 30Hz 高频全身体控的兼顾，为复杂场景下的机器人操纵提供了全新解决方案。

论文题目：Astribot: Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

论文链接：https://arxiv.org/pdf/2512.20188

核心亮点：真正异步快慢双路径、模态对齐桥接缓冲、全身体动作token化、端到端联合训练、3 倍于同类模型的推理速度

原文链接：全身操控！星尘推出异步快慢的VLA策略，端到端训练+3 倍于同类模型的推理速度

问题根源：大模型驱动机器人操纵的三大核心挑战

DuoCore-FS 的设计逻辑源于对现有 VLA 系统痛点的精准洞察，三大核心挑战构成技术突破的起点：

频率耦合瓶颈

传统 VLA 系统将 VLM 推理与动作生成绑定在同一频率，大模型（尤其是 3B 级以上）的低推理速度（通常＜15Hz）直接限制了全身体控的响应频率，无法满足多关节、动态场景的实时需求。

全身体控表征难题

全身体操纵涉及 25+ 自由度（DoF）的关节协调，高维动作空间导致传统离散token化方案出现组合爆炸，难以实现紧凑且统一的动作表征。

异步训练推理错位

现有异步双系统架构多采用固定频率配比或级联设计，缺乏真正的并行执行机制，且端到端训练缺失导致高层语义推理与底层实时控制难以高效协同。

方案设计：DuoCore-FS 的三层技术闭环

针对上述挑战，DuoCore-FS 构建了 “快慢双路径 - 桥接缓冲 - token化 - 联合训练” 的完整技术闭环，层层递进实现大模型语义指导与高频全身体控的统一：

第一层：异步双路径架构——解耦推理与控制频率

创新设计真正并行的快慢双系统，实现语义推理与动作生成的频率解耦：

慢路径（1-3Hz）：基于 3B 参数 VLM（如 PaliGemma-3B、Qwen2.5-VL-3B），处理视觉观测、本体感受与自然语言指令，生成语义隐藏态、推理特征与融合查询，提供高层任务意图指导；
快路径（25-30Hz）：采用轻量级扩散策略网络，整合桥接缓冲的最新语义表征与实时感知数据，生成连续、协调的全身体动作块（action chunk），保障实时控制响应；
核心差异：区别于 FiS-VLA 的固定频率配比、Hume 的级联设计，DuoCore-FS 实现完全并行异步执行，快路径频率不受慢路径推理速度约束。

第二层：关键技术组件——支撑双路径高效协同

模态对齐桥接缓冲

作为快慢系统的交互接口，存储指令嵌入、融合查询等模态对齐表征，慢路径以 1-3Hz 刷新，快路径以 25-30Hz 读取，既传递高层语义指导，又避免频率耦合。缓冲同时保留原始指令表征与动态推理特征，防止关键任务信息丢失。

全身体动作token化

针对 25DoF 全身体动作空间，设计几何感知的 RVQ-VAE token化方案：

动作分解：将 29 维动作向量拆分为位置增量（pos）、姿态增量（rot）、夹爪开度（grip）三个语义组件；
多流token化：通过独立 1D 卷积编码器处理各组件，再经残差向量量化（RVQ）生成离散token，每个流维护 1024 规模码本；
损失设计：位置与夹爪分支采用 L2 重建损失，姿态分支采用 SO (3) 测地线距离损失，确保token化表征的几何一致性。

跨时标联合训练

分两阶段实现端到端优化，解决快慢系统频率差异导致的训练推理错位：

第一阶段：独立训练慢路径 VLM，优化语义推理与动作token预测，对齐视觉 - 语言 - 动作模态；
第二阶段：引入跨时标采样策略，模拟真实部署中的异步延迟（Δ~U [0, $\Delta_{max}$ ]），联合训练快慢路径，采用加权损失（ $\lambda_{slow}$ =1， $\lambda_{fast}$ =10）强化快路径的精准控制能力。

第三层：异步推理流水线——保障实时部署性能

部署阶段采用全异步执行流程，进一步优化推理效率：

慢路径优化：采用 Jacobi 式并行解码策略，加速 VLM 推理，降低语义更新延迟；
快路径加速：通过 TensorRT 编译 BF16 精度模型，确保 25-30Hz 稳定输出；
缓冲容错机制：快路径优先使用缓冲中最新语义表征，即使慢路径未更新，仍可基于历史有效信息维持稳定控制。

验证逻辑：从定量指标到真实场景的全面性能验证

DuoCore-FS 在 Astribot S1 全身体机器人平台上，通过 “基准任务 - 泛化能力 - 异常场景 - ablation 分析” 的四级验证体系，充分证明其技术有效性：

核心性能突破

在爆米花舀取（长时程全身体任务）与饮料柜关门（短时程任务）中，DuoCore-FS 表现远超同类模型：

速度提升：推理频率达 32.3Hz，是 π₀ 模型（12.5Hz）的 2.6 倍，满足全身体控实时需求；
精度保持：整体成功率 90%，超越基线模型，且在细粒度动作（如勺子对齐、爆米花倾倒）中表现稳定；

泛化能力：分布外场景（杯子置于桌沿等未见过位置）中，整体成功率 50%，远超基线模型的 10%；

异常鲁棒性：杯子倾倒、倒置、被移走等场景中，检测与恢复成功率 95.8%，略高于基线的 91.7%。

关键能力验证

语言跟随：在相同视觉观测下，执行 “关门” 指令的成功率达 42.9%，是基线模型（14.3%）的 3 倍，证明慢路径语义推理的有效性；

token化效率：RVQ-VAE token化方案的平均token长度仅 36，远短于 FAST token化的 81.12，推理频率提升 3.4 倍，且任务成功率达 83.3%（FAST 方案为 0%）。

局限与未来方向

DuoCore-FS 作为大模型驱动全身体控的突破性工作，仍存在可优化空间：

慢路径推理加速：未来可探索一致性解码等技术，进一步降低 VLM 推理延迟，提升语义更新频率；
快路径效率优化：减少扩散模型的流匹配步骤，探索单步生成方案，突破 30Hz 频率上限；
桥接机制升级：设计更精细的模态交互机制，强化快慢路径的语义对齐，提升复杂任务成功率；
多模态融合拓展：融入力触觉、听觉等信号，适配接触密集型任务，进一步提升真实场景鲁棒性；
任务覆盖扩展：需在更多动态场景、长时程任务中验证框架的通用性与稳定性。

总结：DuoCore-FS 的范式价值与行业影响

DuoCore-FS 的核心贡献不仅在于实现了 3B 级 VLM 与 30Hz 全身体控的兼顾，更在于建立了 “异步架构 - 模态对齐 - token化 - 联合训练” 的完整技术链路：通过真正并行的快慢双路径破解频率耦合瓶颈，通过 RVQ-VAE token化解决全身体控表征难题，通过跨时标训练消除异步执行的训练推理错位。其开源的训练、推理与部署方案已集成于 Astribot 机器人平台，为机器人学、计算机视觉、自然语言处理等领域提供了统一研究平台，推动大模型驱动的机器人操纵从实验室走向真实场景，加速通用自主机器人的产业化落地。

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

从教练到考官，青瞳视觉（CHINGMU）成为中国具身智能进化的关键支撑

宇树科技在G1人形机器人参与CMG世界机器人格斗擂台赛及与UFC精英训练中心的备赛训练中，全面采用了青瞳视觉（CHINGMU）的光学动捕系统，该系统精准捕捉了专业格斗运动员的位姿、速度及关节角度变化等核心运动数据，将人类复杂的拳击、泰拳等动作转化为高精度的训练“蓝本”。行业的脚步从未停歇，青瞳视觉（CHINGMU）的视野已投向更远的未来。通过将操作者（人）的动作数据，甚至精细化到手指的姿态，实时、