在机器人操作领域,“通用性” 与 “高效性” 的平衡始终是核心挑战——现有方案要么缺乏动态建模能力,难以应对复杂环境交互;要么推理速度慢,无法满足实时控制需求。

上海 AI 实验室、上海交通大学等团队联合提出的MM-ACT,以 “统一多模态表征 + 并行解码架构” 为核心,创新引入 “上下文共享多模态学习” 范式,实现了文本、图像、动作的协同生成,既具备精准的语义理解与环境预测能力,又能高效输出执行动作,在模拟与真实场景中均展现出超越现有方案的综合性能。

  • MM-ACT 官方项目页:https://github.com/HHYHRHY/MM-ACT
  • 论文链接:https://arxiv.org/abs/2512.00975

原文链接:上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同

为什么需要重构视觉 - 语言 - 动作(VLA)模型架构?

当前 VLA 模型陷入 “三重矛盾”:语义理解与动态建模难以兼顾、多模态生成效率低下、训练目标存在错位,核心问题可归结为 “无法在统一框架内实现‘感知 - 规划 - 执行’的高效协同”:

方案类型 代表思路 核心缺陷
VLM 衍生模型 基于预训练视觉 - 语言模型添加动作头 1. 缺乏物理动态建模能力,时序动作生成精度低;2. 自回归解码速度慢,难以满足实时控制
视觉预测驱动模型 融入未来视觉预测的决策框架 1. 任务导向规划能力弱,指令理解不足;2. 专注预测目标,与动作执行协同性差
混合生成模型 文本自回归 + 图像 / 动作并行解码 1. 架构复杂,需适配多种注意力机制;2. 训练 pipeline 繁琐,模态间优化目标不一致

这些方案忽略了关键前提:机器人操作是 “语义理解 - 环境预测 - 动作执行” 的闭环过程,需要模型既能通过文本理解任务意图、通过图像预测环境变化,又能高效输出精准动作。

MM-ACT 的设计正是针对性解决这一问题:通过统一多模态表征空间消除架构割裂,通过差异化并行解码平衡效率与精度,通过上下文共享学习强化模态协同,最终实现 “三位一体” 的高效生成。

MM-ACT:如何实现多模态协同的机器人操作?

MM-ACT 的核心设计可概括为 “以统一token空间为基础,以并行解码为核心,以上下文共享学习为保障,实现文本规划、图像预测、动作生成的协同优化”。它既解决了多模态融合的架构复杂性问题,又提升了动作生成的效率与精度,具体分为三大核心模块:

核心模块 1:统一多模态表征——打破模态壁垒

MM-ACT 通过模态专用tokenizer,将文本、图像、机器人状态与动作均编码为离散token,纳入同一表征空间,实现 “输入 - 处理 - 输出” 的端到端统一:

  • 文本token化:采用 LLaDA 模型的tokenizer,直接处理任务指令、文本描述等语言输入;
  • 图像token化:使用 Show-o 预训练图像量化器,将 256×256 图像编码为 256 个token(码本规模 8192),生成时通过解码还原图像;
  • 动作 / 状态token化:采用 bin tokenizer,将连续动作与状态值归一化至 [-1,1] 后量化为 2048 个专用token,输出时反量化为连续控制值。

这种设计消除了不同模态的表征差异,为跨模态学习提供了基础,模型输入格式统一为 “模态标识 + 多模态交织上下文 + 掩码块”,其中模态标识<<|mm2a|>(动作生成)、<<|mmu|>(文本规划)、<<|t2i|>(图像预测)指定生成目标。

核心模块 2:差异化并行解码——平衡效率与精度

针对不同模态的生成特性,MM-ACT 设计了两种并行解码策略,既保证文本 / 图像生成质量,又满足动作实时性需求:

  • 重掩码并行解码(文本 / 图像):采用离散扩散的迭代去噪思路,通过多步重掩码优化生成质量。文本生成限制在 256 token内,适配任务规划场景;图像生成保持 256 token输出,精准预测动作执行后的环境状态;
  • 单步并行解码(动作):为满足机器人实时控制需求,动作生成采用 “全掩码单次预测” 策略,在一个前向传播中生成整个动作块(块大小 = 动作维度 × chunk 尺寸),推理延迟低至 0.22 秒,支持 40Hz 高频率动作输出。

两种策略均基于双向注意力机制,避免了自回归架构的串行依赖,大幅简化了模型结构与训练流程。

核心模块 3:上下文共享多模态学习——强化跨模态协同

创新提出 “上下文共享学习” 范式,在相同的机器人观测、任务指令等上下文下,同时监督文本规划、图像预测、动作生成三大任务,通过梯度共享实现模态间的正向迁移:

  • 双阶段训练流程

    第一阶段:仅训练文本与图像生成,优化模态基础生成能力,直至损失收敛;

    第二阶段:加入动作生成任务,通过损失权重调节(文本 / 图像权重 0.05-0.1,动作权重 1),在保持文本 / 图像生成质量的同时,利用跨模态信息提升动作生成精度;

  • 统一优化目标:所有模态均采用掩码token预测的交叉熵损失,避免多目标优化的冲突,数学表达为:

L = λ m m 2 a L a c t + λ m m u L t e x t + λ t 2 i L i m g L = \lambda_{mm2a}L_{act} + \lambda_{mmu}L_{text} + \lambda_{t2i}L_{img} L=λmm2aLact+λmmuLtext+λt2iLimg

其中仅对掩码位置计算损失,确保训练聚焦生成目标。

实验结果:多场景验证通用能力与性能优势

MM-ACT 在模拟(LIBERO、RoboTwin2.0)与真实机器人(Franka)场景中进行了全面评估,核心结论可概括为 “精度高、泛化强、效率优”:

核心性能:刷新多数据集基准

如表 1 所示,MM-ACT 平均成功率 96.3%,超越 UniVLA(95.5%)、DreamVLA(92.6%)等所有基线,Libero-Long 长序列任务成功率提升 5.0%。在 LIBERO 的四个子基准中均表现优异,尤其是在长序列任务中,文本 - 动作联合训练带来显著提升。

如表 2 所示,在 RoboTwin2.0 的 8 个跨域任务中,平均成功率 52.38%,较单动作训练提升 9.25%,超越 π 0 \pi_0 π0(48.13%)和 OpenVLA-OFT(23.13%),三模态联合训练的优势更为突出。

如表 3 所示,3 个实物操作任务(按按钮、堆叠积木、分拣果蔬)平均成功率 72.0%,优于 π 0 \pi_0 π0(70.0%)和 OpenVLA-OFT(58.6%)。真实机器人实验进一步验证了模型的落地能力,在物理交互场景中保持领先性能。

关键分析:跨模态学习的价值

通过消融实验验证多模态协同的核心作用:

  • 文本 - 动作联合训练:动作生成成功率提升 3.37%,证明任务规划文本能引导动作序列优化;
  • 图像 - 动作联合训练:成功率提升 5.62%,说明未来图像预测为动作执行提供了环境约束;
  • 文本 - 图像 - 动作三模态联合:验证跨模态信息的互补性,实现 1+1+1>3 的效果。

解码策略与效率权衡

综合机器人实时性需求,最终选择 “单步并行解码 + 动作块大小 8” 的配置,平衡效率与精度。

RoboTwin2.0 场景表现与关键支撑

RoboTwin2.0 聚焦双臂机器人复杂操作,包含 8 项核心任务,覆盖双臂协同、精细操作、动态交互等多元场景,且所有任务均加入场景随机化(外观、光照、物体位置随机变化),严格测试模型跨域适应能力。

关键任务示例:

  • Place Burger Fries(双臂协同放置):需双手分别抓取汉堡与薯条,精准放置到托盘,考验双臂空间协调能力;
  • Click Bell(精细操作):需精准点击铃铛顶部中心,对动作精度要求极高;
  • Dump Bin Bigbin(动态交互):抓取小桶并将内部小球倒入大桶,涉及物体姿态变化与动态轨迹规划。

MM-ACT 通过自动化文本标注生成结构化任务规划,为双臂操作提供清晰引导,生成文本与真值逻辑高度一致。

核心优势:

  • 标注自动化:基于技能函数调用序列,自动生成 “指令 + 规划 + 历史进度 + 当前子任务” 的文本,无需人工干预,构建约 70k 训练样本;
  • 逻辑连贯性强:从图 11 示例可见,无论是 “Adjust Bottle”(直立瓶子)还是 “Beat Block Hammer”(锤击方块)任务,模型生成的规划文本均能准确衔接历史操作与当前目标,明确双臂分工与下一步动作;
  • 协同引导有效:在 “Place Burger Fries” 任务中,文本规划明确 “左臂抓汉堡、右臂抓薯条” 的协同逻辑,直接提升动作执行的协调性,该任务成功率达 73%,远超基线模型。

关键结论与未来方向

核心结论

  • 统一表征是基础:文本、图像、动作的离散token统一,消除了模态融合的架构壁垒,简化了训练流程;
  • 并行解码显优势:差异化解码策略既保证了文本 / 图像的生成质量,又实现了动作的低延迟输出,适配机器人实时控制;
  • 跨模态学习提精度:上下文共享的多模态训练,使任务规划、环境预测与动作执行形成协同,大幅提升泛化能力。

未来方向

  • 模态扩展:融入触觉、力反馈等模态,提升复杂操作的环境适应性;
  • 长序列优化:针对更长动作序列,探索重掩码与单步解码的混合策略;
  • 真实场景扩展:扩充更多真实世界数据集,进一步缩小模拟到真实的迁移差距。

总结

MM-ACT 通过 “统一多模态token空间 + 差异化并行解码 + 上下文共享学习” 的创新设计,打破了现有 VLA 模型 “语义理解与动态建模割裂、生成效率与精度失衡” 的僵局。它没有局限于单一模态的优化,而是构建了 “感知 - 规划 - 执行” 的全链路协同框架,在模拟与真实场景中均展现出强大的通用性与实用性。对于工业分拣、家庭服务等规模化落地场景,这种兼顾高效性与泛化能力的方案,为通用型机器人操作技术的产业化提供了重要参考。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐