GeoSem-WAM：几何与语义-觉察的世界动作模型

硅谷秋水

84人浏览 · 2026-07-01 00:15:00

硅谷秋水 · 2026-07-01 00:15:00 发布

26年6月来自港科大（深圳）、港大、中科大和北京人形机器人中心的论文“GeoSem-WAM: Geometry- and Semantic-Aware World Action Models”。

近期的世界动作模型（WAMs）在具身决策方面展现出了卓越的能力。然而，其有效性究竟源于推理过程中的显式未来想象，还是源于预测训练所驱动的表征学习，目前尚无定论。现有证据表明，其主要优势在于学习鲁棒的潜表征，而非在测试阶段生成未来的观测图像。尽管如此，现有的 WAMs 主要依赖于基于 RGB 的未来预测，这种方式对复杂环境的结构和空间理解较为有限。为解决这一问题，提出一种结构化世界建模框架，通过几何与语义监督来增强潜表征。除了 RGB 图像的未来预测外，模型还引入针对未来几何与语义表征的两个辅助预测分支，从而能够在统一的潜空间内同时捕捉场景动态、空间几何结构及语义上下文。至关重要的是，方法避免在测试阶段进行显式的未来轨迹推演或视频生成，从而保持了高效的推理性能。

如图 1 所示该方法的架构图（训练和推理）：

请添加图片描述

GeoSem-WAM 构建于 Wan2.2-5B [35] 的视频扩散 Transformer (DiT) 之上，该模型充当了世界建模的主干网络。此外，该模型还复用了同一模型中的预训练文本编码器和视频 VAE：任务指令通过原生的 T5 编码器进行编码，并经由交叉注意机制传递给所有 Token；而视觉观测则通过预训练的 VAE 转换为潜视频 Token。在此主干网络的基础上，引入一个专门用于生成动作序列块（action chunk）的“动作专家 DiT”——其架构与主干网络相似，但在规模上有所不同。此外，还集成 DPT 风格 [36] 的几何预测分支和语义分割分支。整个模型采用 Transformer 混合（MoT）架构，并在视频分支与动作分支之间共享注意机制。虚线框标示模型在推理阶段的输入内容及网络架构。

为了促使学习到的世界表征同时编码几何结构与对象级语义，对视频潜（latent）Token 引入密集辅助监督。采用 DPT 风格 [36] 的密集预测头来实现这一辅助分支。该 DPT 风格的预测头聚合了来自多个 Transformer 模块的中间视频 Token。这些多层级特征经过投影、融合与解码，转化为密集的空间预测结果，从而使辅助监督能够同时利用低层空间细节与高层语义抽象信息。

如图 2 展示了该 DPT 风格密集预测分支的详细结构。具体而言，输入视频首先通过 VAE 编码器转换为 Token；在这些 Token 经由多个 Transformer 阶段处理后，架构将各阶段的 Token 重新组合为多分辨率、类图像的表征；随后，这些表征通过融合模块进行逐步融合与上采样，并最终由几何与语义预测头解码，生成细粒度的预测结果。为了更好地适应视频输入，将原有的重组与融合模块扩展为 3D 重组模块与 3D 融合模块。

请添加图片描述

如图 5 所示仿真环境与多模态观测概览。(I) Libero 基准任务：(a) Libero-Goal，(b) Libero-Object，© Libero-Spatial 和 (d) Libero-10。各任务均展示了 RGB 观测图像 (1, 2)，并配有相应的深度图 (3) 和语义分割掩码 (4)。(II) RoboTwin 基准任务：(a) 整洁环境和 (b) 随机环境。代表性任务包括按响门铃、移动罐子/壶、移动订书机/垫板、抓取双瓶以及放置手机支架，并提供成对的 RGB、深度及语义观测数据。

请添加图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿