记录每天的学习内容2026.3.23--简单了解VLA中的语义空间和action行为(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

latent 是去除冗余后保留语义结构的表示空间VLA = 在语义空间中，通过学习动力学与动作变量，实现对未来状态的可控生成（完）

101%87

337人浏览 · 2026-03-23 17:52:07

101%87 · 2026-03-23 17:52:07 发布

学习过程文档：VLA中的 Action、Latent 与 World Model 机制

一、学习目标（今日实际完成）

在有限时间内，建立以下最小认知闭环：

理解 VLM 在 VLA 中的作用
区分 action / latent action / latent state
掌握 world model 的动力学本质
明确 diffusion 与 world model 的关系（非继承）

二、核心概念梳理

1. VLM（Vision-Language Model）

定义：

将视觉与语言映射到统一语义空间的模型

形式化表示：

[ z = f(image, text) ]

作用：

提供语义理解（perception + reasoning）
输出统一的 latent 表示

2. VLA整体结构（关键框架）

image + text
    ↓
VLM（语义理解）
    ↓
latent state z_t
    ↓
action / latent action u_t
    ↓
world model（状态转移）
    ↓
z_{t+1}

三、Action 表达机制

1. 标准 Action（控制空间）

定义：

[ a_t \in \mathbb{R}^n ]

特点：

高维
与具体机器人绑定
表示“如何控制”

2. Latent Action（核心）

定义：

[ u_t \in \mathbb{R}^k,\quad k \ll n ]

作用：

[ z_{t+1} = f(z_t, u_t) ]

本质区别：

类型	含义
action	控制信号（how to act）
latent action	状态变化模式（what happens）

关键结论：

latent action 描述“变化效果”，而不是“控制细节”

四、Latent 的本质（重要修正）

原始理解（不完整）：

latent = 压缩后的低维表示

更严格定义：

latent 是去除冗余后保留语义结构的表示空间

三个作用：

降低计算量
降低学习难度
统一多模态接口（最关键）

注意：

latent 不一定来自 VAE，也可以来自 Transformer / VLM

五、World Model（核心机制）

1. 基本形式

[ z_{t+1} = f(z_t, u_t) ]

2. 本质

学习语义状态的演化规律（dynamics）

3. 变化量形式

[ \Delta z = f(z_t, u_t) ]

[ z_{t+1} = z_t + \Delta z ]

4. 连续形式（进阶）

[ \frac{dz}{dt} = f(z, u) ]

关键理解：

world model ≈ latent 空间中的动力系统

六、关键纠正（重要认知升级）

误区：

world model 预测“每个点的变化”

正确：

world model 预测“整个语义状态的演化”

七、Diffusion 与 World Model 的关系

❗结论：

diffusion ≠ world model 的发展

正确关系：

diffusion 是一种工具，可以用于实现 world model

对比：

维度	diffusion	world model
目标	生成数据	预测状态
输入	noise	state + action
本质	生成过程	动力学建模

八、Action 的作用（关键理解）

[ z_{t+1} = f(z_t, u_t) ]

核心作用：

action 决定状态演化路径

对比：

情况	含义
无 action	被动预测
有 action	可控未来

九、整体统一视角（重要）

Perception（VLM）
    ↓
Latent State（z）
    ↓
Dynamics（World Model）
    ↓
Action（u）

十、今日核心结论（必须掌握）

1️⃣

VLM 负责理解，不负责行动

2️⃣

latent 是语义空间，不只是压缩

3️⃣

world model 学的是状态演化规律

4️⃣

latent action 是“变化模式”，不是控制信号

5️⃣

action 的本质是“选择未来”

十一、你当前所处阶段（定位）

你已经完成：

生成模型基础（VAE / Diffusion）
多模态理解（CLIP / VLM）
动力学建模初步（World Model）

当前阶段：

VLA核心机制理解阶段（中级）

十二、下一步学习建议（关键路径）

建议下一步进入：

👉 latent action 的学习机制

重点问题：

latent action 如何从数据中学习？
是否需要 action 标注？
如何从视频中反推 action？

后续方向：

inverse dynamics
video prediction → action inference
world model + policy

十三、总结（一句话）

VLA = 在语义空间中，通过学习动力学与动作变量，实现对未来状态的可控生成

（完）

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

老板要的不是聊天机器人：一篇讲明白企业级 Agent 怎么搭

这篇文章用大白话讲清楚企业级 Agent 是什么、需要哪些工具、正确的落地路线是什么，并用报销审核案例说明 Agent 为什么不是聊天机器人。

DAMO开发者矩阵

从场景落地到技术迭代：服务机器人迈入规模化商用爆发期

采用8nm工艺，搭载6TOPS NPU算力，支持8K编解码、多传感器融合、高精度力控、复杂环境自主导航、机械臂动态运动规划，算力性能强劲、体积小巧、功耗可控，可支撑人形康养机器人、高端AI理疗机器人、工业级AMR、四足巡检机器人等高负载、高智能需求的高端设备开发。商用服务机器人主要应用于酒店、商场、写字楼、园区等公共场景，可实现迎宾引路、物品配送、清洁消杀、导购讲解、安防巡逻等标准化重复作业，核心