记录每天的学习内容2026.3.23--简单了解VLA中的语义空间和action行为(AI总结),与ai问答全部对话在https://github.com/101per/learning.git
latent 是去除冗余后保留语义结构的表示空间VLA = 在语义空间中,通过学习动力学与动作变量,实现对未来状态的可控生成(完)
学习过程文档:VLA中的 Action、Latent 与 World Model 机制
一、学习目标(今日实际完成)
在有限时间内,建立以下最小认知闭环:
-
理解 VLM 在 VLA 中的作用
-
区分 action / latent action / latent state
-
掌握 world model 的动力学本质
-
明确 diffusion 与 world model 的关系(非继承)
二、核心概念梳理
1. VLM(Vision-Language Model)
定义:
将视觉与语言映射到统一语义空间的模型
形式化表示:
[ z = f(image, text) ]
作用:
-
提供语义理解(perception + reasoning)
-
输出统一的 latent 表示
2. VLA整体结构(关键框架)
image + text
↓
VLM(语义理解)
↓
latent state z_t
↓
action / latent action u_t
↓
world model(状态转移)
↓
z_{t+1}
三、Action 表达机制
1. 标准 Action(控制空间)
定义:
[ a_t \in \mathbb{R}^n ]
特点:
-
高维
-
与具体机器人绑定
-
表示“如何控制”
2. Latent Action(核心)
定义:
[ u_t \in \mathbb{R}^k,\quad k \ll n ]
作用:
[ z_{t+1} = f(z_t, u_t) ]
本质区别:
| 类型 | 含义 |
|---|---|
| action | 控制信号(how to act) |
| latent action | 状态变化模式(what happens) |
关键结论:
latent action 描述“变化效果”,而不是“控制细节”
四、Latent 的本质(重要修正)
原始理解(不完整):
latent = 压缩后的低维表示
更严格定义:
latent 是去除冗余后保留语义结构的表示空间
三个作用:
-
降低计算量
-
降低学习难度
-
统一多模态接口(最关键)
注意:
latent 不一定来自 VAE,也可以来自 Transformer / VLM
五、World Model(核心机制)
1. 基本形式
[ z_{t+1} = f(z_t, u_t) ]
2. 本质
学习语义状态的演化规律(dynamics)
3. 变化量形式
[ \Delta z = f(z_t, u_t) ]
[ z_{t+1} = z_t + \Delta z ]
4. 连续形式(进阶)
[ \frac{dz}{dt} = f(z, u) ]
关键理解:
world model ≈ latent 空间中的动力系统
六、关键纠正(重要认知升级)
误区:
world model 预测“每个点的变化”
正确:
world model 预测“整个语义状态的演化”
七、Diffusion 与 World Model 的关系
❗结论:
diffusion ≠ world model 的发展
正确关系:
diffusion 是一种工具,可以用于实现 world model
对比:
| 维度 | diffusion | world model |
|---|---|---|
| 目标 | 生成数据 | 预测状态 |
| 输入 | noise | state + action |
| 本质 | 生成过程 | 动力学建模 |
八、Action 的作用(关键理解)
[ z_{t+1} = f(z_t, u_t) ]
核心作用:
action 决定状态演化路径
对比:
| 情况 | 含义 |
|---|---|
| 无 action | 被动预测 |
| 有 action | 可控未来 |
九、整体统一视角(重要)
Perception(VLM) ↓ Latent State(z) ↓ Dynamics(World Model) ↓ Action(u)
十、今日核心结论(必须掌握)
1️⃣
VLM 负责理解,不负责行动
2️⃣
latent 是语义空间,不只是压缩
3️⃣
world model 学的是状态演化规律
4️⃣
latent action 是“变化模式”,不是控制信号
5️⃣
action 的本质是“选择未来”
十一、你当前所处阶段(定位)
你已经完成:
-
生成模型基础(VAE / Diffusion)
-
多模态理解(CLIP / VLM)
-
动力学建模初步(World Model)
当前阶段:
VLA核心机制理解阶段(中级)
十二、下一步学习建议(关键路径)
建议下一步进入:
👉 latent action 的学习机制
重点问题:
-
latent action 如何从数据中学习?
-
是否需要 action 标注?
-
如何从视频中反推 action?
后续方向:
-
inverse dynamics
-
video prediction → action inference
-
world model + policy
十三、总结(一句话)
VLA = 在语义空间中,通过学习动力学与动作变量,实现对未来状态的可控生成
(完)
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)