该文章摘自我的博客网站,写于2026年2月2日。

先把一些感悟和思考写在前面:

大模型的两大主流应用:大语言模型和具身智能
大语言模型是输入text,输出text
计算机视觉cv是输入image,输出image或text(比如图像分类)
vlm是输入image和text,输出text
vlm加入真机也就是具身后,可以迁移为vla,也就是输出了action

大模型的本质就是黑箱,这个黑箱里面有很多的参数和权重(NN,很像神经元加工信息的过程,神经元接收一个信息,以不同的权重在不同的路径上再发送出去),而我们训练模型的过程就是通过输入和期望的输出来把这个黑箱清晰化的过程,也就是确定这些权重和参数的过程,最后达到的效果就是输入一个东西之后,通过这个黑箱,输出我们想要的值。

大语言模型是大模型中最核心的一种,也是现在发展非常快,且很成熟的一种,这源于我们人类之间的交流以语言为主,而这正对应着大语言模型训练极其需要的数据,而在具身领域,由于机器人与物理世界交互的成本很高,且标注也比较麻烦,因此具身智能领域之所以还没有得到一定的发展,根本原因在于数据量不足

举个简单的例子,现在具身领域比较有名的数据集是Google的一个比较大的数据集,包含大约4k个小时的视频,但是我们看一看训练gpt-2大语言模型的数据量,大致相当于是有4000k的视频量,这就差了3个数量级,而且这还是gpt-2,也就是仅仅是大语言模型中并不算成熟的一个。从这个例子就可以看出在具身领域,数据的缺少是目前并没有得到突破进展的重要原因,这也是为什么李飞飞教授当初构建imagenet,现在又极力强调空间智能和构建世界模型的重要性。

在具身领域,有标注的数据是昂贵的,现在有很多数据标注的工厂,但这种重复性的任务本身没什么难度,因此我在想是否可以考虑在东南亚,非洲这种劳动力廉价的地区去开设这样的数据标注工厂,当然了,这又会与外贸有关,所以是一个比较复杂的工程。

因此在我看来,这个大语言模型可以说是发展的已经很不错了,接下来如果想有什么质的飞跃,我是想不到了,但是要达到量的提升倒是不难,应用也不难,比如今年agent的爆火,在这里真想吐槽一句,像agent和工作流这种大语言模型的垂直应用是企业和大厂应该做的(而且其实也没啥技术壁垒,vibe coding起个挺吓人的名其实就是AI coding + 你在某一领域有专业知识和具体需求),如果科研界和学术界搞这种东西那还是别读了,直接就业去就完事了。

而具身智能这一领域虽然很多人唱衰,但是我倒是觉得正是这些目前有头绪但是还没有什么根本的解决办法的领域,才是一个科研工作者应该做的,所以我很愿意投身于这个领域(至少现在是这样的)。

最后再分享个我觉得贼有意思的事:有同学问张老师,说如果以后有一天机器人真的走进了人们的生活,那么他能够适应不同的生活场景吗,这个问题其实很常见,也点出了我们在具身智能领域努力的终点,也就是极强的泛化能力,换个名字可能就听过了,那就是具身智能领域的AGI。我觉得有意思的点就在于张老师的回答,他说他也不知道能不能做到,但是这就和传教一样,你首先要让自己相信一定能做到这一点,然后再极力的说服别人也相信一定可以做到这一点,这让我想到了融资的魅力,以及那些投身于具身智能的头部企业是如何拿到投资的(手动狗头)。

不管怎么说吧,也不管最后到底能不能,老子搞这个的,我是肯定信他能。

下面是今天的笔记

重新认识一下AI

What’s the key to AI ?

认识逐步深入:
1.模型:深度学习——>transformer
2.数据
3.芯片:英伟达
4.能源:电力
5.稀土:变压器(永磁铁)
从模型到物质的转变

What changes AI brings to us ?

迭代迅速,团队协作,AI coding

Foundation models

1.具身智能得以发展的重要驱动因素
2.泛化性,应用于新场景
3.自监督学习:自监督学习的核心思想是利用数据中的某些部分来预测其他部分。例如,在图像中,可能会把图像的一部分遮挡住,然后让模型去预测被遮挡的部分。在文本中,可能会将句子中的某些词隐藏起来,任务是预测这些缺失的词。
4.基于transformer

Task-specific models

1.专一,单一应用场景下,特定任务
(插播一条:
MLP:多层感知机(Multi-Layer Perceptron),是最基础、最经典的神经网络模型之一。几乎所有深度学习模型(CNN、Transformer、LLM)里,都能看到它的影子。
输入层 → 隐藏层(1 层或多层) → 输出层
举个例子:
x = [x1, x2, x3] (输入)

Linear + ReLU (隐藏层 1)

Linear + ReLU (隐藏层 2)

Linear (输出)
)

Why Foundation models are large ?

模型规模大了之后,会涌现出很多能力:

Scaling law:

这是一条定律,指的是模型规模,数据量,总计算量增加,误差(loss)会变小
Scaling Law 的核心公式就是:loss = 常数 + 规模的负幂次

In-context learning

In-Context Learning 指的是:模型在推理阶段,通过上下文中的示例或指令,表现出对新任务的适应能力,而无需参数更新。
这在小模型上是无法做到的,需要规模很大的模型

Instruction-tuning

预训练完的模型只是具备了这些知识,知道一个一个的输出token,但是他并不知道怎么表达,因此需要instruction-tuning,这样才具备回答你问题的能力。

Chain-of-thought

思维链,思维逻辑,一步一步的(step by step)将过程展开和拆解

(Zero-shot:不给例子,只给任务说明,模型直接做 Few-shot:给1个或几个示例,模型照着学着做)

大模型是一个很宽泛的概念,比如大语言模型,金融相关的大模型,应用于具身智能的大模型等等。

Example of Foudation models

评估在大模型领域很重要很重要,但在具身智能领域还没有得到广泛应用
如何评估:
1.benchmark test:用同一套“标准考试”,去实际跑模型并打分的过程
2.automatic evaluation:不靠人,用程序自动给模型“打分”
3.human votes:人评估和打分

Embodied AI(具身智能)

1.大语言模型发展的很好,但一旦加上身体之后就很难让模型学习好,也就是具身层面的数据一是较难获得,二是很难让模型学习好
2.具身并不一定是类人的,只要有身体就算具身

具身智能的产业链可以由汽车的产业链做一个小的改动后迁移过来。
具身智能短期之内还是实现不了AGI,这是外界还没认识到的(手动狗头)

强化学习(RL)

MDP:马尔可夫决策过程
强化学习里,你永远在做一个循环:
环境给状态s
智能体选动作a
环境返回 奖励 r 和下一个状态 s′
把经验(s,a,r,s′) 用来更新你的模型
重复很多次,让策略越来越好

状态 s:你看到什么
动作 a:你怎么做
奖励 r:你做得好不好
策略 π:决定怎么选动作的规则

几种常见的算法和概念:

DQN
DQN 解决什么问题?
动作是离散的(比如 上/下/左/右)
你想知道:在状态 𝑠 下选动作 𝑎 以后,未来能拿多少总奖励?
所以 DQN 学的是:𝑄(𝑠 , 𝑎) ≈ 从(𝑠 , 𝑎)开始的长期收益
核心想法:
用神经网络来近似 Q 表:输入状态 s,输出每个动作的 Q 分数。

A3C
2.1 A3C 解决什么问题?
DQN 对连续动作不友好,所以 A3C 改思路: 直接学习策略 π(a|s)(在状态 s 下选动作 a 的概率/分布),并且配一个 Critic 来估计状态价值:
𝑉(𝑠) ≈ 从 s 开始的长期收益
2.2 Actor-Critic 结构
Actor(演员):输出动作(概率/均值方差)
Critic(评论员):评价当前状态值 𝑉(𝑠)

PPO
Actor-Critic 最大的问题:策略更新太大就崩(训练突然坏掉)
PPO 的核心就一句: 每次更新策略,但限制新策略不要偏离旧策略太多

分布式AI:分布式 RL = 用很多机器 / 进程,同时帮一个智能体“刷经验 + 学模型”
Actor 拿当前策略 跑环境 采样 (s, a, r, s’) 不学习,只干活
Learner 收集所有 Actor 的数据 计算梯度 更新模型参数
采样和学习彻底解耦

Q-learning:学一个“打分函数”,告诉你:在某个状态下,做哪个动作最划算,Q(s, a) 就是一张“未来收益评分表”
Q-learning 的核心问题是现在做这个动作,长期来看值不值?
Q(s,a)=在状态 s 下执行动作 a 后,未来能获得的期望总奖励

Buffer是用来存储智能体与环境交互得到的经验数据的地方

模型预训练 = 先用大量“通用数据”把模型训练成一个“有常识、有基础能力的人”,再让它去干具体工作。预训练不是为了“完成任务”,而是为了“学会世界的基本结构”。

diffusion model:学会“怎么把一团噪声一步一步擦干净,变成一张真实的东西”
它不是直接“生成图片”,而是学一个能力:在任意噪声程度下,判断现在这张图里,哪些是噪声,哪些是“真实结构”,然后去掉一点噪声,得到更干净的版本,重复很多次。

在训练阶段:
每一次训练:
1.拿一张真实图片
2.随机加一点噪声(加多少随机)
3.把「加了噪声的图」丢给模型
4.让模型预测:我刚刚加进去的噪声是什么
让模型学会:“这种模糊 + 这种纹理,里面藏着的噪声大概是这样”,这一步重复 几亿次。

在生成阶段:
从一张纯噪声开始
噪声
↓(模型:去掉一点噪声)
有点像图

更像

很像

一张真实图片

每一步都很小,很稳,所以生成质量非常高。这几乎也是目前最主流的在具身领域训练模型的方法。

模型的后训练:在具身领域,由于涉及真机,因此模型的后训练是很必要的:VLA的后训练 = 在已经预训练好的“看得懂 + 听得懂”的模型上,进一步教它“怎么动、怎么更稳地动、怎么在真实世界动”。

Value Function(状态值)
记作: V(s)
意思是: “在状态 s 这个位置,本身有多好?” ,它不关心你现在具体要做哪个动作,只关心“站在这儿值不值”。

VLA最标准,最重要的模型: openvla , π系列 , diffusion policy , ACT , smolvla,有时间可以去实践一下。

具身智能的六大趋势:

1.from single task to pre-trained model
2.techniques to model action
3.to learn cross-embodiment knowledge
4.alleviate data scarcity problem
5.lower cost to involve more people in developing VLA
6.pre-training for generalization and post-training for proficiency

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐