在上一节我们讨论了莫拉维克悖论,揭示了“简单的动作”背后隐藏着巨大的计算复杂性。现在,我们要深入系统的核心架构。这是区分“聊天机器人”与“物理机器人”的最根本分水岭。

“互联网 AI 处理的是静态的信息流,具身 AI 处理的是动态的因果流。”

在经典的人工智能和现代的“互联网 AI”中,主流的思维模型是 Input-Output

  • 输入:一段文本、一张图片、一个问题。

  • 处理:模型在“脑中”(即其参数和计算图内)进行推理、联想、生成。

  • 输出:一段文本回复、一张生成图片、一个答案。

这个过程是开环的、离散的、一次性的。​ 模型与世界没有持续的交互。它接收一个“快照”,然后输出一个“预言”。ChatGPT 无法“体验”到自己生成的建议被执行后,世界会发生什么变化。它的智能,建立在海量的人类“行动结果”的记录(文本)之上,但它自己从未“行动”过

开环系统 (Open-Loop Control):

  • 定义: 系统的输出仅取决于预先的设定或当前的输入,而不依赖于系统的反馈结果。

  • 例子: 你扔出一只纸飞机。一旦离手(Action),你就无法再控制它。风怎么吹、它怎么飞,完全由物理定律接管,你无法根据它的飞行姿态进行实时修正。

  • LLM 的类比: 传统的 Text-generation 某种程度上是“开环”的——模型生成文本时,并不知道读者读了之后的情绪变化(除非读者下一轮回复告诉它)。

具身智能体(如机器人)的生存基础,是一个永不停息的闭环Sense-Act-Sense

闭环系统 (Closed-Loop Control):

  • 定义: 系统的决策依赖于系统当前的状态反馈。输出(Action)会改变环境,环境的新状态(State)又会反过来影响下一个输出。

  • 例子: 你驾驶一辆车。你踩油门(Action),车速变快,视觉感知到前方有弯道(Sense),于是你踩刹车并打方向盘(New Action)。这是一个毫秒级的、连续不断的修正过程。

  • 机器人学核心: 所有的具身智能,本质上都是在处理误差(Error)。物理世界充满了不确定性,只有通过闭环反馈,才能消除误差。

1. 感知 (Sense)

机器人通过传感器(相机、激光雷达、关节编码器)获取当前环境的信息。

注意: 机器人通常无法获得环境的全知状态 ,只能获得观测值 $o_t$ 。例如,你看不见杯子背面的图案,但它客观存在。

2. 行动 (Act)

Act (决策与执行 / Action $a_t$):

大脑(无论是 PID 控制器、神经网络 Policy 还是 LLM)根据 $o_t$ 计算出动作 $a_t$

  • $a_t = \pi(o_t)$

  • 这里的 $a_t$可以是底层的电机力矩,也可以是高层的语义指令。

3. 再感知 (Sense)

动作执行后,世界状态发生了改变。智能体必须立即进行下一次感知,以确认动作的效果:“我向前移动了吗?”“我抓住杯子了吗?”“物体被我推倒了吗?”

Physics (物理演变 / Environment Step):

这是互联网 AI 缺失的一环。你的动作 $a_t$ 施加于环境,物理引擎(现实世界) 根据动力学定律更新世界状态。

  • $s_{t+1} = \mathcal{T}(s_t, a_t)$

  • $\mathcal{T}$ 是状态转移函数,通常是未知的、非线性的、含噪声的。

这个循环以数十到数百赫兹的频率高速运行,构成了智能体在时间流中的连续存在。​ 每一次新的感知,都包含了上一次动作所造成结果的反馈信息。

闭环的本质:行动改变感知,感知驱动行动

这是一个深刻的洞见:在 Input-Output 模型中,输出是“终点”。而在 Sense-Act-Sense 循环中,行动的唯一目的,是产生新的、更有用的感知。

  • “向左看”​ 这个动作,是为了获得左侧视野的感知信息。

  • “推一下门”​ 这个动作,是为了感知门是锁着还是能被推开。

  • “捏住物体”​ 这个动作,是为了通过触觉和视觉确认抓取是否稳定。

智能,在这个框架下,被重新定义为:为了达成目标,而有效地组织自身 Sense-Act 序列的能力。​ 一个智能体懂得执行什么样的行动序列,可以使其感知流最终与“目标达成”的状态描述相匹配。

因果性与状态依赖 (State Dependence)

在 LLM 中,我们说 $P(w_t | w_{1...t-1})$,即下一个词取决于上文。

在具身智能中,这变成了马尔可夫决策过程 (MDP) 的基础:

$P(s_{t+1} | s_t, a_t)$

这意味着:你现在的每一个动作,都决定了你未来会面对什么样的世界。

如果机器人挥舞手臂砸碎了杯子(Action),这个“杯子碎裂”的状态(State)是不可逆的。下一个时刻,机器人面对的就是“一地碎片”的环境。

这种时间上的强相关性不可逆性,要求具身智能算法必须具备极高的鲁棒性(Robustness)。你不能像生成文本那样“幻觉”一个动作,因为物理世界会立刻给你惩罚。

频率 (Hz) 的重要性:时间是第四维度

在完美的数字世界,感知是即刻、完整、无噪声的,动作执行是精确、瞬时的。但在物理世界:

  • 感知延迟:相机曝光、数据传输、神经网络推理都需要时间。

  • 执行延迟:电机响应、机械传动需要时间。

  • 噪声:图像模糊、深度值错误、关节打滑、地面不平。

这些延迟和噪声,意味着智能体永远在基于“过去”的感知,去影响“未来”的世界,并面对一个不确定的结果。​ 这使得纯粹的开环规划(如象棋走法)在物理世界中几乎不可能成功。智能体必须在循环中,持续地估计状态、预测后果、调整动作

在 ChatGPT 中,推理速度慢一点(Latency),用户只是多等几秒。 在机器人中,控制频率(Frequency) 是生与死的界限。

  • 低频决策 (1-5 Hz): 类似于“大脑”思考。例如 VLA 模型决定“去厨房拿可乐”。

  • 高频控制 (50-1000 Hz): 类似于“小脑”和“脊髓”反应。例如保持双足机器人的平衡。

如果你的 Sense-Act 循环太慢(延迟过高),会发生什么? 假设你在走路,脚被绊了一下。

  • 100Hz 循环: 你的小脑在 10ms 内感知到失衡,立刻调整肌肉张力,你踉跄了一下但站稳了

  • 1Hz 循环: 你的大脑在 1秒后才意识到失衡,此时你已经摔倒在地上了

这就是实时性(Real-time) 的约束。具身智能不仅要算得准,还要算得快。

互联网 AI 是“离线”的智者,它可以坐在扶手椅上慢条斯理地写诗; 具身 AI 是“在线”的运动员,它必须在毫秒级的感知-行动循环中,与残酷的物理定律通过闭环反馈进行博弈。

理解了 Closed-Loop,你就理解了为什么我们不能简单地把 GPT-4 塞进机器人的身体里——因为它缺乏那种每秒 100 次的、基于物理反馈的微调能力。这引出了我们下一节的主题:在这个循环中,究竟有哪些“看不见的敌人”?

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐