具身智能1.3：闭环系统

系统的输出仅取决于预先的设定或当前的输入，而不依赖于系统的反馈结果。

AggressiveYu

446人浏览 · 2026-01-10 15:42:08

AggressiveYu · 2026-01-10 15:42:08 发布

在上一节我们讨论了莫拉维克悖论，揭示了“简单的动作”背后隐藏着巨大的计算复杂性。现在，我们要深入系统的核心架构。这是区分“聊天机器人”与“物理机器人”的最根本分水岭。

“互联网 AI 处理的是静态的信息流，具身 AI 处理的是动态的因果流。”

在经典的人工智能和现代的“互联网 AI”中，主流的思维模型是 Input-Output。

输入：一段文本、一张图片、一个问题。
处理：模型在“脑中”（即其参数和计算图内）进行推理、联想、生成。
输出：一段文本回复、一张生成图片、一个答案。

这个过程是开环的、离散的、一次性的。 模型与世界没有持续的交互。它接收一个“快照”，然后输出一个“预言”。ChatGPT 无法“体验”到自己生成的建议被执行后，世界会发生什么变化。它的智能，建立在海量的人类“行动结果”的记录（文本）之上，但它自己从未“行动”过。

开环系统 (Open-Loop Control)：

定义： 系统的输出仅取决于预先的设定或当前的输入，而不依赖于系统的反馈结果。
例子： 你扔出一只纸飞机。一旦离手（Action），你就无法再控制它。风怎么吹、它怎么飞，完全由物理定律接管，你无法根据它的飞行姿态进行实时修正。
LLM 的类比： 传统的 Text-generation 某种程度上是“开环”的——模型生成文本时，并不知道读者读了之后的情绪变化（除非读者下一轮回复告诉它）。

具身智能体（如机器人）的生存基础，是一个永不停息的闭环：Sense-Act-Sense。

闭环系统 (Closed-Loop Control)：

定义： 系统的决策依赖于系统当前的状态反馈。输出（Action）会改变环境，环境的新状态（State）又会反过来影响下一个输出。
例子： 你驾驶一辆车。你踩油门（Action），车速变快，视觉感知到前方有弯道（Sense），于是你踩刹车并打方向盘（New Action）。这是一个毫秒级的、连续不断的修正过程。
机器人学核心： 所有的具身智能，本质上都是在处理误差（Error）。物理世界充满了不确定性，只有通过闭环反馈，才能消除误差。

1. 感知 (Sense)

机器人通过传感器（相机、激光雷达、关节编码器）获取当前环境的信息。

注意： 机器人通常无法获得环境的全知状态 ，只能获得观测值 $o_t$ 。例如，你看不见杯子背面的图案，但它客观存在。

2. 行动 (Act)

Act (决策与执行 / Action $a_t$ )：

大脑（无论是 PID 控制器、神经网络 Policy 还是 LLM）根据 $o_t$ 计算出动作 $a_t$ 。

$a_t = \pi(o_t)$
这里的 $a_t$ 可以是底层的电机力矩，也可以是高层的语义指令。

3. 再感知 (Sense)

动作执行后，世界状态发生了改变。智能体必须立即进行下一次感知，以确认动作的效果：“我向前移动了吗？”“我抓住杯子了吗？”“物体被我推倒了吗？”

Physics (物理演变 / Environment Step)：

这是互联网 AI 缺失的一环。你的动作 $a_t$ 施加于环境，物理引擎（现实世界）根据动力学定律更新世界状态。

$s_{t+1} = \mathcal{T}(s_t, a_t)$
$\mathcal{T}$ 是状态转移函数，通常是未知的、非线性的、含噪声的。

这个循环以数十到数百赫兹的频率高速运行，构成了智能体在时间流中的连续存在。 每一次新的感知，都包含了上一次动作所造成结果的反馈信息。

闭环的本质：行动改变感知，感知驱动行动

这是一个深刻的洞见：在 Input-Output 模型中，输出是“终点”。而在 Sense-Act-Sense 循环中，行动的唯一目的，是产生新的、更有用的感知。

“向左看” 这个动作，是为了获得左侧视野的感知信息。
“推一下门” 这个动作，是为了感知门是锁着还是能被推开。
“捏住物体” 这个动作，是为了通过触觉和视觉确认抓取是否稳定。

智能，在这个框架下，被重新定义为：为了达成目标，而有效地组织自身 Sense-Act 序列的能力。 一个智能体懂得执行什么样的行动序列，可以使其感知流最终与“目标达成”的状态描述相匹配。

因果性与状态依赖 (State Dependence)

在 LLM 中，我们说 $P(w_t | w_{1...t-1})$ ，即下一个词取决于上文。

在具身智能中，这变成了马尔可夫决策过程 (MDP) 的基础：

$P(s_{t+1} | s_t, a_t)$

这意味着：你现在的每一个动作，都决定了你未来会面对什么样的世界。

如果机器人挥舞手臂砸碎了杯子（Action），这个“杯子碎裂”的状态（State）是不可逆的。下一个时刻，机器人面对的就是“一地碎片”的环境。

这种时间上的强相关性和不可逆性，要求具身智能算法必须具备极高的鲁棒性（Robustness）。你不能像生成文本那样“幻觉”一个动作，因为物理世界会立刻给你惩罚。

频率 (Hz) 的重要性：时间是第四维度

在完美的数字世界，感知是即刻、完整、无噪声的，动作执行是精确、瞬时的。但在物理世界：

感知延迟：相机曝光、数据传输、神经网络推理都需要时间。
执行延迟：电机响应、机械传动需要时间。
噪声：图像模糊、深度值错误、关节打滑、地面不平。

这些延迟和噪声，意味着智能体永远在基于“过去”的感知，去影响“未来”的世界，并面对一个不确定的结果。 这使得纯粹的开环规划（如象棋走法）在物理世界中几乎不可能成功。智能体必须在循环中，持续地估计状态、预测后果、调整动作。

在 ChatGPT 中，推理速度慢一点（Latency），用户只是多等几秒。在机器人中，控制频率（Frequency） 是生与死的界限。

低频决策 (1-5 Hz)： 类似于“大脑”思考。例如 VLA 模型决定“去厨房拿可乐”。
高频控制 (50-1000 Hz)： 类似于“小脑”和“脊髓”反应。例如保持双足机器人的平衡。

如果你的 Sense-Act 循环太慢（延迟过高），会发生什么？假设你在走路，脚被绊了一下。

100Hz 循环： 你的小脑在 10ms 内感知到失衡，立刻调整肌肉张力，你踉跄了一下但站稳了。
1Hz 循环： 你的大脑在 1秒后才意识到失衡，此时你已经摔倒在地上了。

这就是实时性（Real-time） 的约束。具身智能不仅要算得准，还要算得快。

互联网 AI 是“离线”的智者，它可以坐在扶手椅上慢条斯理地写诗； 具身 AI 是“在线”的运动员，它必须在毫秒级的感知-行动循环中，与残酷的物理定律通过闭环反馈进行博弈。

理解了 Closed-Loop，你就理解了为什么我们不能简单地把 GPT-4 塞进机器人的身体里——因为它缺乏那种每秒 100 次的、基于物理反馈的微调能力。这引出了我们下一节的主题：在这个循环中，究竟有哪些“看不见的敌人”？

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

探索智能预测与分类的算法之旅：从BP到SVM再到ELM

DAMO开发者矩阵

用Python写一个简易聊天机器人，新手也能上手

DAMO开发者矩阵

华为eNSP模拟器综合实验之- VLAN Mapping技术解析

VLANMapping技术实现不同VLAN间的二层互通 VLANMapping是一种在网络边缘转换VLAN标签的技术，解决不同网络间VLAN规划不一致的问题。其主要应用场景包括：跨骨干网连接相同规划的私有网络、直接互联网络的VLANID不一致等。相比QinQ技术，VLANMapping具有传输效率高、协议透传完善、资源消耗低等优势。该技术提供三种映射方式：1to1单层标签映射、2to1双层标签外