具身智能1.3:闭环系统
系统的输出仅取决于预先的设定或当前的输入,而不依赖于系统的反馈结果。
在上一节我们讨论了莫拉维克悖论,揭示了“简单的动作”背后隐藏着巨大的计算复杂性。现在,我们要深入系统的核心架构。这是区分“聊天机器人”与“物理机器人”的最根本分水岭。
“互联网 AI 处理的是静态的信息流,具身 AI 处理的是动态的因果流。”
在经典的人工智能和现代的“互联网 AI”中,主流的思维模型是 Input-Output。
-
输入:一段文本、一张图片、一个问题。
-
处理:模型在“脑中”(即其参数和计算图内)进行推理、联想、生成。
-
输出:一段文本回复、一张生成图片、一个答案。
这个过程是开环的、离散的、一次性的。 模型与世界没有持续的交互。它接收一个“快照”,然后输出一个“预言”。ChatGPT 无法“体验”到自己生成的建议被执行后,世界会发生什么变化。它的智能,建立在海量的人类“行动结果”的记录(文本)之上,但它自己从未“行动”过。
开环系统 (Open-Loop Control):
-
定义: 系统的输出仅取决于预先的设定或当前的输入,而不依赖于系统的反馈结果。
-
例子: 你扔出一只纸飞机。一旦离手(Action),你就无法再控制它。风怎么吹、它怎么飞,完全由物理定律接管,你无法根据它的飞行姿态进行实时修正。
-
LLM 的类比: 传统的 Text-generation 某种程度上是“开环”的——模型生成文本时,并不知道读者读了之后的情绪变化(除非读者下一轮回复告诉它)。
具身智能体(如机器人)的生存基础,是一个永不停息的闭环:Sense-Act-Sense。
闭环系统 (Closed-Loop Control):
-
定义: 系统的决策依赖于系统当前的状态反馈。输出(Action)会改变环境,环境的新状态(State)又会反过来影响下一个输出。
-
例子: 你驾驶一辆车。你踩油门(Action),车速变快,视觉感知到前方有弯道(Sense),于是你踩刹车并打方向盘(New Action)。这是一个毫秒级的、连续不断的修正过程。
-
机器人学核心: 所有的具身智能,本质上都是在处理误差(Error)。物理世界充满了不确定性,只有通过闭环反馈,才能消除误差。
1. 感知 (Sense)
机器人通过传感器(相机、激光雷达、关节编码器)获取当前环境的信息。
注意: 机器人通常无法获得环境的全知状态 ,只能获得观测值 。例如,你看不见杯子背面的图案,但它客观存在。
2. 行动 (Act)
Act (决策与执行 / Action ):
大脑(无论是 PID 控制器、神经网络 Policy 还是 LLM)根据 计算出动作
。
-
-
这里的
可以是底层的电机力矩,也可以是高层的语义指令。
3. 再感知 (Sense)
动作执行后,世界状态发生了改变。智能体必须立即进行下一次感知,以确认动作的效果:“我向前移动了吗?”“我抓住杯子了吗?”“物体被我推倒了吗?”
Physics (物理演变 / Environment Step):
这是互联网 AI 缺失的一环。你的动作 施加于环境,物理引擎(现实世界) 根据动力学定律更新世界状态。
-
-
是状态转移函数,通常是未知的、非线性的、含噪声的。
这个循环以数十到数百赫兹的频率高速运行,构成了智能体在时间流中的连续存在。 每一次新的感知,都包含了上一次动作所造成结果的反馈信息。
闭环的本质:行动改变感知,感知驱动行动
这是一个深刻的洞见:在 Input-Output 模型中,输出是“终点”。而在 Sense-Act-Sense 循环中,行动的唯一目的,是产生新的、更有用的感知。
-
“向左看” 这个动作,是为了获得左侧视野的感知信息。
-
“推一下门” 这个动作,是为了感知门是锁着还是能被推开。
-
“捏住物体” 这个动作,是为了通过触觉和视觉确认抓取是否稳定。
智能,在这个框架下,被重新定义为:为了达成目标,而有效地组织自身 Sense-Act 序列的能力。 一个智能体懂得执行什么样的行动序列,可以使其感知流最终与“目标达成”的状态描述相匹配。
因果性与状态依赖 (State Dependence)
在 LLM 中,我们说 ,即下一个词取决于上文。
在具身智能中,这变成了马尔可夫决策过程 (MDP) 的基础:
这意味着:你现在的每一个动作,都决定了你未来会面对什么样的世界。
如果机器人挥舞手臂砸碎了杯子(Action),这个“杯子碎裂”的状态(State)是不可逆的。下一个时刻,机器人面对的就是“一地碎片”的环境。
这种时间上的强相关性和不可逆性,要求具身智能算法必须具备极高的鲁棒性(Robustness)。你不能像生成文本那样“幻觉”一个动作,因为物理世界会立刻给你惩罚。
频率 (Hz) 的重要性:时间是第四维度
在完美的数字世界,感知是即刻、完整、无噪声的,动作执行是精确、瞬时的。但在物理世界:
-
感知延迟:相机曝光、数据传输、神经网络推理都需要时间。
-
执行延迟:电机响应、机械传动需要时间。
-
噪声:图像模糊、深度值错误、关节打滑、地面不平。
这些延迟和噪声,意味着智能体永远在基于“过去”的感知,去影响“未来”的世界,并面对一个不确定的结果。 这使得纯粹的开环规划(如象棋走法)在物理世界中几乎不可能成功。智能体必须在循环中,持续地估计状态、预测后果、调整动作。
在 ChatGPT 中,推理速度慢一点(Latency),用户只是多等几秒。 在机器人中,控制频率(Frequency) 是生与死的界限。
-
低频决策 (1-5 Hz): 类似于“大脑”思考。例如 VLA 模型决定“去厨房拿可乐”。
-
高频控制 (50-1000 Hz): 类似于“小脑”和“脊髓”反应。例如保持双足机器人的平衡。
如果你的 Sense-Act 循环太慢(延迟过高),会发生什么? 假设你在走路,脚被绊了一下。
-
100Hz 循环: 你的小脑在 10ms 内感知到失衡,立刻调整肌肉张力,你踉跄了一下但站稳了。
-
1Hz 循环: 你的大脑在 1秒后才意识到失衡,此时你已经摔倒在地上了。
这就是实时性(Real-time) 的约束。具身智能不仅要算得准,还要算得快。
互联网 AI 是“离线”的智者,它可以坐在扶手椅上慢条斯理地写诗; 具身 AI 是“在线”的运动员,它必须在毫秒级的感知-行动循环中,与残酷的物理定律通过闭环反馈进行博弈。
理解了 Closed-Loop,你就理解了为什么我们不能简单地把 GPT-4 塞进机器人的身体里——因为它缺乏那种每秒 100 次的、基于物理反馈的微调能力。这引出了我们下一节的主题:在这个循环中,究竟有哪些“看不见的敌人”?
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)