具身智能原理与实践——第七章
具身智能原理与实践第七章阅读,多智能体的介绍
多智能体交互
具身智能中的多智能体(Multi-Agent,MA)交互,指的多个具身智能体在物理/虚拟环境中,通过感知、决策与行动,实现协作、竞争或者混合交互,完成复杂任务的技术体系,是从“单体”走向“群智智能”的核心。
在多智能体系统中,每个智能体都能基于自身对环境的感知与其他智能体共享或传递信息进行行动和决策。智能体之间的交互可以是合作也可以是竞争的,需要复杂的算法来管理通信、任务分配和决策过程。
本章主要内容:
- MA系统概述:基本原理
- MA通信:通信内容(基于显示和隐式通信),通信范式(基于管理者-追随者和角色扮演)
- MA协作:协作过程,对任务进行高阶任务分级和分配,以及低阶的行为决策规划;基于LLM的规划方法,基于WM的规划方法。
1 MA系统概述
多智能体系统由多个自主智能体组成,每个智能体能够独立感知环境、进行决策并执行行动,整体通过交互协调来完成全局目标。还有种说法就是将多智能体系统(MAS)与具身智能(Embodied AI)相结合,每个智能体都拥有身体(传感器+执行器)与大脑(决策模型)。
其特性包括具身性(物体实体,闭环感知-行动),分布性(感知局部),自主性(独立感知,分布式决策),互动性(通信、协作竞争),灵活性(适应性强)、涌现性(群体行为超越个体能力)。
1.1 基本组件
MAS由多个彼此独立、能感知环境并进行自主决策的智能体组成的系统。工作流程:1)给定目标任务,根据传感器数据和功能参数进行任务分解+分配;2)每个智能体根据分配的任务自主决策,执行任务,并和其他智能体及环境进行通信交互,反馈更新决策,完成任务。
基本组件包括智能体、智能体交互、智能体执行、任务分解和分配,智能体学习、多智能体评测。
1.2 组织形式
常见智能体结构化组织和交互方式
- 中心化组织(集中式)
由一个中心节点或者控制器,负责全局信息的收集、任务分配和决策制定。
- 适用小规模、结构化场景。
- 优点全局视图清晰、决策效率高。
- 缺点可扩展性差
- 去中心化组织(分布式)
顾名思义没有中心化节点,每个智能体自主决策,只和邻居交互
- 适用:无人机集群、机器人搜救、大规模传感器网络
- 优点:容错性强、鲁棒性好、扩展性好
- 缺点:缺乏全局视图,只有局部信息
- 分层组织(分层式/混合式)
多层级,上层做全局规划和任务分配,下层做具体局部执行,例如 集团-小队-个体。
- 适用:复杂任务处理,如智能交通、物流调度、多机器装配
- 优点:兼顾全局最优和局部效率;通信量适中,扩展性好
- 缺点:结构复杂,设计难度高,通信延迟,层级依赖导致成本高
- 共享信息池
所有智能体通过共享数据池(云端或数据库)获取最新信息。每个智能体利用共享信息独立决策和执行任务。
- 适用:多协作工业机器人更新任务进度和状态信息
- 优点:交换信息高效
- 缺点:对共享信息池实时性和安全性要求高
1.2 任务执行
多智能体协作流程
- 感知环境:通过传感器等感知模块,收集环境信息
- 任务拆解与分配:把大目标拆成小任务,根据每个智能体的位置和能力,把小任务分配给合适的智能体
- 执行与调整:拿到小任务后,根据自己的经验(知识库+记忆)做决策,并不断进行反馈,和周边智能体交换信息(通信机制),实时调整自己策略。
- 评测:完成后进行复盘,也就是判断任务完成的好不好等。通过任务完成情况、通信效率、系统稳定性、长期表现等方面进行评估
简单说就是,先感知-拆任务 → 分任务 → 最后根据任务和环境做出具体动作。
2 多智能体通信
2.1 通信中的内容表示
-
基于隐式向量传递(隐式通信)
智能体在没有直接语言的情况下进行信息交换,通过动作、轨迹、环境状态间传递意图(避障跟随),传递的步骤:1)环境感知,传感器获取; 2)向量化表达,感知到的信息和自身信息压缩成一个低维度向量;3)隐式交流,交换向量或者通过观察共享对方向量;4)联合决策:根据获得的信息,更新自身决策模型 -
基于显式内容传递(显式通信)
显式通信,通过自然语言交流,效率比较高。目前来说,可以使用LLM来说人话,而根据多模态学习和强化学习的融合,智能体能够结合文本、视觉、听觉等多种感知通道进行交互,具有灵活性和适应性。
-
人机交互
之前智能体之间 “显式通信” 不同,人机交互是人类直接插手系统的决策和执行。可以随时该目标,调整子任务,动态增删智能体,直接协作。
目前使用LLM做人机交互多智能体系统——CoELA系统,核心是通信模块:用大模型生成自然语言对话,根据任务需要决定要不要和人或其他智能体说话。好处:沟通效率高。
人机交互就是让人类从 “旁观者” 变成 “参与者”,通过自然的方式和多智能体系统协作,让系统更聪明、更可控、也更值得信任。
2.2 通信基础范式
不同范式反映智能体之间交互方式的多样性和适应性。分管理者-追随者模式(集中式决策)和角色扮演(分布式决策)
- 管理者-追随者模式(集中式)
就是类似于项目经理+团队成员的协作模式,管理者:统筹全局+分配任务,追随者:具体执行。
应用范围:机器人协作,任务调度,智能交通,物流配送等【分层组织的感觉】
流程:1)任务分解与分配模块(管理者);2)任务执行模块(追随者);3)信息反馈与监控模块(双向通信);4)动态调整模块(应对意外) - 角色扮演模式(分布式)、
早期通过模仿生物的群体行为,实现简单协作,AI+LLM发展后,应用范围更广,任务更为复杂。
应用范围:机器人编队,智能交通,智能电网,智能营销
流程:1)角色定义与提示(分配职责、协作方式等);2)任务分解与角色分配(分解多个子任务,分配给相应智能体);3)通信与协作(各自信息交换,无需中央);4)动态调整与反馈(实时反馈动态,需求,自主切换角色)
3 多智能体协作
本书主要探索基于LLM多智能体任务规划、执行、协作。
3.1 基于预训练大模型方法
3.1.1 基于LLM方法 RoCo
目前的问题:
- 任务分配和协调复杂度高:搞懂任务本身+精准匹配机器人性能+合理分配任务,非常复杂,目前没有成熟方案。在动态环境中,机器人之间的信息共享,调整策略,也没有解决。
- 群体运动规划路径难:给所有机器人统一规划运动路线,在机器人数目爆炸上升的时候几乎不太可能。
- 系统通用性太差,没法灵活适配:早期的机器人都是为了场景量身定制的,换个场景和任务,系统适应不了。
因为上述的难题,介绍RoCo这个基于LLM的多智能体高效协作方法。
整体流程:
- 给每个智能体分配一个大脑
在多智能体环境中,系统给每个智能体配置一个LLM,记住机器人的特点和角色。 - 智能体之间对话式任务协调
智能体之间,通过自然语言进行显式通信,来讨论任务,提高可解释性。也便于监督和执行过程回溯。 - 每个智能体拿到子任务
这个对话过程,持续到每个智能体能够明确自己的子任务计划完成,才会结束。同时系统不断验证计划是否可行,直到提出一个有效,不会出问题的计划。 - 把计划变成具体的运动轨迹
在任务执行层面,LLM会把刚才子任务,翻译成机器人关节具体运动规划。目标配置会被传给一个集中的运动规划器,由它为每个机器人计算出一条安全、无碰撞的运动轨迹,然后机器人就可以按照这个轨迹去执行任务了。
RoCo 方法就是让机器人先通过自然语言 “开会”,商量出一个大家都认可且可行的计划,然后再把这个计划变成具体的动作去执行。这样既解决了协作协调的问题,又保证了执行的安全和高效。
-
基于LLM的多轮对话实现
RoCo给每个智能体配了一个LLM,能够使用自然语言通信,协调任务。
每个机器人的大语言模型,会根据自己独有的信息,和预设角色来回应。为了对话正常,统一了提示词结构,内容根据智能体本体差异进行调整。
RoCo 就是通过给每个机器人配一个 “会说话的大脑”,用结构化的提示词引导它们用自然语言对话,既保证了每个机器人都能充分表达,又能高效地达成一致计划,避免乱聊和拖延。 -
基于LLM的子任务规划
每轮对话结束,最后的智能体总结出一个子任务计划,每个智能体会获得一个具体的子任务,并生成一条三维运动路线。计划能不能执行必须满足5个条件,文本解析、任务约束、逆运动学检查、碰撞检查、有效航点。
RoCo 的检查机制,就像是给机器人的计划加了一个 “安全审核员”,确保它们商量出来的计划不仅说得通,还能在现实世界里安全、可靠地执行。如果计划有问题,就打回去重改,直到可行或判定失败。 -
基于LLM的运动规划
子任务通过验证后,1)把“计划“变成”目标姿势”:结果与逆运动学相结合,算出任务需要达到的目标姿势,联合目标配置;2)把“目标姿势”变成“运动轨迹”:目标姿势给路径规划器,生成运动路线确保不相撞,为每个智能体生成一个具体安全执行轨迹,精确到每一步关节怎么动;3)进入下一轮任务规划,按照轨迹执行动作,完成后进入下一轮子任务规划,直至完成整个任务。 -
测试基准
RoCoBench 就是一个精心设计的 “协作测试场”,通过 6 个不同难度的桌面任务,从任务顺序、信息共享、空间重叠三个维度,全面检验 RoCo 方法在多机器人协作中的表现。
3.1.2 基于LLM 可扩展多智能体协作:SRC
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)