基于大模型的具身智能任务规划研究:从单智能体到多智能体
贾子琦1,2王健宗1张旭龙1瞿晓阳1(1.平安科技(深圳)有限公司,广东 深圳 518063;2.清华大学,北京 100084 )摘 要 随着人工智能的发展,具身智能和任务规划逐渐成为研究热点。传统任务规划方法在面对不可预测环境时缺乏灵活性,而大语言模型凭借其强大的语言理解和多模态能力,为智能体提供更全面的任务规划方案,为解决这一问题提供了可能性。综述了基于大模型的智能体任务规划方法,涵盖了单智能
贾子琦1,2王健宗1张旭龙1瞿晓阳1
(1.平安科技(深圳)有限公司,广东 深圳 518063;2.清华大学,北京 100084 )
摘 要 随着人工智能的发展,具身智能和任务规划逐渐成为研究热点。传统任务规划方法在面对不可预测环境时缺乏灵活性,而大语言模型凭借其强大的语言理解和多模态能力,为智能体提供更全面的任务规划方案,为解决这一问题提供了可能性。综述了基于大模型的智能体任务规划方法,涵盖了单智能体与多智能体情境下的不同策略,并探讨了几种代表性框架及其在实际应用中的表现与潜力。具体而言,分别介绍了端到端规划、分阶段规划、动态规划等单智能体大模型任务规划方法,以及集中式规划、分布式规划和混合式规划等多智能体大模型任务规划方法,并分析了这些方法如何结合强化学习、多模态感知等技术来优化规划过程。此外,讨论了基于大模型的具身智能任务规划的特点、局限性以及存在的挑战,并展望了未来的发展方向。本研究旨在为设计更加灵活、适应性强的下一代具身智能系统提供有价值的参考。
关键词 具身智能;任务规划;大语言模型
DOI:10.11959/j.issn.2096-0271.2025023
引用格式:
贾子琦,王健宗,张旭龙,等.基于大模型的具身智能任务规划研究:从单智能体到多智能体[J].大数据,2025,11(02):73-90.
JIA Z Q,WANG J Z,ZHANG X L,et al.Large language model-based embodied intelligence task planning: from single-agent to multi-agent[J].BIG DATA RESEARCH,2025,11(02):73-90.
0 引言
随着人工智能的不断发展,具身智能逐渐成为研究热点。具身智能具备一定的感知、认知、决策和行动等能力,能够在物理世界中灵活地执行复杂任务,如家务、导航和协作等,任务规划在这个过程中起到了至关重要的作用,确保了具身智能系统能够在不断变化的情况下完成预定任务。高效的任务规划不仅需要考虑感知与动作的结合,还要实时适应多阶段任务的顺序、时机以及外部环境的变化。例如,在机器人执行家务任务时,需要根据感知数据持续更新规划,以适应房间布局的变化或突发的障碍物等。这类任务的复杂度较高,且对实时性要求极高。
传统的具身智能任务规划方法通常依赖于符号推理、行为树、规划语言等经典手段,这些方法在处理结构化、规则明确的任务时表现良好。但面对不可预测的环境变化时,传统规划方法往往需要重新计算或依赖预先定义的规则库,导致其灵活性受限。此外,这些方法通常需要先验的领域知识与明确的规则定义,无法应对任务环境中模糊或不确定的信息。
近年来,大语言模型(large language model,LLM,简称大模型)作为一种生成式模型,凭借其强大的自然语言理解和生成能力,为具身智能任务规划提供了新的可能性。LLM能够从非结构化的数据中学习知识,并通过生成式推理方式灵活应对复杂任务。在具身智能任务中,LLM不仅能够通过语言生成直接指导机器人或智能体执行任务,还能通过多模态信息的整合,如视觉、语言和触觉的结合,提供更全面的任务规划能力。尤其在多步操作和复杂情境中,LLM可以通过自然语言推理和知识整合,生成更加灵活、上下文敏感的规划方案,而无须依赖复杂的符号逻辑推导。此外,LLM可以与其他智能规划方法相结合,例如与强化学习等方法配合,通过动态规划不断优化规划过程。在面对动态环境变化时,具身智能系统能够实时调整任务规划,不必从零开始规划。在高度动态、信息不完整或任务目标模糊的场景中,LLM表现出明显的优势。
本文深入探讨基于大模型的具身智能任务规划方法,包括单智能体和多智能体任务规划的不同方法,并详细分析这些方法在实际应用中的表现和潜力。本文重点介绍几种代表性框架,并讨论它们在多智能体任务规划中的改进和创新。
大模型具身智能单智能体任务规划包括以下方法。
·端到端规划方法:直接生成任务规划策略。
·分阶段规划方法:通过分阶段规划增强任务规划能力。
·动态规划方法:利用动态规划调整和优化任务规划。
大模型具身智能多智能体任务规划包括以下方法。
·集中式规划:所有智能体的任务规划由一个中心节点统一协调。
·分布式规划:每个智能体独立进行任务规划,通过通信机制协同工作。
·混合式规划:结合集中式和分布式规划的优点,实现更灵活的任务分配和协作。
1 单智能体LLM任务规划
早期的研究主要集中在让机器人理解自然语言指令并执行相应动作。然而,随着技术的进步,越来越多的工作开始关注如何结合多种感官信息(如视觉、听觉、触觉)提升任务规划的准确性和适应性。如图1所示,单智能体LLM任务规划分为端到端规划、分阶段规划和动态规划。RT-2和OpenVLA等端到端规划方法利用大规模预训练模型执行复杂的多步骤操作,并通过自然语言和视觉信息的联合微调来增强对未知物体和环境变化的适应性。分阶段规划方法(如Novel task tree和P-RAG)则探索如何将LLM与知识库检索结合,以更好地处理复杂任务。而动态规划方法(如ISR-LLM和LlaRP)则引入实时调整机制,使智能体可以在任务执行过程中不断优化规划。这些进展共同推动了单智能体任务规划从静态向动态、从简单任务向复杂任务的演进。

单智能体LLM任务规划的代表性方法见表1。这些方法的输入类型涵盖了语言、语言与视觉信息的融合以及语言与上下文信息的结合,例如RT-2将视觉信息与语言指令相结合,显著提升了物体操作等任务规划的准确性,而DeDer考虑了上下文信息,能够在家庭服务等复杂任务中综合历史和环境信息生成更有效的行动计划。这些方法的输出类型多样,以适应不同任务的需求,例如动作序列(如OpenVLA)能够直接指导智能体执行任务,在桌面清洁等需要精确执行的任务中发挥关键作用;任务计划和场景图分别从逻辑梳理和布局呈现两个维度辅助复杂任务的完成;技能选项(如ASD)为物体操作提供了灵活的决策依据。在学习方式上,基于预训练和微调的方法(如RT-2)首先通过预训练获取广泛的知识,然后通过微调适应特定的应用场景;利用知识库或技能库的方法(如P-RAG)借鉴已有的经验优化规划过程;强化学习与反馈驱动的方法(如ASD)则依据环境反馈不断提升规划的质量;零样本和少样本学习的方法(如Zero-Shot Planner等)虽然在性能上与有监督的训练方法存在一定差距,但其凭借丰富的预训练知识和强大的推理能力,在简单或特定的场景中仍然具有较强的应用潜力。示例任务广泛涉及物体操作、烹饪、导航和家庭服务等领域,其中,物体操作任务主要考验智能体精确的动作规划能力;烹饪任务因其步骤的复杂性和多样性而具有挑战性;导航和家庭服务任务需要综合考量多种因素。在训练情况方面,有监督的训练方法(如OpenVLA)通常在准确率和稳定性上表现出色,而无监督的训练方法(如Zero Shot Planner)虽然在性能上与有监督的训练方法存在差距,但仍能较好地应对某些简单或特定的场景,充分展示了LLM在广泛任务中的强大泛化能力。

表 1 单智能体LLM任务规划的代表性方法
1.1 端到端规划方法
端到端规划方法通过大模型直接生成任务计划,而不依赖于额外的推理或外部辅助工具。这类方法利用LLM生成任务的各个步骤,例如路径规划、抓取操作顺序等。LLM根据输入的任务描述生成一系列操作步骤。例如,对于机器人抓取任务,可以在LLM中输入“抓取桌上的红色杯子”来生成完整的抓取计划。这种方法通常依赖于模型的自然语言生成能力,直接输出执行指令或任务顺序。
RT-2将大规模预训练的视觉-语言模型(vision-language model,VLM)整合到机器人控制中,以增强机器人在多样化任务中的泛化能力和语义推理能力。RT-2首先借助来自互联网的大规模数据集对VLM进行预训练,以确保模型拥有广泛而深入的视觉和语言处理技能。然后,该模型根据具体的应用场景进一步微调,以实现从图像输入和自然语言命令中直接生成精确的机器人动作序列的能力。为了增加系统的实用性,研究团队采取了一种简化的方法编码机器人的动作,将其转换成文本格式,以便与视觉及语言信息一起纳入模型的训练过程中。这使RT-2不仅能够在已知环境中操作自如,还能在面对未知物体、环境变化时表现出强大的适应性。这一成果向开发更加智能且灵活的机器人迈出了重要一步,为未来的研究开辟了新的路径。
OpenVLA系统虽然采用了规模较小的模型架构,但通过利用更为广泛的Open X-embodiment数据集和集成SigLIP-DinoV2视觉编码器,成功地实现了比RT-2更高的任务执行准确率。OpenVLA同样依赖于预训练的VLM,但在实际应用中显示出更强的任务完成能力,这表明即使是在资源或计算能力有限的情况下,OpenVLA也能实现高效的机器人控制方案。
RoboFlamingo将大规模预训练的VLM整合到机器人控制中,增强机器人在多样化任务中的泛化和语义推理能力。基于开源VLM OpenFlamingo,RoboFlamingo在少量机器人操纵演示数据上进行微调,从图像和自然语言命令中直接生成精确的动作序列。该方法采用轻量级动作编码和策略头设计,简化了模型架构并能够在低性能平台上部署,提供开放环路控制的灵活性。
1.2 分阶段规划方法
分阶段规划方法是指在任务规划过程中,LLM与外部推理系统协同工作,通过逻辑推理、符号方法或规划算法辅助大模型生成任务计划。这类方法通常用于处理多步骤、复杂任务。分阶段规划方法通过将LLM与推理系统结合,能够处理更复杂的任务。例如,LLM生成初步的操作序列,而推理系统则负责检查这些序列的逻辑性、正确性并进行必要的调整。
Zero-Shot Planner发现LLM在适当提示下能够生成中间级别的行动计划,但这些计划通常无法直接转化为机器人可执行的动作。为此,研究人员引入了基于环境动作的语义翻译机制,通过计算预测动作与环境许可动作之间的语义相似度,实现了自然语言计划向可执行动作的转换。该方法在任务规划时,首先通过LLM生成初步行动计划,然后使用语义相似度评估每个步骤的合理性,并将其转换为环境中的有效动作。例如,对于“吃奶酪”的任务,LLM可能会生成“走到厨房”“打开冰箱”“拿出奶酪”等步骤,通过进一步的语义翻译确保这些步骤被转化为机器人可执行的命令。
Novel Task Tree提出了一种创新性的任务树生成方法,旨在提高机器人在烹饪任务中的规划精度和执行效率。这项研究首先利用LLM解析食谱中的步骤说明,并通过微调后的GPT-3模型将这些自然语言指令转化为结构化的任务树形式,从而捕捉不同子任务之间的顺序和并行依赖关系。为了应对LLM输出结果可能存在的不确定性和不可靠性,研究团队还引入了一种任务树检索机制。具体而言,该机制会将多个由LLM生成的任务树整合成一个统一的图结构,并在此基础上执行任务树检索算法,目的是识别并剔除那些可疑或成本过高的节点,以此来提高整个任务规划的准确性和机器人执行任务的效率。而P-RAG则采用了一种不同的方法来解决类似的问题。它首先利用LLM理解和解释给定的任务描述,并据此生成初步的行动计划。然后,P-RAG访问一个专门设计的知识库来检索相关的过往经验,以进一步优化和调整这些初步计划。为了克服LLM产生的计划存在的不确定性和不可靠性,P-RAG引入了一个基于图结构的任务优化流程,以筛选出最合适的行动方案。
Text2Motion文中指出,在长时序的任务规划中,仅依赖大语言模型生成的计划往往未充分考虑具体执行过程中的几何依赖性,导致实际操作的成功率较低。为解决这一问题,Text2Motion结合了技能库与几何可行性规划器,在任务搜索过程中主动解决跨技能序列的几何依赖性,从而提升了执行的可靠性和成功率。
DeDer通过构建层次化的决策过程,将大语言模型的决策路径细分为推理策略与计划策略两个部分。推理策略利用LLM进行具身上下文学习,并通过自我验证生成的数据进行知识蒸馏,从而产生有效的理由。在这些理由的指导下,计划策略能够优化行动计划。为进一步提高具身任务中中间理由的质量,研究者们设计了具身知识图谱,并采用对比提示注意力模型来实现单次推理生成多个理由的过程。这种方法不仅提升了决策的合理性,还确保了计划策略能够基于更高质量的信息制定行动计划,使整体决策过程更加高效和准确。
RoboMP2是一种创新的机器人多模态感知-规划框架,该框架由两个关键模块组成:目标条件多模态感知器和检索增强多模态规划器。目标条件多模态感知器利用定制化的多模态大语言模型,使机器人能够理解环境状态,包括对场景的语义推理和定位。这使机器人可以更好地理解其周围环境,并准确地识别物体的位置和属性。检索增强多模态规划器采用一种从粗到细的检索方法寻找最相关的策略实例,以此作为当前任务的上下文示例。具体来说,检索增强多模态规划器首先召回一系列可能相关的代码片段或策略,然后通过重写模块提取任务指令的核心部分,并使用重新排序模块优化这些相关示例的顺序,最终仅选择最相关的K个程序作为上下文示例来增强规划过程。这种方法体现了多模态信息对于机器人决策的重要性,并展示了如何融合环境信息来提升基于语言模型的任务规划能力。
MultiPLY通过整合多种感官信息,为机器人在三维环境中的任务规划提供多维度的感知支持。该方法不仅融合了视觉信息,还结合了听觉、触觉和热感等感官信息,帮助机器人获取更立体的环境信息。例如,机器人可以在感知到声音时,通过听觉定位声音来源,并通过触觉判断物体的硬度属性,再结合视觉信息识别物体的外观特征,从而做出更全面、细致的决策。这样的多模态感知与融合,增强了机器人对复杂环境的适应能力,使其能够在多维度信息的辅助下更精确地进行任务规划与执行。
SG-Bot是一种创新的基于场景图的任务规划方法,用于提高机器人在物品重排任务中的规划精度和执行效率。SG-Bot首先通过视觉感知技术获取杂乱初始场景中的单个物体信息,然后进入想象阶段,采用场景图表达方式对目标场景进行从粗到精的构想,同时整合所有可用的先验知识和用户指令。为了克服传统方法给定目标状态或隐式表达带来的局限,SG-Bot在规划阶段引入场景图的生成与优化机制,即在场景图的基础上生成目标配置,再通过对比初始与目标场景来制定动作策略。
LoTa-Bench是一个包含基准测试代码和扩展数据集的评估框架,用于自动量化任务规划的表现。该框架不仅评估了基础任务规划器的性能,还探讨了情境示例选择、基于自然语言反馈的重新规划及特定领域模型微调等增强方法。这些改进措施有助于提高任务规划的准确性和效率。
1.3 动态规划方法
动态规划方法依赖于任务执行过程中的反馈信号,实时调整规划以优化任务执行。该方法通常结合强化学习、自监督学习等机制动态调整任务计划。在基于反馈的任务规划中,LLM不断接收环境反馈信号(如传感器数据、动作结果),并根据这些信号动态调整规划。例如,在机器人避障任务中,模型根据传感器的实时反馈调整路径。
ISR-LLM旨在提高机器人在复杂长时序任务中的规划准确性和执行效率,通过引入迭代自优化机制克服LLM生成任务计划时的不确定性和不可靠性问题。具体来说,ISR-LLM框架分为3个主要步骤:预处理、初步规划和迭代自优化。在预处理阶段,使用一个LLM翻译器将自然语言指令转换为规划领域定义语言的形式;在初步规划阶段,LLM生成一个初始的任务计划;在迭代自优化阶段,ISR-LLM通过一个验证器对这个初始计划进行评估和修正。验证器会根据实际环境中的反馈数据,识别并修正任务计划中的错误和不足之处。例如,如果某个子任务未能成功完成,ISR-LLM会分析原因并调整后续步骤,以确保任务计划逐步趋于完善。
LLM-Planner利用LLM从自然语言指令中提取关键信息,并通过少量示例进行有效规划,引入了一个简单但有效的物理接地机制,通过环境感知数据(如视觉输入)与环境的实时交互不断优化和更新计划,确保生成的计划能够适应当前环境的具体情况。
ASD引入了一个独立的VLM来确保学习行为的可靠性和可信度,通过分析环境中的视觉输入和语言指令,提供额外的验证和反馈,帮助修正和优化任务计划。首先,LLM根据提供的场景描述和机器人的当前状态生成任务提案,每个提案都会启动一系列强化学习过程,通过采样LLM的奖励函数和成功判断函数来开发相应的策略。这种机制使系统能够逐步获取新的技能,并且在遇到失败时,可通过VLM的反馈进行调整和优化。此外,ASD还设计了一个动态扩展的技能库,随着任务的完成和新技能的学习,技能库会不断扩展和丰富。
AdaRefiner引入了一个轻量级的适配器语言模型,能够根据强化学习代理提供的反馈自动调整任务理解。LLM从自然语言指令中生成初始任务计划,然后在实际环境中执行这些计划并收集反馈数据,适配器语言模型会根据这些反馈数据对任务理解进行调整和优化,以生成更准确和可行的任务计划。系统通过多次迭代不断优化任务计划,逐步提高其准确性和执行效率。
Inner Monologue是一种创新的“内心独白”机制,赋予了大模型更强的任务规划和执行能力。该机制首先从自然语言指令中提取关键信息,生成初始的任务执行计划。然后,LLM在真实环境中执行任务,并通过视觉传感器获取丰富的反馈数据,例如物体识别、任务完成情况和环境描述等。这些反馈数据被再次输入LLM中,使其能够对之前的计划进行反思和调整,从而生成更准确、更可行的后续计划。此外,该系统还巧妙地结合了多模态感知技术,将视觉信息与语言描述进行融合,形成了对任务环境的综合表示。这种多模态融合显著提升了LLM对任务的理解能力,从而提高了任务规划的准确性。通过反复迭代这一过程,系统能够不断优化任务计划,逐步提高任务的成功率和执行效率。特别是在涉及复杂逻辑推理和多步骤操作的任务中,“内心独白”机制具有显著优势。
RILA使用LLM从自然语言指令中生成初始任务计划,然后结合视觉和听觉数据处理环境信息,并通过多种反馈机制(如成功检测、对象识别和场景描述)进行自我反思和调整。此外,RILA还引入了一个LLM助手来提供全局环境理解和战略见解,进一步优化任务计划。通过多次迭代和长期记忆模块,系统不断优化任务计划,逐步提高准确性和执行效率。
LLaRP通过将LLM与强化学习相结合,赋予了LLM执行复杂任务的能力。LLM首先从自然语言指令中生成初始计划,然后结合视觉和语言信息理解环境,并通过在真实环境中执行任务、获取反馈来不断优化计划。LLaRP利用强化学习机制,将LLM作为决策者,通过试错学习来提升任务执行的成功率。此外,LLaRP还引入了长期记忆模块,使LLM能够学习过往经验,从而更好地适应复杂多变的环境。这种将语言理解、感知、行动和学习有机结合的框架,为人工智能在现实世界中的应用开辟了新的方向。
尽管大模型能够在某些情况下生成有效的任务规划方案,但它们对环境变化的快速适应能力仍然存在局限性。例如,在执行家务任务时,如果房间布局突然改变或出现新的障碍物,LLM可能无法即时调整原有的任务计划。虽然一些方法(如动态规划)可以缓解这个问题,但在高度动态的环境中,LLM的反应速度和准确性仍有待提高。同时,对于涉及长时间跨度或多阶段的任务,维持良好的长期记忆和上下文连贯性至关重要,尤其是在处理复杂的因果关系或连续的任务序列时,如何让LLM更好地记住过去的经验并将其应用于当前任务,是提升其性能的重要课题。
2 多智能体LLM任务规划
初期研究多聚焦于单个智能体的任务规划,但近年来出现了更多关于多智能体系统的研究。这些研究探索如何在一个团队中协调多个智能体完成任务。如图2所示,多智能体LLM任务规划分为集中式规划、分布式规划和混合式规划,SMART-LLM和Co-NavGPT提出了集中式的多智能体任务规划策略,旨在通过中央控制节点实现全局最优的任务分配和执行策略。然而,随着智能体数量的增加,中心节点的计算和通信压力会显著增加,导致系统扩展性受限。因此,分布式规划方法(如RoCo和CoELA)开始崭露头角,它们允许每个智能体独立执行任务规划,同时也支持通过多智能体的局部合作共同完成任务规划。混合式规划方法(如 AutoRT和Criticize-Reflect)试图结合集中式规划和分布式规划的优点,在保持全局一致性的同时赋予智能体更大的自主权,以应对动态变化的环境并加快系统的响应速度。这一趋势反映了多智能体任务规划正朝着更加智能、灵活和协作的方向发展。

多智能体LLM任务规划的代表性方法见表2。这些方法的输入类型主要分为自然语言和语言与视觉信息融合两种形式。例如SMART-LLM通过自然语言输入传达整体任务目标,协调多智能体在家庭服务等任务中的行动,而Co-NavGPT通过语言与视觉信息的融合输入,使智能体结合视觉信息感知环境和其他智能体状态助力协同导航等任务。这些方法的输出类型涵盖了任务计划、路径规划、动作序列及组织结构等。其中,任务计划和动作序列在多智能体协作中需考虑协同问题,例如在烹饪任务中确保各智能体有序配合;路径规划为桌面重排等移动类任务提供关键指引;组织结构在协同搜索等任务中优化智能体协作关系。这些方法的学习方式包括少样本学习、零样本学习、环境反馈、上下文学习、多模态学习、批评反思、强化学习及模仿学习等。其中,少样本和零样本学习利用模型预训练能力快速生成计划并处理智能体交互;环境反馈机制(如RoCo)依据执行环境调整规划以增强适应性;上下文学习借助本地信息生成规划;多模态学习提升规划质量;批评反思机制优化团队协作;强化学习和模仿学习分别从奖励激励和经验模仿的角度提升规划能力。示例任务涵盖家庭服务、协同导航、桌面重排等,充分体现了多智能体任务规划在不同场景下的多样性和复杂性。训练情况分为有监督的训练和无监督的训练,有监督的训练方法(如AutoRT)有助于提升特定任务的协作效率和性能,而无监督的训练方法(如Co-NavGPT)依靠模型的通用能力和特定设计机制来保障任务规划与执行效果,为多智能体任务规划研究与实践提供了重要参考。

表 2 多智能体LLM任务规划的代表性方法
2.1 集中式规划
集中式规划依赖一个中心化的控制节点进行整个系统的任务规划。所有智能体的信息(包括其状态、任务和资源等)都汇总到中央控制单元进行统一处理,从而规划出全局最优的任务分配和执行策略。LLM通过强大的推理和综合分析能力,能够准确评估各个智能体的状态及其执行能力,实现全局范围内的任务分解、冲突避免和资源分配。通过集中式的控制,系统可以确保所有智能体的动作高度协调,避免任务冲突和冗余,适用于物流系统、智能制造等信息透明、环境相对稳定的场景。
SMART-LLM利用LLM将高层次的自然语言指令转化为多机器人任务计划。SMART-LLM首先使用LLM从自然语言指令中生成初始任务计划,然后通过任务分解、联盟形成和任务分配等阶段指导多智能体的任务执行。系统通过程序化的LLM提示在少样本提示范式内完成这些阶段。具体来说,SMART-LLM将任务分解成子任务,并根据每个机器人的特定技能和能力分配这些子任务,从而实现高效的多智能体任务规划。此外,SMART-LLM还创建了一个基准数据集,用于测试多智能体任务规划能力,涵盖从简单到复杂的多种任务。
Co-NavGPT利用LLM作为全局规划器以实现多机器人协同视觉语义导航,每个机器人基于RGB-D图像和自身位置构建语义地图,并将这些信息编码成提示词。LLM根据这些提示词理解场景,为每个机器人分配探索边界以高效搜索目标,并指导每个机器人的行动。Co-NavGPT在Habitat-Matterport 3D环境中展示出超越现有方法的成功率和效率,无须任何学习过程即可完成任务,显示了LLM在多机器人协作中的巨大潜力。结合丰富的常识知识与强大的上下文推理能力,Co-NavGPT能够有效解决单个机器人系统中常见的低效探索问题,提升多机器人团队在未知环境中的导航性能。这种创新方法不仅克服了传统多智能体任务规划中存在的问题,还在实际应用中展现出强大的实用性和广阔的应用前景。
然而,集中式规划也存在一些局限性。首先,系统对中心节点的依赖较强,这意味着如果中心节点出现故障,那么整个系统的任务规划和执行可能会受到严重影响。其次,随着智能体数量的增加,中心节点的计算和通信压力会显著增加,导致系统扩展性受限。在大规模系统中,中心节点需要处理大量的任务规划和协调工作,可能会出现通信瓶颈或计算延迟,影响系统的实时性和效率。此外,集中式规划在面对高度动态或不确定的环境时,可能不如分布式规划灵活,因为中心节点在制定全局计划时需要依赖大量的环境和状态信息,一旦这些信息发生变化,任务计划可能需要频繁调整。
2.2 分布式规划
分布式规划使每个智能体能够在本地独立地或通过与邻近智能体之间的局部合作进行任务规划。各智能体在自身范围内做出任务决策,并通过与其他智能体的通信实现协调与同步。该方法的优势在于它能够提高系统的鲁棒性和扩展性,不依赖于单一中心节点,即使部分智能体或通信通道失效,系统仍能继续运行。大模型能够为每个智能体提供个性化的决策支持,结合本地信息和任务需求生成适合当前环境的最佳规划。此外,利用大模型的推理能力,智能体可以在信息不全的情况下推测出其他智能体的行为和意图,从而做出更加合理的局部决策。分布式规划特别适用于动态变化的复杂环境,比如无人机集群的协作任务、自动驾驶车队的自适应路径规划等场景。
RoCo利用预训练的LLM进行高层级沟通和低层级路径规划,每个机器人都集成了LLM,能够讨论并共同推理任务策略,然后生成子任务计划及任务空间中的路径点,这些信息被用于加速轨迹规划。此外,系统通过环境反馈(如碰撞检测)提示LLM代理改进其计划与路径点。这种方法不仅提高了多机器人系统的灵活性和适应性,还显著降低了运动规划器的样本复杂度,展示了其应对多样化协作场景时的高效性和鲁棒性。RoCo利用LLM的常识知识和3D空间推理能力灵活应对多种协作任务,为多智能体任务规划提供了新的思路和技术支持。
CoELA将LLM的常识知识、推理能力、语言理解和文本生成能力集成到一个认知启发式的模块化框架中,实现了多智能体之间的高效协作和沟通。每个智能体基于局部观察独立地进行规划,并通过自然语言与其他智能体或人类交流信息和协调行动。系统设计了多种反馈机制,包括成功检测、对象识别和场景描述等,使LLM能够进行自我反思和调整。此外,CoELA还引入了一个长期记忆模块,存储历史任务的成功和失败经验,以便在未来任务中参考和学习。CoELA展示了其在多智能体任务规划中的优越性能,特别是在长时序任务和复杂环境中显著提升了任务的成功率和执行效率。这种方法不仅解决了传统多智能体任务规划中存在的问题,还在实际应用中展示了其强大的应用潜力和实用性。
然而,分布式规划也存在一些明显的局限性。首先,由于缺乏全局信息,智能体可能只基于局部视角进行决策,导致决策仅为局部最优而非全局最优,进而影响系统的整体效率。其次,尽管分布式规划依赖通信机制实现智能体间的协作,但如果通信不稳定或信息传递不及时,智能体可能无法有效协同,影响了任务的执行。此外,分布式规划的决策过程通常是自下而上的,这虽然提升了系统的灵活性,但也可能导致全局协调不足,从而引发冲突或资源竞争。例如,在自动驾驶车队中,如果每辆车仅根据局部信息进行决策,可能会导致路径冲突或交通拥堵。因此,如何在分布式系统中实现高效的协作与冲突规避,成为一项重要的挑战。
2.3 混合式规划
混合式规划结合了集中式和分布式规划的优势,在全局规划上依赖中心化的决策,而在局部执行上赋予智能体更多的自主性。混合式规划旨在平衡全局控制与局部自主决策,既能从全局视角优化系统的整体协调性,又允许智能体在局部环境中进行自适应的任务调整。这种规划方式通过中央实体进行全局任务分配和高层次规划,同时给予各个智能体一定的自主性,使其根据实时的环境和状态信息进行局部调整,从而提高系统的灵活性和加快系统的响应速度。这种方法特别适合复杂的任务环境,例如智能交通系统中的车队协作或大规模工业流程中的多机器人系统。
AutoRT利用LLM生成多样化且新颖的任务指令,并采用VLM理解和解释实际场景中的物体及环境信息。同时,系统允许单个机器人基于自身感知和局部环境情况独立进行决策,实现更灵活的任务执行。此外,AutoRT还引入了一套提示机制以增强决策的安全性和合理性。这种方法不仅克服了传统数据收集过程中面临的数据稀缺问题,还展示了如何将基础模型的强大能力应用于现实世界的机器人部署中,为多智能体系统的自主学习与泛化能力提升开辟了新的路径。
Criticize-Reflect引入基于提示的组织结构以优化大语言模型代理之间的协作。在高层,Criticize-Reflect对整个团队的表现进行评估,并根据评估结果调整组织结构,以提高团队协作效率;在低层,每个LLM代理能够独立地生成局部计划并与其他代理沟通协调,以完成共同的任务目标。这种方法不仅解决了传统多智能体系统中因信息冗余与混乱导致的合作效率低下的问题,还通过设计新颖的组织结构显著降低了通信成本并提高了团队整体效能。此外,Criticize-Reflect展示了指定领导角色对于提高团队效率的重要性,并揭示了LLM代理在自发合作行为方面展现出的领导特质。
ReAd引入基于评价函数的反馈机制以提高大语言模型在实体任务规划中的性能。该框架采取了一种混合式规划方法:利用全局视角的优势函数指导个体智能体的行为选择,并学习一个序列化的优势函数对LLM所规划的数据进行评估,然后将LLM视为优化器以生成能够最大化优势函数的动作。这个方法赋予了LLM预测行动对完成最终任务的贡献大小的能力。ReAd不仅结合了集中式规划的全局视野与分布式规划中个体自主性的优点,还减少了智能体之间的交互步骤和LLM查询轮次,显著提高了多智能体系统解决复杂任务时的成功率和效率。
EMMA利用LLM在平行文本世界为视觉环境中的多模态智能体提供指导,在全局层面,通过一个基于LLM的专家系统生成高层次、逐步的任务指引;在局部层面,每个智能体根据这些指引以及自身对环境的观察制定具体的执行动作。此外,EMMA引入了一种直接偏好优化方法以改进模仿学习过程,并且采用了一个长期记忆模块来存储来自LLM专家系统的反馈信息,这有助于提高未来任务规划的质量。
BTMR结合行为树与动态拍卖机制,实现了异构机器人团队在多智能体任务规划上的改进与创新。该方法利用行为树框架对单个机器人的行为进行静态建模,并通过拍卖系统动态评估各个机器人,将分配任务给当前团队中最合适的机器人执行。这既发挥了集中式规划在全局视角的优势,也体现了分布式规划下个体智能体自主决策的特点。系统利用效用值和前置条件进行任务分配,在提高任务整体执行质量的同时避免错误指派,从而在多变的运行条件下保持任务分配的有效性和灵活性。此方法不但提高了团队的整体效能,而且简化了任务指定过程。面对复杂且不断变化的环境时,此方法能够更直观地分配任务,并且灵活应对团队组成的变化。
混合式规划通过平衡集中式和分布式规划的优点,在保持全局一致性的同时赋予智能体更大的自主权,能够应对动态变化的环境并提高系统的扩展性。然而,混合式规划也面临一定的挑战。首先,如何有效协调全局规划与局部自主决策是一个关键问题。如果智能体的局部决策过于独立,可能会破坏全局规划的协调性;反之,如果中央控制频繁干预局部执行,系统的灵活性和实时响应能力会受到影响。其次,混合式规划对大模型的性能要求较高,尤其是在处理复杂任务和大规模智能体系统时,需要大模型具备快速处理和推理能力,以确保全局与局部规划的有效协同。
3 结束语
大模型的崛起为具身智能任务规划带来了全新的机遇。大模型赋予智能体强大的语言理解和生成能力,使智能体能够更好地理解人类指令,并自主规划和执行复杂任务。本文从单智能体和多智能体两个角度,深入探讨了大模型在具身智能任务规划领域的最新研究进展。在单智能体任务规划方面,大模型可以将自然语言描述的任务分解为一系列可执行的子任务,并根据环境反馈实时调整执行策略。在多智能体任务规划方面,大模型可以促进多智能体之间的协作,实现更复杂的任务。
LLM凭借其强大的自然语言处理能力,能够直接从自然语言描述的任务指令中生成详细的行动计划,并通过整合视觉、触觉等多种感知数据,提供更加全面、上下文敏感的任务规划方案。在多智能体协作中,LLM可以促进高效协作,结合全局视角与局部自主性,提出兼顾全局与局部的任务规划方案。然而,LLM在具身智能任务规划也面临诸多挑战,例如,对高度动态环境的快速适应能力有限,面对未曾见过的任务场景或环境变化时反应不够迅速,对特定领域的术语及复杂逻辑的语义理解和推理仍存在一定局限性等。
为应对上述挑战,大模型将从以下几个方面推动具身智能任务规划的发展。
(1)引入持续学习机制
通过引入先进的在线自适应学习机制,LLM可以在不中断现有任务执行的情况下,即时吸收新数据并微调其内部参数。这种能力使机器人或智能体不仅能够快速适应新情况,还能在保持原有性能的基础上不断学习和掌握新技能。例如,在家庭环境中,如果家具位置突然变动,LLM可以立即更新其路径规划算法,确保机器人顺利绕过障碍物继续完成清洁任务。
(2)多模态融合增强感知理解
通过集成多模态融合增强感知理解,LLM能够在具身智能任务规划中实现更加精准和灵活的操作,智能体不仅能够综合处理来自视觉、听觉及文本等多种感官的信息,还能从中提炼出更丰富和细致的环境认知。此外,借助对用户语音指令和表情的理解,智能体可以更准确地解析用户意图,提供个性化的响应和服务。这种多模态信息的协同处理能力,可以极大地提高智能体在复杂动态环境中执行任务的效率和准确性,推动具身智能任务规划向更高层次的自主性和适应性发展。
(3)引入混合专家模型
混合专家(mixture of experts,MoE)模型的选择性激活机制,能够在具身智能任务规划中显著提升计算效率和加快响应速度,使智能体能够根据具体任务需求动态调用最合适任务场景的“专家”LLM,从而在保证高性能的同时大幅降低资源消耗。这种灵活性不仅有助于处理复杂多变的环境信息,还能让具身智能系统更高效地进行长期任务规划与即时决策调整,最终推动具身智能向更加智能、实时适应的方向发展。
(4)引入长文本推断优化技术
通过提示词剪枝和提示词总结等方法减少输入数据量,可以使具身智能体更快地理解环境并做出反应,从而在未来的大模型具身智能任务规划中发挥关键作用。这些优化技术不仅加快了具身智能体的环境感知与理解的速度,提升了实时决策能力,还增强了复杂任务的规划效率,确保智能体能够专注于核心任务逻辑,逐步构建详细的行动计划。此外,它们促进了资源的高效利用,降低了计算和通信开销,可以将更多的资源分配给其他关键功能(如传感器融合和运动控制)。因此,这些方法将加快具身智能系统的响应速度,提高其任务成功率和整体性能,为实现更加智能化、自主化的机器人应用奠定坚实基础。
作者简介
贾子琦,男,清华大学深圳国际研究生院硕士生,主要研究方向为大模型、具身智能。
王健宗,男,博士,平安科技(深圳)有限公司副总工程师,资深人工智能总监,联邦学习技术部总经理,智能金融前沿技术研究院院长。美国佛罗里达大学人工智能博士后,美国莱斯大学和华中科技大学联合培养博士,中国计算机学会资深会员,中国计算机学会大数据专家委员会委员,中国自动化学会联邦数据和联邦智能专业委员会副主任。主要研究方向为大模型、联邦学习和深度学习等。
张旭龙,男,博士,平安科技(深圳)有限公司高级算法研究员,复旦大学计算机理学博士,主要研究方向为语音合成、语音转换、音频驱动虚拟人生成、音乐信息检索以及机器学习和深度学习方法在人工智能领域应用。担任清华大学深圳研究院以及中国科学技术大学先进技术研究院校外导师,目前是IEEE、中国自动化学会以及中国计算机学会会员,担任联邦数据与联邦智能专委会委员,2023年入选上海市东方英才计划青年项目。
瞿晓阳,男,博士,平安科技前沿机器学习算法分组负责人,清华大学深圳国际研究生院校外导师,中国科技大学校先进技术研究院校外导师,中佛罗里达大学访问学者,华中科技大学博士,主要研究方向为机器学习、大数据、体系结构、高性能计算与存储等。近几年,在体系结构和人工智能方向的国际顶级会议和顶级期刊发表近50篇文章,其中1篇论文荣获会议最佳学生论文奖提名。曾担任多个国际顶级期刊的评委,已授权的专利70篇,已出版的专著2本。
联系我们:
Tel:010-53879208
010-53859533
E-mail:bdr@bjxintong.com.cn
http://www.j-bigdataresearch.com.cn/
转载、合作:010-53878078
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号,获取更多内容
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)