NeurIPS 2025 具身智能 spotlight 四大金刚,从代码策略到场景建模,全方位领跑科研!
在,多篇直指当前该方向的核心落地瓶颈:大语言模型(LLM)驱动的code-as-policies策略,在动态/部分可观测场景中因环境接地不足,任务成功率难以保障;现有具身世界模型缺乏物理感知,无法精准建模3D几何与运动动力学,导致生成内容脱离实际场景约束;Transformer基具身策略处理长时任务时,视觉输入易超出上下文限制,记忆效率与泛化性不足;多模态大语言模型(MLLM)的具身智能体,还存在
在NeurIPS 2025的具身智能领域,多篇spotlight论文直指当前该方向的核心落地瓶颈:大语言模型(LLM)驱动的code-as-policies策略,在动态/部分可观测场景中因环境接地不足,任务成功率难以保障;现有具身世界模型缺乏物理感知,无法精准建模3D几何与运动动力学,导致生成内容脱离实际场景约束;Transformer基具身策略处理长时任务时,视觉输入易超出上下文限制,记忆效率与泛化性不足;多模态大语言模型(MLLM)的具身智能体,还存在视觉特征与文本语义接地薄弱的问题,感知准确性受限。

这些痛点大幅制约了具身智能体在RLBench、真实室内导航等场景的可靠性,而本次NeurIPS 2025的相关spotlight工作,正围绕这些问题展开突破——从神经符号框架强化环境接地,到物理感知世界模型补全物理约束,再到记忆高效架构适配长时任务、场景图增强语义关联,这些前沿探索成为当前具身智能突破复杂场景应用限制的关键方向。
【论文1】Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning
关键词:neuro-symbolic, embodied task planning, large language model
1.研究方法

针对大语言模型(LLM)的code-as-policies方法在动态或部分可观测环境中环境接地不足、导致任务成功率较低的问题,研究者提出一种神经符号化的具身任务规划框架,该框架集成符号验证与交互式验证流程,生成探索性代码以主动与环境交互获取缺失观测,同时保留任务相关状态。研究者在RLBench及真实动态、部分可观测场景中对框架进行评估。
2.论文创新点

- 提出融合符号验证与交互式验证的神经符号框架,解决LLM代码策略在复杂环境中的接地不足问题
- 设计探索性代码生成机制,在维持任务相关状态的前提下获取环境缺失观测
- 在RLBench与真实场景中验证,任务成功率较Code as Policies基线提升46.2%,任务相关动作可执行性达86.8%以上
论文链接:https://openreview.net/pdf/8a135640e90e68e7dd192021ba6a8fdff76f596f.pdf
【论文2】RoboScape: Physics-informed Embodied World Model
关键词:Embodied World model, Physics Priors, Video Generation
1.研究方法

针对现有具身世界模型物理感知不足、难以建模3D几何与运动动力学的问题,研究者提出统一的物理感知具身世界模型RoboScape,该框架联合学习RGB视频生成与物理知识,引入时间深度预测、关键点动力学学习两个物理感知联合训练任务。研究者在多类机器人场景验证其性能,并将其应用于下游策略训练与评估。
2.论文创新点

- 构建统一的物理感知具身世界模型RoboScape,实现视频生成与物理知识的联合学习
- 设计时间深度预测任务,提升视频渲染过程中的3D几何一致性
- 引入关键点动力学学习任务,隐式编码物体形状、材质等物理属性以优化复杂运动建模
- 在多机器人场景中验证,生成视频的视觉保真度与物理合理性更优,可支持下游策略训练与评估
论文链接:https://openreview.net/pdf/94a62dd76ca4f9a8a20b23eab66eeb317e5349c1.pdf
【论文3】Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
关键词:Reinforcement learning, transformers, memory, compression
1.研究方法

针对transformer基具身策略在长时任务中视觉输入超出上下文限制的问题,研究者提出Memo的transformer架构与强化学习训练方案,在训练时插入周期性总结token实现记忆的创建与检索。该方案在网格世界元RL基准与真实室内多目标导航任务中进行测试。
2.论文创新点

- 提出Memo的transformer架构与RL训练方案,解决具身智能体长时任务的记忆效率问题
- 引入周期性总结token机制,实现记忆的动态创建与检索,压缩无关输入信息
- 在网格世界与真实室内场景验证,性能优于长上下文transformer基线且计算存储效率更高
- 推理时对更长上下文泛化性更强,在历史上下文截断的流设置中仍保持鲁棒性
论文链接:https://openreview.net/pdf/4877c8c9446b72d733a5677610304c04fd55f44d.pdf
【论文4】ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
关键词:neurosymbolic, scene graph, multimodal, MLLM agents
1.研究方法

针对多模态大语言模型(MLLM)在具身智能体中视觉与文本语义接地较弱的问题,研究者提出ESCA框架,其核心是基于CLIP的SGCLIP场景图生成模型。该模型通过神经符号流水线在87K+开源视频上训练(自动对齐字幕与自生成场景图),支持提示式推理与任务微调,用于提升具身智能体的感知性能。
2.论文创新点

- 提出ESCA框架,通过时空场景图增强具身智能体的视觉-文本语义接地能力
- 构建基于CLIP的SGCLIP模型,无需人工标注,利用神经符号流水线在87K+开源视频上训练
- SGCLIP支持提示式推理与任务特定微调,在场景图生成、动作定位基准中获SOTA结果
- 提升开源与商用MLLM的具身智能体感知性能,使开源模型超越专有基线
论文链接:https://openreview.net/pdf/32e384d1b7bff0817b05af22b3999df7789e5b8d.pdf
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)