NeurIPS 2025 具身智能 spotlight 四大金刚，从代码策略到场景建模，全方位领跑科研！

在，多篇直指当前该方向的核心落地瓶颈：大语言模型（LLM）驱动的code-as-policies策略，在动态/部分可观测场景中因环境接地不足，任务成功率难以保障；现有具身世界模型缺乏物理感知，无法精准建模3D几何与运动动力学，导致生成内容脱离实际场景约束；Transformer基具身策略处理长时任务时，视觉输入易超出上下文限制，记忆效率与泛化性不足；多模态大语言模型（MLLM）的具身智能体，还存在

具身新纪元

873人浏览 · 2025-12-04 17:47:31

具身新纪元 · 2025-12-04 17:47:31 发布

在NeurIPS 2025的具身智能领域，多篇spotlight论文直指当前该方向的核心落地瓶颈：大语言模型（LLM）驱动的code-as-policies策略，在动态/部分可观测场景中因环境接地不足，任务成功率难以保障；现有具身世界模型缺乏物理感知，无法精准建模3D几何与运动动力学，导致生成内容脱离实际场景约束；Transformer基具身策略处理长时任务时，视觉输入易超出上下文限制，记忆效率与泛化性不足；多模态大语言模型（MLLM）的具身智能体，还存在视觉特征与文本语义接地薄弱的问题，感知准确性受限。

具身智能

这些痛点大幅制约了具身智能体在RLBench、真实室内导航等场景的可靠性，而本次NeurIPS 2025的相关spotlight工作，正围绕这些问题展开突破——从神经符号框架强化环境接地，到物理感知世界模型补全物理约束，再到记忆高效架构适配长时任务、场景图增强语义关联，这些前沿探索成为当前具身智能突破复杂场景应用限制的关键方向。

【论文1】Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning

关键词：neuro-symbolic, embodied task planning, large language model

1.研究方法

The NESYRO framework

针对大语言模型（LLM）的code-as-policies方法在动态或部分可观测环境中环境接地不足、导致任务成功率较低的问题，研究者提出一种神经符号化的具身任务规划框架，该框架集成符号验证与交互式验证流程，生成探索性代码以主动与环境交互获取缺失观测，同时保留任务相关状态。研究者在RLBench及真实动态、部分可观测场景中对框架进行评估。

2.论文创新点

Task performance under varying levels of observability incompleteness in RLBench

提出融合符号验证与交互式验证的神经符号框架，解决LLM代码策略在复杂环境中的接地不足问题
设计探索性代码生成机制，在维持任务相关状态的前提下获取环境缺失观测
在RLBench与真实场景中验证，任务成功率较Code as Policies基线提升46.2%，任务相关动作可执行性达86.8%以上

论文链接：https://openreview.net/pdf/8a135640e90e68e7dd192021ba6a8fdff76f596f.pdf

【论文2】RoboScape: Physics-informed Embodied World Model

关键词：Embodied World model, Physics Priors, Video Generation

1.研究方法

Overview of the physics-informed world model
针对现有具身世界模型物理感知不足、难以建模3D几何与运动动力学的问题，研究者提出统一的物理感知具身世界模型RoboScape，该框架联合学习RGB视频生成与物理知识，引入时间深度预测、关键点动力学学习两个物理感知联合训练任务。研究者在多类机器人场景验证其性能，并将其应用于下游策略训练与评估。

2.论文创新点

Quantitative comparison of our model and baselines with 5 independent runs.

构建统一的物理感知具身世界模型RoboScape，实现视频生成与物理知识的联合学习
设计时间深度预测任务，提升视频渲染过程中的3D几何一致性
引入关键点动力学学习任务，隐式编码物体形状、材质等物理属性以优化复杂运动建模
在多机器人场景中验证，生成视频的视觉保真度与物理合理性更优，可支持下游策略训练与评估

论文链接：https://openreview.net/pdf/94a62dd76ca4f9a8a20b23eab66eeb317e5349c1.pdf

【论文3】Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning

关键词：Reinforcement learning, transformers, memory, compression

1.研究方法

Architecture Diagram of Memo.

针对transformer基具身策略在长时任务中视觉输入超出上下文限制的问题，研究者提出Memo的transformer架构与强化学习训练方案，在训练时插入周期性总结token实现记忆的创建与检索。该方案在网格世界元RL基准与真实室内多目标导航任务中进行测试。

2.论文创新点

(Left) Overhead view of a training scene in Habitat simulator； (Right) Val success rate and SPL curves

提出Memo的transformer架构与RL训练方案，解决具身智能体长时任务的记忆效率问题
引入周期性总结token机制，实现记忆的动态创建与检索，压缩无关输入信息
在网格世界与真实室内场景验证，性能优于长上下文transformer基线且计算存储效率更高
推理时对更长上下文泛化性更强，在历史上下文截断的流设置中仍保持鲁棒性

论文链接：https://openreview.net/pdf/4877c8c9446b72d733a5677610304c04fd55f44d.pdf

【论文4】ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

关键词：neurosymbolic, scene graph, multimodal, MLLM agents

1.研究方法

An overview of embodied agent pipeline augmented with ESCA.

针对多模态大语言模型（MLLM）在具身智能体中视觉与文本语义接地较弱的问题，研究者提出ESCA框架，其核心是基于CLIP的SGCLIP场景图生成模型。该模型通过神经符号流水线在87K+开源视频上训练（自动对齐字幕与自生成场景图），支持提示式推理与任务微调，用于提升具身智能体的感知性能。

2.论文创新点

The overall performance on EB-Navigation and EB-Manipulation environments.

提出ESCA框架，通过时空场景图增强具身智能体的视觉-文本语义接地能力
构建基于CLIP的SGCLIP模型，无需人工标注，利用神经符号流水线在87K+开源视频上训练
SGCLIP支持提示式推理与任务特定微调，在场景图生成、动作定位基准中获SOTA结果
提升开源与商用MLLM的具身智能体感知性能，使开源模型超越专有基线

论文链接：https://openreview.net/pdf/32e384d1b7bff0817b05af22b3999df7789e5b8d.pdf

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

工业机器人离线编程基础与 ABB RobotStudio 软件实操

工业机器人编程方法主要包括示教编程和离线编程两种主流方式。示教编程需现场操作机器人记录轨迹，而离线编程通过虚拟环境进行三维建模与仿真，具有不占用生产时间、支持复杂轨迹等优势。国内外主流离线编程软件分为专用型（如ABB RobotStudio、FANUC RoboGuide）和通用型（如RobotMaster、国产PQArt），正朝着智能化、专用化方向发展。文章重点介绍了ABB RobotStudi

DAMO开发者矩阵

硬实时·强生态：鸿道Intewell硬实时操作系统

DAMO开发者矩阵

【随手记】Covariant’s Brain Service和gRPC谷歌远程过程调用

高性能：HTTP/2 + Protobuf，高吞吐量、低延迟实时双向通信：机器人和 Brain Service 可持续交换数据支持流式数据：感知数据和动作指令都是连续流跨语言系统支持：简化分布式开发正是 gRPC 的这些特性，使得 Covariant 的机器人系统能够像“智能团队”一样高效协作，实现真正的工业自动化智能。