引言

人形机器人在执行多样化人类技能方面展现出巨大潜力,尤其是在复杂操作任务中具备良好的适应性。然而,当前研究主要依赖数据驱动方法,这些方法虽然在特定任务中表现良好,但通常忽略了空间几何推理能力,导致在未见场景中的泛化能力受限。此外,现有方法对训练数据的依赖过大,往往需要成千上万的轨迹样本才能达到较好的控制效果,这不仅耗费大量计算资源,也限制了在真实场景中的实用性与可扩展性。

图片

针对上述问题,本文提出了RGMP(Recurrent Geometric-prior Multimodal Policy)框架,旨在实现端到端的几何语义技能推理与数据高效的视觉运动控制。该框架通过引入几何先验来增强模型在未知环境中的语义-空间对齐能力,并通过递归高斯网络实现对机器人-目标空间关系的高效建模。RGMP在两个真实机器人平台上进行了验证,在泛化测试中达到了87%的任务成功率,并展现出比当前最优方法高出5倍的数据效率。

图片

相关工作

2.1 视觉语言模型

视觉语言模型如PaLM-E、InstructBLIP等在语义理解与任务规划方面取得了显著进展。它们能够根据视觉输入和语言指令生成任务计划,但在将抽象指令映射到具体机器人技能时仍存在局限。尤其是在面对不同形状的目标或动态环境时,模型往往难以进行细粒度的技能选择,如“抓握”与“捏取”之间的区分。这主要是因为现有模型缺乏对物体几何属性的显式建模,导致在空间推理能力上存在不足。

图片

2.2 基于学习的动作生成

近年来,模仿学习与扩散模型在机器人动作生成中得到了广泛应用。然而,这些方法普遍面临三个主要问题:对预定义动作基元的依赖、跨领域泛化能力不足,以及奖励函数设计的复杂性。扩散策略虽然在轨迹生成中表现出色,但其推理速度较慢,难以满足实时控制需求。此外,在数据稀缺的情况下,这类方法容易过拟合,限制了其在真实场景中的应用。

图片

方法

RGMP框架由两个核心组件构成:几何先验技能选择器 与自适应递归高斯网络。前者负责将语言指令与视觉观测转化为可执行的技能序列,后者则根据RGB图像预测机器人关节角度,实现精确的动作控制。

3.1 几何先验技能选择器

GSS的提出动机在于解决传统VLM在技能选择中忽略几何信息的问题。其工作流程分为两个阶段:首先,使用VLM对输入指令进行解析,定位目标物体并提取其边界框;接着,结合物体的形状信息与几何先验常识,从预定义的技能库中选择最适合的技能。例如,当目标物体为“圆柱形”时,模型倾向于选择“侧握”;若物体为“压扁状”,则选择“抬起”。

GSS的规划函数表示为:

图片

其中,I是用户指令,O是当前视觉观测,C是预定义的上下文,包含若干示例对

图片

,支持上下文学习。GSS通过引入20条基于规则的几何约束,实现了在无需任务特定微调的情况下,具备人类类似的决策能力。

3.2 自适应递归高斯网络

ARGN旨在解决在数据有限情况下机器人对空间关系建模的挑战。其核心思想是通过递归操作构建空间记忆,从而在未见场景中也能捕捉机器人末端执行器与目标物体之间的空间依赖关系。

图片

首先,输入图像经过Stem层进行初步特征提取,得到特征图F0。随后,通过空间混合块对特征进行递归处理,逐步建模全局空间关系。为了缓解递归计算中的梯度消失问题,ARGN引入了自适应衰减机制,动态控制历史记忆的衰减率:

图片

其中,C1×1和C3×3分别表示卷积操作,σ为Sigmoid函数。该机制能够自适应地增强任务关键区域的特征权重。

在空间混合块中,递归计算过程如下:

图片

其中,ki和vi分别表示键与值的图像块,W为内容自适应的衰减因子。该过程通过累积记忆机制保留关键空间信息。

3.3 高斯混合模型用于动作优化

在动作生成阶段,ARGN输出初始动作ain,随后通过高斯混合模型对其进行优化。GMM将关节空间建模为6个高斯分布的混合,每个分布对应一个机器人关节。其概率密度函数为:

图片

其中,

图片

分别表示第k个分量的先验概率、均值与协方差矩阵。通过EM算法对参数进行估计,最大化训练数据的似然函数。

在推理阶段,计算初始动作ain与各高斯分量之间的马氏距离:

图片

最终选择的动作为距离最小的聚类中心:

图片

⁡该方法有效避免了单一高斯回归到均值的问题,提升了动作生成的多样性与准确性。

图片

实验

4.1 实验设置

实验在两个机器人平台上进行:人形机器人上半身与桌面双臂机器人。数据集包含120条轨迹,每条轨迹包含一组RGB图像及其对应的机器人关节角度序列。评估指标包括技能选择准确率Accs、任务执行准确率Acct,以及整体成功率

图片

图片

4.2 性能对比与消融实验

RGMP在多个任务中与ResNet50、Transformer、Diffusion Policy等基线方法进行了对比。在“抓取Fanta罐”任务中,RGMP在仅使用40条训练样本的情况下,取得了98%的成功率,显著优于其他方法。在跨物体泛化测试中,RGMP在未见过的“喷雾瓶”和“人手”等物体上也分别达到了81%和90%的成功率,显示出强大的泛化能力。

消融实验进一步验证了GSS与GMM的有效性。如表1所示,在使用GSS后,技能选择准确率提升了15-25%。而在ARGN中引入GMM后,任务执行准确率进一步提升,尤其是在处理“压扁可乐罐”等复杂形状物体时表现更为鲁棒。

图片

图片

4.3 数据效率分析

RGMP在数据效率方面表现出色。如表5所示,仅使用40条训练样本时,RGMP的成功率已达到98%,而Diffusion Policy需要200条样本才能达到相近性能。这表明RGMP在数据稀缺环境下仍能保持高效的学习能力,具备较强的实用价值。

图片

图片

图片

结论与未来工作

本文提出了RGMP框架,通过融合几何先验技能选择器与自适应递归高斯网络,实现了在语义-空间对齐与视觉运动控制方面的显著提升。实验表明,RGMP在泛化能力与数据效率方面均优于当前主流方法。

未来工作将探索基于功能泛化的方法,即通过演示一个主要物体的功能,自动推断其他物体的操作轨迹,从而进一步提升机器人在动态环境中的适应性与效率。

 最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​
在这里插入图片描述

为什么我要说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述
⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐