一、大模型基础架构突破

1. RoPE位置编码先天性缺陷研究

核心贡献:伊利诺伊大学、德国波恩大学、阿贡国家实验室及亚马逊AGI团队联合发表论文,从理论层面首次系统揭示了旋转位置编码(RoPE)在处理长文本时存在无法回避的先天性缺陷。研究团队用严格的数学证明表明,随着文章长度增加,AI把更高注意力分数分配给远处词的概率会逐渐逼近50%,相当于掷硬币猜正反面。

实际应用:该研究解释了为何当前号称支持128K超长上下文的模型在实际使用中仍会出现位置混淆问题。对于需要处理长文档、复杂对话的AI应用场景,这一发现提示开发者需要重新审视位置编码方案的选择。

与以往不同:以往研究多关注模型性能优化,而该论文首次从数学本质层面证明位置编码机制本身存在理论上限。研究发现,在8000词上下文范围内,使用BF16精度计算就存在超过77000对位置混叠,这意味着位置信息在特定条件下会彻底失效。


2. AGI新定义:"人工科学家"框架

核心贡献:澳大利亚国立大学研究员Michael Timothy Bennett提出将AGI定义为"人工科学家",强调真正的通用智能应具备在计算、记忆和能量等现实约束下,像人类科学家一样广泛、高效且科学地适应新环境和任务的能力。

实际应用:该框架为AGI评估提供了可量化的工程标准,不再依赖图灵测试或人类基准测试。新标准强调主动实验能力、因果理解能力、探索与利用的动态平衡,以及能量限制下的优雅适应。

与以往不同:跳出"模仿人类"的传统框架,将评判标准从"和人有多像"转向"发现新知的能力有多强"。论文明确指出当前大模型走的是"规模最大化近似"路线,无法主动做实验验证猜想,无法自主构建因果链条。虽然论文发表于去年,但是在讨论AGI是否实现之前,首先要确定何为AGI的标准,因此论文至今一直为人热议。


二、具身智能与机器人技术

3. EQA-Decision:具身问答从感知到决策

核心贡献:北京大学穆亚东团队在CVPR 2026发表论文,构建了覆盖四大推理模块、超过四百万问答对的EQA-Decision数据集,首次将具身问答从静态感知扩展到动态决策。提出RoboDecision三阶段训练框架(SFT→CoT-SFT→GRPO),让模型真正学会"先想后做、看图决策"。

实际应用:解决了具身模型不能同时理解场景和优化动作序列的问题,实现了感知和决策一体化。在机器人抓取、操作等真实场景中,模型能够综合空间布局、子任务完成度和未来动作后果,给出即时合理的动作决策。例如在"刷洗水瓶"任务中,机器人能够同时理解液体位置和此刻是否应该停止,因此判断"等待直到水流停止"而非急躁进入下一步。

与以往不同:现有数据集长期处于"各自为战"状态,无法将空间理解、状态追踪、因果推理和即时行动决策统一考量。该工作引入的视觉一致性奖励机制,强制模型把推理锚定在图像像素上,而非靠文本先验"瞎猜"。评测结果显示RoboDecision-8B整体得分68.06,显著超越GPT-5(51.03)等通用基线模型。


4. HiF-VLA:以Motion为中心的世界动作模型

核心贡献:西湖大学、浙江大学、西湖机器人等机构的团队提出HiF-VLA框架,巧妙提取低维紧凑的运动(Motion)向量作为动态先验,在"联合专家"模块中同步完成未来视觉运动预测与高精度动作序列生成。构建Hindsight-Insight-Foresight(HIF)双向时空推理框架,实现真正的"边想边做"。

实际应用:在CALVIN与LIBERO-LONG等长程任务评测中,成功率显著超越现有SOTA方法。对于需要稳定执行长程任务的机器人应用场景(如家庭服务、工业操作),该模型能够保持恒定极低的推理延迟,同时赋予机器人物理直觉。

与以往不同:传统VLA模型停留在"动作模仿"阶段,缺乏对物理世界动态变化的理解,容易导致因果混淆,而直接堆叠多帧图像来引入时间维度,会引入过多静态背景冗余,导致推理延迟和显存爆炸。HiF-VLA摒弃冗余像素,通过历史帧解码器提取运动(Motion)作为上下文记忆,峰值显存仅31.4GB(传统方法达63.6GB),推理延迟保持稳定。通过将"输出动作指令"与"预测未来运动趋势"深度绑定,模型产生真实的物理理解能力。


三、AI+生物医药交叉领域

5. 长寿科学AI基础模型

核心贡献:英矽智能与Human Longevity达成数百万美元战略合作,共同开发行业首个面向人类长寿科学研究的大规模AI基础模型。英矽智能提供多模态基础模型开发专长和MMAI Gym训练评估框架,HLFM(Human Life Foundation Models)提供涵盖数千名个体的基因组学、影像学和纵向健康记录数据集。

实际应用:解码衰老生物学机制,推动衰老相关疾病的早期发现、人类寿命预测模型构建、年龄相关的健康风险预测建模、AI驱动的创新长寿药物研发,以及个性化干预措施。全球长寿经济规模现已达5.3万亿美元,有望在2030年跃升至8万亿美元。

与以往不同:首次将先进算法与深层生物学见解相结合,推动全球医疗保健范式从被动疾病治疗转向主动预防的长寿科学。英矽智能科学家已发表50余篇与衰老和长寿研究相关的论文,此次合作将加速以AI驱动的抗衰老药物研发进程。


总结

今日论文呈现三大核心趋势:

  1. 基础理论深化:从AGI定义标准到RoPE缺陷研究,学界开始从哲学层面和数学本质重新审视AI能力的评估标准与边界。

  2. 具身智能突破:EQA-Decision和HiF-VLA两项工作均强调"感知-决策"一体化,机器人技术正从"动作模仿"迈向"物理理解"。

  3. 垂直领域融合:AI与生物医药的深度融合正在开启长寿科学新赛道,多模态大模型与专业数据集的结合将成为行业标配。


参考来源

原文

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐