大道至简,创新为纲,当下AI领域的研究正朝着效率升级、能力泛化、安全可控、落地深耕四大核心方向纵深发展,从基础架构的底层优化到多场景的落地适配,从单一模型的能力提升到多智能体的协同进化,从技术突破的狂飙突进到安全对齐的理性约束,形成了“筑基、拓界、守底、落地”的四维研究格局。正如《周易》所言“穷则变,变则通,通则久”,当前AI研究的创新均围绕解决实际应用中的效率瓶颈、能力边界、安全风险与落地难题展开,在变与通的迭代中实现技术的持续进化。本次18篇论文可清晰划分为基础架构与效率优化、多智能体与世界模型、机器人与计算机视觉、大模型安全与对齐、领域专用模型与实证研究五大类别,各领域研究各有侧重又相互交融,共同推动AI技术从实验室走向实际应用。

一、基础架构与效率优化类

本类研究聚焦AI模型的底层架构核心痛点,从注意力机制、token化策略、线性注意力改进等维度实现效率与精度的双重提升,让大模型在长序列、高算力消耗场景下实现“轻装上阵”,印证了“工欲善其事,必先利其器”的技术发展逻辑。

  1. ⭐⭐⭐SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning:核心应用场景为扩散模型加速,创新点为提出可训练的稀疏注意力方法,融合Top-k与Top-p混合掩码规则,结合蒸馏启发的微调目标,在视频扩散模型中实现95%注意力稀疏度与16.2倍注意力加速且保持生成质量,论文地址:https://huggingface.co/papers/2602.13515
  2. ⭐⭐DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers:核心应用场景为图像与视频生成的扩散Transformer加速,创新点为提出动态token化策略,根据内容复杂度和去噪时间步动态调整patch尺寸,在FLUX-1.Dev和Wan 2.1上分别实现3.52倍和3.2倍加速且不损失生成质量,论文地址:https://huggingface.co/papers/2602.16968
  3. 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy:核心应用场景为长序列任务的线性注意力模型优化,创新点为简化Mamba-2架构并优化其A-mask与隐藏状态阶数,提出2Mamba模型,在保持线性复杂度与内存效率的同时实现接近softmax注意力的精度,论文地址:https://huggingface.co/papers/2602.17363
  4. Arcee Trinity Large Technical Report:核心应用场景为大模型的稀疏混合专家架构设计,创新点为提出包含Nano/Mini/Large的稀疏MoE模型系列,融合交错局部与全局注意力、门控注意力等先进机制,为Trinity Large设计SMEBU负载平衡策略,基于Muon优化器实现零损失尖峰训练,论文地址:https://huggingface.co/papers/2602.17004
  5. ⭐⭐⭐Unified Latents (UL): How to train your latents:核心应用场景为视觉生成的隐表示学习,创新点为提出统一隐表示框架,通过扩散先验正则化与扩散模型解码学习联合隐表示,为隐比特率提供紧上界,在ImageNet-512实现1.4的FID、Kinetics-600实现1.3的SOTA FVD且降低训练计算量,论文地址:https://huggingface.co/papers/2602.17270

二、多智能体与世界模型类

本类研究围绕智能体的环境感知、行为预测、策略优化展开,构建世界模型以提升智能体的前瞻能力与决策鲁棒性,从桌面软件、星际争霸到多智能体博弈,让智能体实现“见微知著,未雨绸缪”,契合“凡事预则立,不预则废”的决策逻辑。

  1. Computer-Using World Model:核心应用场景为桌面软件的智能体决策优化,创新点为提出桌面软件专用的CUWM世界模型,通过“文本描述-视觉合成”两阶段策略预测UI状态变化,结合强化学习优化与测试时动作搜索,提升办公软件任务的决策质量与执行鲁棒性,论文地址:https://huggingface.co/papers/2602.17365
  2. FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment:核心应用场景为机器人的通用策略优化,创新点为提出并行渐进扩展的未来表示对齐方法,通过两阶段微调策略学习未来观测的隐表示,与多视觉基础模型对齐,减少预测误差累积,提升机器人长视野任务的泛化能力,论文地址:https://huggingface.co/papers/2602.17259
  3. Discovering Multiagent Learning Algorithms with Large Language Models:核心应用场景为不完美信息博弈的多智能体强化学习,创新点为提出LLM驱动的进化编码智能体AlphaEvolve,自动进化后悔最小化与群体训练算法,发现VAD-CFR和SHOR-PSRO新算法,超越现有SOTA基线,论文地址:https://huggingface.co/papers/2602.16928
  4. World Models for Policy Refinement in StarCraft II:核心应用场景为星际争霸II的智能体策略优化,创新点为提出首个SC2专用世界模型StarWM,基于结构化文本表示实现部分可观测下的未来观测预测,构建SC2-Dynamics-50k数据集,设计Generate–Simulate–Refine决策环路,大幅提升对战内置AI的胜率,论文地址:https://huggingface.co/papers/2602.14857
  5. ⭐⭐⭐Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents:核心应用场景为多平台GUI智能体的通用能力构建,创新点为提出GUI-Owl-1.5多平台GUI智能体模型,融合混合数据飞轮、统一能力增强、MRPO多平台强化学习算法,在20+GUI基准测试中实现SOTA,支持云边协同与实时交互,论文地址:https://huggingface.co/papers/2602.16855

三、机器人与计算机视觉类

本类研究聚焦机器人感知与动作迁移、水下视觉深度估计等落地性极强的方向,解决跨模态、跨体构、跨环境的感知与控制难题,让机器人在复杂环境中实现“知行合一,精准感知”,体现了“道器合一,以致用为先”的技术落地理念。

  1. TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment:核心应用场景为机器人的触觉策略迁移,创新点为提出跨体构触觉对齐方法,基于整流流将人类与机器人触觉观测映射到共享隐空间,无需配对数据与人工标注,实现接触密集型任务的人到机器人策略零样本迁移,论文地址:https://huggingface.co/papers/2602.13579
  2. StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation:核心应用场景为水下机器人的立体深度估计,创新点为提出ConvSS2D选择性状态空间算子替代ConvGRU,实现单步高效长距离视差传播,构建UW-StereoDepth-80K大规模合成水下数据集,结合动态LoRA适配在水下基准测试中实现SOTA零样本性能,论文地址:https://huggingface.co/papers/2602.16915

四、大模型安全与对齐类

本类研究聚焦大模型的安全对齐核心问题,从神经元级别的轻量化调优到参考引导的对齐方法,解决非可验证领域的对齐难题与安全风险,为大模型的负责任部署筑牢“安全防线”,彰显了“君子不立危墙之下”的风险防控思维。

  1. NeST: Neuron Selective Tuning for LLM Safety:核心应用场景为大模型的轻量化安全对齐,创新点为提出神经元选择性调优框架,聚类并微调安全相关神经元而冻结模型其余部分,仅需平均44万可训练参数,实现90.2%的不安全生成减少,大幅优于全微调与LoRA方法,论文地址:https://huggingface.co/papers/2602.16835
  2. References Improve LLM Alignment in Non-Verifiable Domains:核心应用场景为非可验证领域的大模型对齐,创新点为提出参考引导的LLM评估器作为软验证器,利用前沿模型或人工编写的参考提升评估器精度,基于改进的评估器实现大模型自优化,性能媲美专业奖励模型且大幅超越SFT与无参考自优化,论文地址:https://huggingface.co/papers/2602.16802
  3. Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5:核心应用场景为前沿AI的风险评估与管控,创新点为从网络攻击、说服操纵、战略欺骗、无控研发、自复制五大维度细化前沿AI风险评估,设计复杂场景与实验验证风险,提出并验证一系列鲁棒的风险缓解策略,为前沿AI安全部署提供技术路径,论文地址:https://huggingface.co/papers/2602.14457

五、领域专用模型与实证研究类

本类研究聚焦科学计算、车载智能体、神经网络机理等细分领域,通过实证分析与机理探究实现领域模型的构建与技术的可解释性提升,让AI研究“知其然,更知其所以然”,遵循了“格物致知,实事求是”的研究准则。

  1. ⭐⭐**“What Are You Doing?”: Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing**:核心应用场景为车载LLM智能体的用户体验优化,创新点为通过受控混合方法研究车载智能体的中间反馈策略,发现自适应反馈(高初始透明度+渐进降低冗余度)可提升用户信任与体验、降低任务负载,为注意力关键场景的智能体反馈设计提供准则,论文地址:https://huggingface.co/papers/2602.15569
  2. ArXiv-to-Model: A Practical Study of Scientific LM Training:核心应用场景为有限算力下的科学领域大模型训练,创新点为以13.6亿参数科学LLM为例,提出从arXiv LaTeX原始数据到模型的端到端训练管线,分析预处理、分词、基础设施对模型训练的影响,为中等算力预算的领域专用模型构建提供工程化参考,论文地址:https://huggingface.co/papers/2602.17288
  3. On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking:核心应用场景为神经网络的机理与训练动力学探究,创新点为解析双层神经网络求解模加法的机制,提出相位对称与频率多样化的多样化条件,基于彩票票机制与梯度流分析解释特征学习过程,将Grokking刻画为“记忆-两次泛化”的三阶段过程,论文地址:https://huggingface.co/papers/2602.16849

思维导向图

## **基础架构与效率优化**
- SpargeAttention2:扩散模型混合掩码可训练稀疏注意力,95%稀疏度16.2倍加速
- DDiT:扩散Transformer动态patch调度,依内容/去噪步调整尺寸实现3倍+加速
- 2Mamba2Furious:简化Mamba-2优化架构,线性复杂度接近softmax注意力精度
- Arcee Trinity:稀疏MoE模型系列,SMEBU负载平衡+Muon优化器零损失尖峰训练
- Unified Latents:扩散先验正则化联合隐表示,ImageNet/Kinetics实现SOTA指标
## **多智能体与世界模型**
- Mobile-Agent-v3.5:GUI-Owl-1.5多平台GUI智能体,MRPO算法20+基准SOTA
- Computer-Using World Model:CUWM桌面软件世界模型,文本+视觉预测UI状态
- FRAPPE:机器人世界模型多未来表示对齐,两阶段微调减少误差累积
- AlphaEvolve:LLM驱动进化编码智能体,自动发现VAD-CFR/SHOR-PSRO新算法
- StarWM:星际争霸II世界模型,结构化文本表示提升对战AI胜率30%+
## **机器人与计算机视觉**
- TactAlign:跨体构触觉对齐,整流流映射共享隐空间,实现机器人策略零样本迁移
- StereoAdapter-2:水下立体深度估计,ConvSS2D算子+UW-StereoDepth-80K数据集SOTA
## **大模型安全与对齐**
- Frontier AI Risk Management:五大维度细化前沿AI风险,提出可验证的缓解策略
- NeST:神经元选择性调优,44万参数实现90.2%不安全生成减少
- References Improve Alignment:参考引导LLM评估器,非可验证领域实现高效自优化
## **领域专用模型与实证研究**
- 车载LLM智能体反馈:自适应反馈策略,提升注意力关键场景用户体验与信任
- ArXiv-to-Model:科学LLM端到端训练管线,中等算力领域模型构建工程参考
- 模加法神经网络机理:解析傅里叶特征学习,Grokking三阶段过程刻画

更多内容关注公众号"快乐王子AI说"

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐