技术漫游-NeurIPS 2025专栏_DAMO开发者矩阵

技术漫游-NeurIPS 2025

技术漫游-NeurIPS 2025

8篇内容

达摩院 NeurIPS'25 Oral｜一张图+你的动作，实时生成AAA级第一人称虚拟世界

作者｜涂远鹏阿里巴巴达摩院实习生引言香港大学和阿里达摩院联合提出头号玩家（PlayerOne）模型，该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界，通过摄像设备实时捕捉用户的动作序列，PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中，使用户能够以第一人称视角，在如同顶级AAA游戏般的高质量场景中，自由地进行探索与互动。项目主页：https://

58 

DAMO开发者矩阵 · 2025-12-26 11:51:26

达摩院 NeurIPS'25｜多模态大模型正在“集体幻觉”？发布CMM基准，系统诊断三模态幻觉根源

作者｜冷思聪阿里巴巴达摩院实习生引言阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒 (CMM)，这是一个系统性地研究面向语言，视觉，和音频的多模态大模型 (LMMs) 幻觉问题的工作，对幻觉问题提供深入的分析和评估方法。近年来，多模态大模型（LMMs）在人工智能的前沿领域取得了突破性进展，但仍然面临“幻觉”问题，即模型会生成与输入不符的信息。面对这一挑

84 

DAMO开发者矩阵 · 2025-12-26 11:47:28

达摩院 NeurIPS'25｜多模态大模型在第一视角下的动态时空物体认知能力如何？

作者｜袁瑜谦阿里巴巴达摩院实习生引言在厨房手忙脚乱时，你问AI助手：“我煮的菜熟了吗？”——它却连已经煮了几分钟都记不得。现有多模态大模型（MLLMs）在动态第一视角场景中近乎“盲人”：认不出已经清洗过的碗；预测不了即将烧焦的锅；记不住3秒前剪刀位置...... 浙大和达摩院重磅推出EOC-Bench——首个聚焦第一视角下「动态物体时空认知」的评测基准，用3277道灵魂拷问揭穿MLLMs

24 

DAMO开发者矩阵 · 2025-12-26 11:46:24

达摩院 NeurIPS'25｜揭示生成-表征缩放定律，LCO-Embedding刷新MIEB基准SOTA

作者｜陈浩邦阿里巴巴达摩院算法工程师摘要在多模态表征学习领域，CLIP范式长期以来占据主导地位，但它正面临难以忽视的缩放瓶颈。例如，一些工作需要使用高达几万的batch size和十亿级别的图文对数据才能取得进展。与此同时，多模态大语言模型（MLLM）在表征任务上展现出巨大的潜力，仅需轻量级的对比学习就能激活强大的表征能力，在困难任务上已大幅超越CLIP模型。这引出了一系列亟待解答

62 

DAMO开发者矩阵 · 2025-12-26 11:41:16

达摩院 NeurIPS'25｜告别高阶张量爆炸！Uni-EGNN 用几何标准型实现轻量级完备建模

作者｜岑嘉诚阿里巴巴达摩院实习生摘要等变图神经网络（Equivariant Graph Neural Networks, GNNs）在多种应用中已展现出显著成功。为了实现完备性——即在等变函数空间上的通用逼近性质——网络必须能够有效捕捉不同节点之间复杂的多体相互作用。以往的方法通常通过加深网络结构、提高交互阶数或增加可导向特征的维度来实现，但往往伴随着巨大的计算开销，且缺乏多项式时间的解法

40 

DAMO开发者矩阵 · 2025-12-26 11:40:11

达摩院 NeurIPS'25｜NS-EGNN：建模现实世界中非平稳动态的等变图网络

作者｜袁超豪阿里巴巴达摩院实习生导语在学习和模拟物理动力学（如分子运动、蛋白质折叠）时，图神经网络（GNN）已展现出巨大潜力。为了提升模型的泛化能力，一系列“等变GNN”（Equivariant GNNs）被开发出来，它们将平移、旋转等物理对称性作为归纳偏置（inductive bias）融入模型。然而，现有的方法普遍忽略了物理动力学的一个关键特性：非平稳性（non-stationarit

148 

1 

DAMO开发者矩阵 · 2025-12-26 11:30:45

达摩院 NeurIPS'25｜UniLumos: 引入物理反馈的统一图像视频重打光框架，实现20倍加速的真实光影重塑

作者｜袁杭杰阿里巴巴达摩院算法工程师引言图像与视频重光照（Relighting）技术在计算机视觉与图形学中备受关注，尤其在电影、游戏及增强现实等领域应用广泛。当前，基于扩散模型的方法能够生成多样且可控的光照效果，但其优化过程通常依赖于语义空间，而语义上的相似性无法保证视觉空间中的物理合理性，导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。针对上述问题，我们提出了 UniL

53 

DAMO开发者矩阵 · 2025-12-26 11:24:11

达摩院 NeurIPS'25｜SparseDiT用动态 Token 稀疏化破解 DiT 效率瓶颈

作者｜常舒宁阿里巴巴达摩院算法工程师引言本文提出了SparseDiT，一种通过空间 (Model Structure) 和时间维度 (Timestep) 的token稀疏化来提高Diffusion Transformer（DiT）计算效率的新框架。在空间维度上，SparseDiT采用三段式架构：底层使用Poolingformer进行高效全局特征提取，中层利用Sparse-dense g

78 

DAMO开发者矩阵 · 2025-11-24 10:43:42