专栏_DAMO开发者矩阵

达摩院 NeurIPS'25｜SparseDiT用动态 Token 稀疏化破解 DiT 效率瓶颈

作者｜常舒宁阿里巴巴达摩院算法工程师引言本文提出了SparseDiT，一种通过空间 (Model Structure) 和时间维度 (Timestep) 的token稀疏化来提高Diffusion Transformer（DiT）计算效率的新框架。在空间维度上，SparseDiT采用三段式架构：底层使用Poolingformer进行高效全局特征提取，中层利用Sparse-dense g

DAMO开发者矩阵
2025-11-24 10:43:42

 78
达摩院EMNLP'25｜先学会看，再学会想：新框架突破多模态模型几何视觉瓶颈

作者｜陈桂臻阿里巴巴达摩院实习生摘要多模态大语言模型（MLLMs）在几何等视觉密集型推理任务中表现不佳，其核心问题在于模型的视觉感知瓶颈，制约了推理训练的效果。模型如果无法正确感知图像中的基本形状、角度和空间关系，就更无法解决复杂的几何问题。为此，来自达摩院和新加坡南洋理工大学的研究团队提出了Geo-Perception Question-Answering（GeoPQA）基准来量化模型

 DAMO开发者矩阵
2025-11-24 11:18:05

 56
达摩院EMNLP'25｜百页图文长文档看不完？M-LongDoc让大模型秒懂超长文档

作者｜陈浩邦阿里巴巴达摩院算法工程师摘要近年来，大型多模态模型（MLLM）展现了惊人的信息处理潜力，但它们在理解真实世界的超长、复杂文档时，仍然面临巨大挑战。现有的基准也多侧重于短文档和抽取式问答，无法真实反映现实世界的复杂性。为了解决这一难题，我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”，还设计了一种创新的

 DAMO开发者矩阵
2025-11-24 11:28:00

 93
达摩院EMNLP'25｜提出“创意链”，让大模型像人类一样生成科研灵感

作者｜李龙阿里巴巴达摩院算法工程师摘要浙江大学和阿里巴巴达摩院的研究者们提出了一项名为创意链（Chain of Ideas，CoI）的创新研究。他们将文献组织成链的形式，引导模型像人类一样进行研究思考。基于 CoI，研究者们构建了一个智能体——CoI Agent。这个智能体能够通过输入一个文章主题或一篇论文，自动生成科学创意并设计对应实验。目前项目论文、代码、Demo 均已经上线，CoI

DAMO开发者矩阵
2025-11-24 11:29:31

 104
达摩院EMNLP'25 | ReasonMed多智能体框架，医学推理数据生成新范式

作者｜孙雨阿里巴巴达摩院实习生 ReasonMed相关链接论文链接：https://arxiv.org/abs/2506.09513 Hugging Face：https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed Code：https://github.com/alibaba-damo-academy/ReasonMe

DAMO开发者矩阵
2025-11-24 11:34:26

 51
达摩院MICCAI'25｜不是每张CT都 equally important！AI学会抓取淋巴结恶性“关键帧”

作者｜李浩申，阿里巴巴达摩院实习生引言基于CT图像的淋巴结转移预测在食道癌的治疗与规划中起到重要的作用。近年来，深度学习方法在淋巴结转移分类中的表现显著提高。然而，这些方法通常更关注淋巴结个体所有CT切片的平均特征，缺少对关键切片特征的有效提取和融合。此外，现有的深度学习方法更多地关注CT图像，缺少淋巴结临床相关特征（如形态学和组学特征）的显式加入和融合，这些特征可能很难通过直接端到端深度学习

 DAMO开发者矩阵
2025-11-24 11:53:28

 14
达摩院ICCV'25｜无需预训练，端到端解析全切片图像！Pixel-Mamba重塑计算病理分析

作者｜巢汉青，阿里巴巴达摩院算法专家引言全切片图像（WSI）是病理诊断的核心载体，但其超大尺寸与复杂的多尺度结构为AI分析带来了巨大挑战。现有方法多依赖两阶段流程或受限于注意力机制的计算瓶颈，难以兼顾效率与全局上下文建模。本文提出 Pixel-Mamba —— 一种全新的端到端WSI分析框架，实现从像素级输入到切片级预测的高效、统一建模。 Pixel-Mamba 结合 Mamba 架构的线

 DAMO开发者矩阵
2025-11-24 13:46:37

 59
【建议收藏】达摩院ICCV 2025论文解读，看这一篇就够了！

正在上传…重新上传取消

 DAMO开发者矩阵
2025-11-24 13:37:06

 66
达摩院MICCAI'25｜让AI关注“该关注的地方”：基于淋巴结先验的注意力引导训练

作者｜李浩申，阿里巴巴达摩院实习生引言基于CT图像的淋巴结转移预测对食管癌的治疗决策和放疗规划具有重要意义。由于单个淋巴结的良恶性缺乏病理金标准，而淋巴结聚集区域（即淋巴站）的病理结果可从临床病理报告中获取。因此本研究聚焦于淋巴站良恶性的预测问题，本篇论文入围最佳论文奖和青年科学家奖候选名单。论文地址：https://papers.miccai.org/miccai-2025/paper

DAMO开发者矩阵
2025-11-24 13:50:01

 24
ICCV’2025｜让每个物体在3D空间精准走位，FMC重新定义可控视频生成

作者｜帅欣成，复旦大学研究生引言第一个可以控制多物体与相机6D位姿的视频生成模型！通过构建覆盖多种场景和运动模式的大规模合成数据集SynFMC，使得模型中的相机和物体运动控制模块解耦地学习到全局相机运镜与局部的物体运动。论文题目：《Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Vid

DAMO开发者矩阵
2025-11-25 12:29:55

 88
达摩院MICCAI'25｜解剖感知的“细粒度”低剂量CT去躁

作者｜王润泽，阿里巴巴达摩院算法工程师引言低剂量CT在降低辐射剂量的同时会引入噪声和伪影，容易掩盖细小组织和早期病变。现有的深度学习降噪算法通常忽视人体组织的解剖语义信息，可能会导致次优的降噪结果，例如过度平滑或粗粒度的降噪等。本文提出了一种新的方法ALDEN （Anatomy-aware Low-dose CT DENoising framework）将预训练视觉模型的语义特征与对抗学

 DAMO开发者矩阵
2025-11-25 12:39:59

 58
达摩院MICCAI'25 | 让 CT 精准定位鼻咽癌！语义不对称学习：实现免配准肿瘤分割新范式

作者｜陈泽立、李孜，阿里巴巴达摩院算法工程师引言在鼻咽癌（NPC）放射治疗中，放射肿瘤科医生需要在非造影计划 CT（pCT）上精确勾勒原发性大体肿瘤体积（GTV），以保证辐射剂量的准确输送。但问题是：NPC 肿瘤与周围正常组织在 pCT 上的对比度往往很低，单凭 CT 很难分辨肿瘤边界。临床医生通常只能依赖诊断 MRI 辅助，在脑海中“虚拟对齐”MRI 与 pCT，从而定位 GTV ——

DAMO开发者矩阵
2025-11-25 12:45:02

 29