登录社区云,与社区用户共同成长
邀请您加入社区
作者|常舒宁 阿里巴巴达摩院算法工程师 引言 本文提出了SparseDiT,一种通过空间 (Model Structure) 和时间维度 (Timestep) 的token稀疏化来提高Diffusion Transformer(DiT)计算效率的新框架。 在空间维度上,SparseDiT采用三段式架构:底层使用Poolingformer进行高效全局特征提取,中层利用Sparse-dense g
作者|陈桂臻阿里巴巴达摩院实习生 摘要 多模态大语言模型(MLLMs)在几何等视觉密集型推理任务中表现不佳,其核心问题在于模型的视觉感知瓶颈,制约了推理训练的效果。模型如果无法正确感知图像中的基本形状、角度和空间关系,就更无法解决复杂的几何问题。 为此,来自达摩院和新加坡南洋理工大学的研究团队提出了Geo-Perception Question-Answering(GeoPQA)基准来量化模型
作者|陈浩邦阿里巴巴达摩院算法工程师 摘要 近年来,大型多模态模型(MLLM)展现了惊人的信息处理潜力,但它们在理解真实世界的超长、复杂文档时,仍然面临巨大挑战。现有的基准也多侧重于短文档和抽取式问答,无法真实反映现实世界的复杂性。 为了解决这一难题,我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”,还设计了一种创新的
作者|李龙阿里巴巴达摩院算法工程师 摘要 浙江大学和阿里巴巴达摩院的研究者们提出了一项名为创意链(Chain of Ideas,CoI)的创新研究。他们将文献组织成链的形式,引导模型像人类一样进行研究思考。基于 CoI,研究者们构建了一个智能体——CoI Agent。这个智能体能够通过输入一个文章主题或一篇论文,自动生成科学创意并设计对应实验。 目前项目论文、代码、Demo 均已经上线,CoI
作者|孙雨 阿里巴巴达摩院实习生 ReasonMed相关链接 论文链接:https://arxiv.org/abs/2506.09513 Hugging Face:https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed Code:https://github.com/alibaba-damo-academy/ReasonMe
作者|李浩申,阿里巴巴达摩院实习生 引言 基于CT图像的淋巴结转移预测在食道癌的治疗与规划中起到重要的作用。近年来,深度学习方法在淋巴结转移分类中的表现显著提高。然而,这些方法通常更关注淋巴结个体所有CT切片的平均特征,缺少对关键切片特征的有效提取和融合。此外,现有的深度学习方法更多地关注CT图像,缺少淋巴结临床相关特征(如形态学和组学特征)的显式加入和融合,这些特征可能很难通过直接端到端深度学习
作者|巢汉青,阿里巴巴达摩院算法专家 引言 全切片图像(WSI)是病理诊断的核心载体,但其超大尺寸与复杂的多尺度结构为AI分析带来了巨大挑战。现有方法多依赖两阶段流程或受限于注意力机制的计算瓶颈,难以兼顾效率与全局上下文建模。本文提出 Pixel-Mamba —— 一种全新的端到端WSI分析框架,实现从像素级输入到切片级预测的高效、统一建模。 Pixel-Mamba 结合 Mamba 架构的线
正在上传…重新上传取消
作者|李浩申,阿里巴巴达摩院实习生 引言 基于CT图像的淋巴结转移预测对食管癌的治疗决策和放疗规划具有重要意义。由于单个淋巴结的良恶性缺乏病理金标准,而淋巴结聚集区域(即淋巴站)的病理结果可从临床病理报告中获取。因此本研究聚焦于淋巴站良恶性的预测问题,本篇论文入围最佳论文奖和青年科学家奖候选名单。 论文地址:https://papers.miccai.org/miccai-2025/paper
作者|帅欣成,复旦大学研究生 引言 第一个可以控制多物体与相机6D位姿的视频生成模型!通过构建覆盖多种场景和运动模式的大规模合成数据集SynFMC,使得模型中的相机和物体运动控制模块解耦地学习到全局相机运镜与局部的物体运动。 论文题目:《Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Vid
作者|王润泽,阿里巴巴达摩院算法工程师 引言 低剂量CT在降低辐射剂量的同时会引入噪声和伪影,容易掩盖细小组织和早期病变。现有的深度学习降噪算法通常忽视人体组织的解剖语义信息,可能会导致次优的降噪结果,例如过度平滑或粗粒度的降噪等。 本文提出了一种新的方法ALDEN (Anatomy-aware Low-dose CT DENoising framework)将预训练视觉模型的语义特征与对抗学
作者|陈泽立、李孜,阿里巴巴达摩院算法工程师 引言 在鼻咽癌(NPC)放射治疗中,放射肿瘤科医生需要在非造影计划 CT(pCT)上精确勾勒原发性大体肿瘤体积(GTV),以保证辐射剂量的准确输送。 但问题是:NPC 肿瘤与周围正常组织在 pCT 上的对比度往往很低,单凭 CT 很难分辨肿瘤边界。临床医生通常只能依赖诊断 MRI 辅助,在脑海中“虚拟对齐”MRI 与 pCT,从而定位 GTV ——