达摩院MICCAI'25｜解剖感知的“细粒度”低剂量CT去躁

DAMO开发者矩阵

58人浏览 · 2025-11-25 12:39:59

DAMO开发者矩阵 · 2025-11-25 12:39:59 发布

作者｜王润泽，阿里巴巴达摩院算法工程师

引言

低剂量CT在降低辐射剂量的同时会引入噪声和伪影，容易掩盖细小组织和早期病变。现有的深度学习降噪算法通常忽视人体组织的解剖语义信息，可能会导致次优的降噪结果，例如过度平滑或粗粒度的降噪等。

本文提出了一种新的方法ALDEN （Anatomy-aware Low-dose CT DENoising framework）将预训练视觉模型的语义特征与对抗学习和对比学习相结合以解决上述问题。

现存问题及挑战介绍

像素级约束的局限：L1/MSE等损失强调全局误差最小化，忽略局部解剖语义，导致细微结构与纹理的过度平滑，削弱对微小病灶与组织的可见性。

传统GAN的语义盲区：多数GAN去噪方法在边缘分布P(Ŷ)≈P(Y)上学习，难以捕捉“噪声-组织类型”间的依赖关系；而实际不同组织的噪声特性存在差异，统一判别会抹平组织特异性的纹理还原。

解剖监督成本高：显式引入语义的直观做法是联动分割网络，但精细、多器官的标注昂贵且难以覆盖丰富的解剖多样性，通用化受限。

当前工作价值介绍

本文首次将Pretrained Vision Models（PVMs）引入LDCT去噪：通过利用DINOv2、MedSAM等大规模预训练模型的层级语义表征，无需额外解剖标签，即可提供丰富的语义先验知识，解决“高成本标注-低可迁移性”的瓶颈；
解剖感知判别器AAD（Anatomy-Aware Discriminator）：通过基于注意力机制的多层级特征融合AFF（Attention-based Feature Fusion），以NDCT的PVM语义引导判别器促进生成器学习组织特异性的细粒度去噪模式；
语义引导对比学习SCL（Semantic-guided Contrastive Learning）：在PVM特征空间中对齐预测降噪结果与NDCT在同一空间位置的语义（正样本），并构造双重负样本：与同位LDCT特征对比以压制残余噪声、与异位NDCT特征对比以惩罚解剖错配；通过InfoNCE实现“保结构、抑伪影”的统一优化。

性能表现

ALDEN在两个低剂量CT降噪数据集上达到了感知指标LPIPS和保真指标PSNR、SSIM和RMSE之间的均衡性能，证明本文方法能够缓解保真和感知之间的两难境地。

可视化效果表明ALDEN相比于其他算法有效保留了器官和组织内在的纹理细节同时也维持了期望的降噪程度，取得了最接近NDCT图像的效果。

在TotalSegmentator 117器官分割任务上，ALDEN在低/高噪声模拟LDCT的两种强度下均取得最优DSC，尤其高噪声下81.06%显著领先，表明ALDEN能更好地保留解剖结构，对下游分析任务更友好。

结语

ALDEN以“预训练语义先验+解剖感知对抗+语义对比约束”的统一框架，系统性解决了LDCT去噪中“过度平滑、语义缺失、指标两难”的痛点，既在图像层面实现更好的组织纹理保真，又在临床相关的下游任务中验证了实际价值。其模块化、无标签依赖的特性为跨场景泛化与工程落地提供了良好基础，也为后续在3D重建、跨模态协同与可解释医学影像恢复上打开了新的空间。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

当 Agent 长出身体：我用魔珐星云 SDK 让 DeepSeek 拥有了 3D 具身交互躯体

DAMO开发者矩阵

vlan综合实验

pc2/pc4/pc5/pc6处于同一网段;其中pc2可以访问pc4/pc5/pc6;pc4可以访问pc6;pc5不能访问pc6;[r1-GigabitEthernet0/0/0]ip ad 192.168.1.254 24 处理不带vlan标签的流量。3、所有pc通过DHCP获取IP地址，且pc1/pc3可以正常访问pc2/pc4/pc5/pc6。2、pc1/pc3与pc2/pc4/pc5/pc

DAMO开发者矩阵

基于 Rokid AI 眼镜的多模态智能 Agent：知识库检索、插件调用与生活服务实践

本项目通过 Rokid AI 眼镜获取用户第一视角图片与文本问题，利用知识库检索、插件调用和多模态大模型推理，为用户提供铁路民航规定、天气、周边地点、本地生活、食物营养、数值计算和热点资讯等查询能力。它不只是将普通聊天机器人放入眼镜，而是通过“端侧感知、知识库检索、工具调用和云端推理”的协同工作，让 Rokid AI 眼镜真正成为一个能够理解现场、查询信息并辅助决策的随身 Agent。