达摩院MICCAI'25|不是每张CT都 equally important!AI学会抓取淋巴结恶性“关键帧”
作者|李浩申,阿里巴巴达摩院实习生
引言
基于CT图像的淋巴结转移预测在食道癌的治疗与规划中起到重要的作用。近年来,深度学习方法在淋巴结转移分类中的表现显著提高。然而,这些方法通常更关注淋巴结个体所有CT切片的平均特征,缺少对关键切片特征的有效提取和融合。此外,现有的深度学习方法更多地关注CT图像,缺少淋巴结临床相关特征(如形态学和组学特征)的显式加入和融合,这些特征可能很难通过直接端到端深度学习模型有效捕捉。
针对以上挑战,我们将3D淋巴结转移预测形式化为一个聚合切片特征(instance)到个体淋巴结表示(bag)的多实例学习(MIL)问题。在此基础上,我们提出了Prototype指导的双流MIL框架,有效捕捉局部和全局的淋巴结特征。此外,我们还引入了多尺度多模态融合模块,将淋巴结临床相关特征与深度学习特征进行融合,以丰富淋巴结的表示。
论文链接:https://papers.miccai.org/miccai-2025/paper/1417_paper.pdf

论文背景与研究动机
食管癌是全球第六大导致癌症死亡的病因。淋巴结转移是食管癌最重要的预后因素之一,因此,准确的术前淋巴结转移预测对于决定治疗方案和手术计划至关重要。
淋巴结的转移状态受到多种因素的影响,如全局特征(大小、形状等),局部特征(内部不均质、周围强化),位置分布等。基于CT图像评估淋巴结的转移状态,即使对于经验丰富的医生来说也是一项具有挑战性的任务。
近年来,深度学习方法显著提升了淋巴结鉴别的性能,然而仍然面对两个主要挑战:
首先,存在的方法通常更加关注3D淋巴结个体所有CT切片的平均特征来作为淋巴结的整体特征表示,缺少关键特征的有效提取和融合。而对于转移淋巴结而言,恶性特征更可能在部分切片而不是所有切片中显示,因此,提取出与转移状态最相关的关键切片特征非常重要。其次,以往的基于深度学习的方法也缺乏对临床相关特征的显式提取,如长短轴直径、内部不均质、周围强化、中心坏死等。这些临床相关特征可能无法通过基于CT图像的直接端到端深度学习模型有效捕捉。
为了解决上述挑战,我们将3D淋巴结转移预测形式化为一个多实例学习(MIL)问题,将切片看作一个个实例,考虑如何更好地将这些实例聚合成淋巴结个体的表征。在此基础上,我们提出了基于Prototype指导的双流MIL框架,有效捕捉淋巴结的局部特征和全局特征。此外,我们引入临床相关特征,并提出了多尺度多模态融合模块,来更好地融合深度学习特征和临床相关特征,作为淋巴结更全面的特征表示,提升淋巴结鉴别任务的性能。

技术方法
该论文的技术方法包括两个核心部分:Prototype-guided 双流多实例特征聚合框架和多尺度多模态特征融合。
-
Prototype-guided 双流多实例特征聚合框架
考虑到淋巴结的全局特征(大小、形状)和局部特征(纹理)对于淋巴结的转移状态预测都起到重要的作用,我们设计了双流多尺度框架,以原始大小淋巴结和局部区域放大的淋巴结作为双流输入,同时提取淋巴结的局部和全局特征。
此外,我们将淋巴结转移预测形式化为从切片特征出发,聚合成3D淋巴结个体特征的多实例学习问题。具体地,我们以每三个CT切片为一组,将淋巴结个体分成多组实例,为了捕捉重要的切片,并为不同的切片赋予不同的重要性分数,我们引入可学习的embedding(Prototype),通过交叉注意力的方式,来指导多组切片特征的聚合。
-
多尺度多模态特征融合
在淋巴结转移分类中,临床相关特征(影像组学特征)起到重要的作用。然而,这些影像特征可能不容易直接基于CT图像的端到端学习所提取。
因此,我们显式计算了这些临床相关特征,包括每个3D淋巴结的长短轴直径,以及first-order组学特征等。然后,我们使用交叉注意力,通过临床相关特征作为query,深度全局特征和深度局部特征作为key和value的形式,来实现二者的高效融合,得到增强的临床特征表示。最后,再将增强的临床特征和全局prototype特征与局部prototype特征连接在一起,作为淋巴结整体特征,来预测其良恶性状态。


实验结果
在淋巴结鉴别任务上,相比于之前的淋巴结鉴别方法以及经典的MIL方法,我们的方法在AUC、敏感度、特异度等多个指标均取得了良好的表现。

我们进行了更多的消融实验,验证了在临床相关特征中,形态特征起到更重要的作用;此外,对于淋巴结而言,考虑其18个slice带来最好的结果。较少的slice输入会导致特征提取不完整,而过多的slice又会给模型提取关键slice特征带来困难,均导致了次优的表现。

下表展示了在聚合过程中,不同slice的重要性程度。我们发现,淋巴结靠近中心的slice与转移状态有更高的相关性;此外,我们还展示了几组具体的淋巴结slice示例,分配更高权重的淋巴结slice,相比于分配更低权重的淋巴结slice,有着更加明显的恶性表征。


结论
在这项工作中,我们将3D淋巴结转移预测形式化为一个多实例学习(MIL)问题,并在此基础上,提出了prototype指导的双流MIL框架,有效捕捉局部和全局多尺度淋巴结特征。此外,我们引入了淋巴结的临床相关特征,并提出了多尺度多模态融合模块,来更好地将深度特征,与淋巴结的临床相关特征相融合。
未来,我们可以在该论文的基础上尝试以下探索方向:
-
大规模数据集构建:通过构建更大规模食道癌淋巴结数据集,来验证我们方法的稳定性和泛化性。
-
扩展到N分期预测任务:基于淋巴结个体的良恶性预测,进一步扩展到患者层面有无恶性淋巴结转移的预测,以实现更高的临床应用性和价值。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)