达摩院MICCAI'25 | 让 CT 精准定位鼻咽癌！语义不对称学习：实现免配准肿瘤分割新范式

DAMO开发者矩阵

29人浏览 · 2025-11-25 12:45:02

DAMO开发者矩阵 · 2025-11-25 12:45:02 发布

作者｜陈泽立、李孜，阿里巴巴达摩院算法工程师

引言

在鼻咽癌（NPC）放射治疗中，放射肿瘤科医生需要在非造影计划 CT（pCT）上精确勾勒原发性大体肿瘤体积（GTV），以保证辐射剂量的准确输送。

但问题是：NPC 肿瘤与周围正常组织在 pCT 上的对比度往往很低，单凭 CT 很难分辨肿瘤边界。临床医生通常只能依赖诊断 MRI 辅助，在脑海中“虚拟对齐”MRI 与 pCT，从而定位 GTV —— 这个过程不仅费时费力，还容易出现人为误差，更可能导致配准偏差影响治疗质量。

针对这一痛点，我们在本研究中直接在非造影 pCT 上实现了 NPC GTV 的自动分割，彻底免去了 MRI 与 pCT 配准的过程，从根本上规避了配准错误带来的风险。为应对 pCT 中肿瘤与邻近结构对比度低的挑战，我们提出了一种三维语义不对称肿瘤分割方法（Semantic Asymmetric Tumor Segmentation, SATS），利用 3D 结构信息和语义不对称建模策略，有效捕捉 NPC GTV 的边界特征。实验结果表明，SATS 在分割精度和鲁棒性上均取得显著提升，为临床放疗提供了更加高效、可靠的工具支持。

论文链接：https://arxiv.org/pdf/2411.18290

背景介绍

鼻咽癌（Nasopharyngeal carcinoma, NPC）是鼻咽部最常见的恶性肿瘤之一，具有独特的临床特征，并且对放射治疗（Radiotherapy, RT）高度敏感。因此，大多数 NPC 患者在及时诊断和治疗后可通过 RT 获得治愈。在 RT 计划中，最关键的步骤之一是在非造影计划 CT（planning CT, pCT）上精确勾画肿瘤大体体积（Gross Tumor Volume, GTV）。然而，这对经验丰富的放射肿瘤学家来说依然是一项挑战，因为 NPC 常侵及多种不同的邻近组织，而这些组织（尤其是软组织，如黏膜、肌肉、神经等）在 pCT 上与肿瘤之间的对比度非常低。

为克服这一难题，临床上通常借助诊断性 MRI 辅助 GTV 勾画。然而，由于 MRI 与 pCT 存在显著的跨模态差异和扫描范围变化，实现精确配准并不容易。当前，大多依靠刚性变换匹配脊柱等骨性标志进行粗对齐，或者仅在计算机上并排查看 pCT 与 MRI，由医生在脑海中虚拟融合两者信息以完成勾画。这一过程不仅耗时（每例通常需要 1–2 小时），而且容易产生人为误差。因此，在 pCT 上实现高精度、自动化的 NPC GTV 分割，对于提升放疗规划效率与准确性至关重要。

现存问题及挑战

基于深度学习的分割方法已在 MRI 扫描中的鼻咽癌（NPC）肿瘤分割任务上取得了令人鼓舞的结果，例如 TransUNet、STU-Net 和MedNeXt 等。然而，大多数 MRI 图像并不能直接提供放射治疗（RT）计划所需的电子密度信息。因此，MRI 衍生的肿瘤掩模仍需通过跨模态图像配准映射到 pCT 空间，这一过程难以避免潜在的对齐误差，尤其是在 MRI 与 pCT 存在显著模态差异时。

也有研究尝试仅在增强 CT 扫描中分割 NPC GTV，如 UNETR、SwinUNETR 及其变体SwinUNETR-v2。然而，这类方法的性能普遍有限，例如其 Dice 系数（DSC）通常低于 70%。

迄今，仅有少数研究尝试基于 CT 与 MRI 融合的方式自动分割 NPC GTV。值得注意的是，在配对 CT 与 MRI 存在较大配准误差的情况下，多模态方法的分割性能甚至可能低于单模态方法，这体现了在 pCT 中直接实现高精度自动分割的重要性与挑战性。

方法介绍

我们提出了一种利用鼻咽区域肿瘤语义不对称特性的三维分割方法——3D 语义不对称肿瘤分割（Semantic Asymmetric Tumor Segmentation, SATS）。SAT 能在有限训练数据的情况下实现高精度的 NPC 大体肿瘤体积（GTV）自动分割。

具体而言，给定一幅 CT 体数据 I∈RD×H×W（其中 D,H,W分别为空间维度，如图 (a) 所示），我们首先构造其镜像翻转版本 I′，并将 I 与 I′ 同时输入一个共享权重的编码器-解码器网络，以获得它们的对称表示。随后，我们引入非线性投影模块与距离度量学习策略，对生成的特征图进行细粒度优化。该策略旨在最大化真实肿瘤区域与其对称位置的特征差异，以突出异常组织相对于正常组织的语义不对称性。距离度量学习的示意如图(b) 所示，其中 E与 Ef 分别表示原始与翻转图像在对应解剖位置上的特征表示。

对称异常区域选择：我们的 SATS 模型旨在聚焦于不对称的异常区域。图像不对称可能源自病理因素或非病理因素，例如成像角度差异和患者体位变化。为了减少非病理不对称的干扰，我们首先对输入的 CT 数据进行对称化预处理，确保图像在中央矢状轴附近保持结构对称。

具体而言，我们先人工筛选出一组沿中央矢状面具有双侧对称结构的患者 CT 作为模板图谱；然后，通过仿射配准将其余患者的 CT 图像对齐到该模板空间。该过程有效降低了头颈部其他非对称解剖结构对模型识别的干扰。

设原始 CT 体数据为I，其对应的语义分割掩码为s∈{0,1}D×H×W，其中 0 表示背景，1 表示肿瘤前景。对 I 进行镜像翻转可得到 I′，同时获得翻转后对应的语义掩码 s′。为了定位非对称区域，我们定义非对称掩码 m为：m=s−(s∩s′)，其中 m∈{0,1}D×H×W，1 表示 I 中的非对称区域，0 表示对称区域。该掩码为后续模型提取病灶相关差异信息提供了直接的空间约束。

非对称学习策略：我们为 SATS 模型设计的分割损失函数由两部分组成：用于传统分割目的的 Dice 损失和熵损失的组合，以及专门为非对称异常区域设计的体素边际损失。在非对称异常区域内，我们采用像素级边际损失（margin loss），目标是在这些区域中最小化任意体素的特征表示与其在中央矢状轴对称位置对应体素特征之间的相似度。基于上述非对称异常区域 m，定义特征 E∈RH×W×D×C（其中 C为输出特征的通道数）与经过非线性投影后翻转所得的 E′之间的边际损失如下：

其中 1 为指示函数，t 定义了一个边界，用于调节语义不对称的差异程度。

连体分割架构：我们的 SATS 架构由编码器-解码器模块和投影头组成。在训练阶段，两个组件均参与计算；而在推理阶段，仅保留编码器-解码器模块以生成分割结果。编码器-解码器结构是一个共享参数的 U 形编码器-解码器网络，用于同时处理原始 CT 及其镜像翻转版本。编码器采用3D 残差块的堆叠，每个残差块包含两个核大小为 3×3×3的卷积层，并在每个卷积层后依次应用 Instance Normalization 与 LeakyReLU 激活函数。下采样由步幅为 2 的卷积操作实现，将特征图分辨率减半；初始卷积核数为 32，并在每次下采样后加倍（最后一层除外），以在提升表达能力的同时保持合理的计算复杂度。整体编码器共执行 4 次下采样操作。

在计算非对称边际损失之前，我们引入一个非线性投影模块 g 对特征进行转换，以提高度量学习的特征质量。投影头由三个 1×1×1卷积层组成，每层输出通道数为 16，并配有单位归一化层（UnitNorm）。前两层卷积使用 ReLU 激活函数。我们假设，若将度量学习直接作用于分割特征，可能会引入信息丢失并削弱模型性能。这是因为 CT 图像中的部分不对称来源于非病理因素（例如患者头颈部的定位差异与姿势变化），这些信息虽然对分割有帮助，但不应被度量学习误判为病灶相关特征。通过在边际损失之前引入非线性投影，可以在度量学习过程中过滤掉与病灶无关的对称/不对称信息，同时保留对分割任务有益的特征表征。

性能表现

我们将所提出的 SATS 方法与目前主流分割模型进行了全面对比，涵盖 CNN、Transformer 及 Mamba 三大架构类型，采用 DSC、HD95作为评价指标，如下表所示：

在内部数据集上，SATS 在参数量较小的情况下，整体性能优于现有方法。例如，相比 Transformer 架构的 SwinUNETR-V2，SATS 在 DSC 和 HD95 上分别提升0.81% 和 3.6%，在外部评测中，SATS 同样取得最佳表现，显著超越其他方法：相比第二名在 DSC 上提升 4.4%，HD95 误差降低超过 3.7%，体现出更好的泛化能力。

下图展示了我们方法与其他分割模型在外部验证集上的分割结果。可以看到与其他方法相比，SATS在肿瘤边界区域的定位与轮廓表现出更高的精度。

此外，对于伴有淋巴受累的病例，SATS 仍能保持对肿瘤的精确分割，表现出较强的鲁棒性。下图是两例存在淋巴结受累（绿色区域）的患者分割结果示例。

结语

我们提出了一种语义不对称学习方法，利用鼻咽区域肿瘤的固有不对称特性，从而提升鼻咽癌肿瘤分割的精度。该方法通过有效利用解剖结构所固有的语义对称性，实现了对鼻咽癌大体肿瘤体积（GTV）分割性能的显著提升。在内部测试集和独立外部数据集上的实验验证表明，该方法较多种先进方法均取得了更优的表现。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

当 Agent 长出身体：我用魔珐星云 SDK 让 DeepSeek 拥有了 3D 具身交互躯体

DAMO开发者矩阵

vlan综合实验

pc2/pc4/pc5/pc6处于同一网段;其中pc2可以访问pc4/pc5/pc6;pc4可以访问pc6;pc5不能访问pc6;[r1-GigabitEthernet0/0/0]ip ad 192.168.1.254 24 处理不带vlan标签的流量。3、所有pc通过DHCP获取IP地址，且pc1/pc3可以正常访问pc2/pc4/pc5/pc6。2、pc1/pc3与pc2/pc4/pc5/pc

DAMO开发者矩阵

基于 Rokid AI 眼镜的多模态智能 Agent：知识库检索、插件调用与生活服务实践

本项目通过 Rokid AI 眼镜获取用户第一视角图片与文本问题，利用知识库检索、插件调用和多模态大模型推理，为用户提供铁路民航规定、天气、周边地点、本地生活、食物营养、数值计算和热点资讯等查询能力。它不只是将普通聊天机器人放入眼镜，而是通过“端侧感知、知识库检索、工具调用和云端推理”的协同工作，让 Rokid AI 眼镜真正成为一个能够理解现场、查询信息并辅助决策的随身 Agent。