【CVPR2026】医疗影像分割的新范式：从全量微调到 Token 级的“专家会诊”

cskywit

935人浏览 · 2026-03-02 09:48:08

cskywit · 2026-03-02 09:48:08 发布

在计算机视觉领域，Segment Anything Model (SAM) 的出现定义了通用分割的新高度。然而，医学影像的异质性——从 CT 的 Hounsfield 单位到 MRI 的多种加权序列，再到 X-ray 的投影重叠——使得直接迁移 SAM 面临巨大的域偏移挑战。目前的学术界主流做法往往陷入了“数据竞赛”，通过构建数以千万计的医疗数据集进行全参数或解码器微调。这种方式虽然提升了性能，却容易导致模型原始通用能力的丧失，且带来了高昂的计算成本与噪声干扰。

近期由四川大学、新疆大学及阿里达摩院等机构联合发表于CVPR2026的论文提出了一种名为 SegMoTE 的创新框架。该研究的核心逻辑在于：与其改变模型的“身体”（骨干网络），不如通过引入 Token 级别的混合专家（Mixture of Experts, MoE）机制，为模型装上一颗能够根据输入模态自动切换逻辑的“专家大脑” 。

上图显示了SegMoTE与先前工作对比。 异构数据 $X$ 首先由编码器 $ϵ\epsilon$ 处理以提取特征表示 $f$ 。(a)先前方法通常对掩码解码器进行完整微调或参数高效微调，导致从预训练模型出现分布偏移。(b)SegMoTE引入了一种基于token级别的专家混合模型机制，在冻结掩码解码器的同时动态选择模态自适应的专家token。该过程由负载均衡损失 $L_{balance}$ 指导，并使用变差平方系数( $CV^2$ )进行约束。这种设计保留了SAM的原始能力，增强了模态特定的适应性，并保持了轻量级架构。

1.架构深探：Token 级混合专家的动态路由

SegMoTE 的技术核心在于对 SAM 掩码解码器（Mask Decoder）的改造。研究者并没有采用传统的层级微调，而是引入了一组可学习的专家 Token（Expert Tokens） 。

1.1 多专家协同机制

系统预设了 $N$ 个维度的专家 Token，这些 Token 与 SAM 原有的输出 Token 及提示 Token 共同进入解码器进行自注意力（Self-attention）与交叉注意力（Cross-attention）计算。在 token-to-image 阶段，专家 Token 能够整合来自特定模态的视觉特征与提示信息的几何语义。

在 SegMoTE 框架中，专家 Token 的协同并不是简单的并列，而是一个深度嵌入 SAM 掩码解码器（Mask Decoder）计算流的动态过程。其核心逻辑在于改变了 SAM 原有的“特征-Token”交互拓扑结构。

（1）专家 Token 的初始化与输入构造

SegMoTE 引入了一组维度为 $\times 256$ 的可学习专家 Token 。

序列拼接：这些专家 Token 不会替换原有的组件，而是与 SAM 原始的 4 个输出 Token（Output Tokens）以及由提示编码器生成的提示 Token（Prompt Tokens）在序列维度上进行拼接。

多维度表征： $N$ 的数量取决于任务复杂度或预设的模态覆盖范围（实验证明 $N = 4$ 通常足以覆盖主流医疗模态）。

(2)解码器内的双向注意力交互

拼接后的 Token 序列进入掩码解码器的两层结构中，进行高频次的特征交换：

同类自注意力（Self-attention）：专家 Token 首先与其他所有 Token（包括原始输出 Token 和提示 Token）进行交互，从中学习提示信息的几何约束（如框的位置）和掩码的初步表示。

Token-to-Image 交叉注意力：这是专家 Token 获取“模态感知”的关键步骤。专家 Token 作为 Query，去查询（Query）图像编码器提取的二维图像嵌入（Image Embeddings）。通过这一步，专家 Token 能够捕获到特定模态（如 CT 的高对比度边缘或 MRI 的组织纹理）的空间特征。此时，每个专家 Token 都包含了一份结合了“图像特征 + 提示语义”的中间表示。

(3)动态路由与权重分配（MoTE 核心）

这是 SegMoTE 最具创新性的环节。在 Token 更新之前，系统必须决定哪一个专家更适合当前的图像。

逻辑路由（Router）：路由网络通过一个线性层 $W_g$ 处理输入 Token，计算其对所有专家 E 的原始得分（Logits）。

带噪声的 Top-2 选择：为了增强鲁棒性，系统在得分中注入高斯噪声，并选择得分最高的两个专家路径进行激活（Top-2）。

置信度加权更新：系统利用 Softmax 计算出最优专家的可靠性指标 $G(⋅)G(\cdot)$ 。通过公式 $z~=G(⋅)⋅h(idx)\tilde{z} = G(\cdot) \cdot h^{(idx)}$ ，高置信度的专家 Token 表征被放大，而低置信度的则被抑制。这保证了最终参与掩码生成的 Token 是经过“路由筛选”后的最优解。

论文中的 Figure 7 旨在通过热力图（Heatmaps）形式，直观展示 MoTE（混合专家 Token）机制在面对不同医疗影像数据集时的路径选择逻辑与空间可解释性 。它不仅证明了模型能够“选对专家”，还揭示了这些专家 Token 实际上在关注图像中的哪些具体区域。

Token 0：在 AMOS (MRI) 任务中表现活跃，能够完整覆盖目标区域。

Token 1：在 CHAOS (T2) 任务中展现出极高的定位精度，而此时 Token 0 则处于非激活状态。

Token 2：专门负责 ISLES（缺血性卒中病灶）的识别，只有它能覆盖目标。

Token 3：在 ACDC（心脏影像）中被激活，并成功定位目标。

这表明不同的专家 Token 已经学习到了互补的、具有模态判别力的表征。

（4）Image-to-Token 反馈与掩码生成

经过路由更新后的专家 Token 会再次参与 Image-to-Token 交叉注意力 计算，将更新后的模态特异性信息反馈给图像特征图。最后，这些被激活且强化过的专家 Token 会通过一个小型的 MLP 转化为动态权重，与缩放后的图像特征进行逐元素相乘（Point-wise Product），从而生成最终的高精度分割掩码。

1.2 负载均衡约束

在混合专家模型（MoE）的训练中，负载失衡是一个经典痛点：模型往往会产生“胜者通吃”效应，即路由网络倾向于反复调用少数几个表现较好的专家，而导致其余专家长期处于闲置状态（即训练不充分），这会严重削弱多模态适配的泛化能力。为了解决这一问题，SegMoTE 引入了基于**变异系数（Coefficient of Variation, CV）**的辅助损失函数 $Lbalance\mathcal{L}_{balance}$ 。其核心逻辑是通过数学手段约束专家库的“利用率”与“重要性”分布。

(1)核心指标：重要性与负载

在计算损失之前，系统定义了两个关键的统计维度：

专家重要性 ( $imp_e$ )：指在一个 Batch 中，所有 Token 分配给专家 $e$ 的路由权重的总和。它反映了专家在特征贡献上的“分量”。

专家负载 ( $load_e$ )：指在一个 Batch 中，实际被路由分配到专家 $e$ 的 Token 数量。它反映了专家在计算任务上的“忙碌程度”。

(2)变异系数（CV）的引入

变异系数定义为标准差与平均值的比值：

$\frac{std(Values)}{mean(Values)}$

在 SegMoTE 中，研究者分别计算了重要性向量 ${imp_e\}$ 和负载向量 ${load_e\}$ 的 $CV^2$ ：

当 $C V$ 趋近于 0 时：意味着各专家的重要性或负载几乎相等，分布处于极致的均衡状态。

当 $C V$ 较大时：意味着分布极度不均，某些专家过载，而某些专家被冷落。

(3)总平衡损失函数

最终的负载均衡损失 $Lbalance\mathcal{L}_{balance}$ 是这两者平方项的和：

$Lbalance=CV2({impe}e=1E)+CV2({loade}e=1E)\mathcal{L}_{balance}=CV^{2}(\{imp_{e}\}_{e=1}^{E})+CV^{2}(\{load_{e}\}_{e=1}^{E})$

在整体训练的损失函数中，它通过一个超参数 $λbalance\lambda_{balance}$ 进行调节：

$Ltotal=Lseg+λbalance⋅Lbalance\mathcal{L}_{total}=\mathcal{L}_{seg}+\lambda_{balance}\cdot\mathcal{L}_{balance}$

(4)为什么要这样设计？

强制均衡分配任务，确保每个专家 Token 都能在训练过程中接触到充足的样本，从而学习到稳健的模态特征。如果不对负载进行约束，模型可能会用同一个专家去处理 CT 和 MRI，导致不同模态的表征逐渐同质化，丧失 SegMoTE 设计的初衷。研究者将 $λbalance\lambda_{balance}$ 设置为较小的数值（如 0.01），以确保平衡约束不会反客为主，干扰模型对分割任务（Dice Loss）的主目标优化。通过这一约束，SegMoTE 在只有 4 个专家的情况下，实现了对 CT、MRI、X-ray 等多种异质影像的高效、平衡适配。

2. 渐进式提示词 Token 化 (PPT)：通往自动化分割之路

渐进式提示词 Token 化（Progressive Prompt Tokenization, PPT） 是 SegMoTE 实现从“交互式分割”向“自动化分割”跨越的关键技术。其核心逻辑是利用图像自身的特征反馈，在训练过程中动态生成能够替代人工点击或方框的自适应提示 Token 。

（1）核心逻辑：从“外部干预”到“特征自引导”

传统的交互式分割模型（如原生 SAM）极度依赖用户提供的点（Points）或框（Boxes）来定位目标。PPT 的设计初衷是让模型在推理阶段无需外界干预，通过图像编码器提取的潜在特征（Latent Features）自动感知前景（病灶/器官）与背景的分布差异，并将其转化为模型可理解的提示信号。

(2)技术实现：三重演进过程

PPT 的运行流程分为先验注入、注意力对齐与残差精炼三个关键环节：

随机先验采样（Training Phase）：在训练阶段，PPT 将掩码（Mask）和文本（Text）视为前景信息的具体表达。系统通过随机采样这些提示来引导可学习的查询向量 $Q$ （Learnable Queries）。

多头注意力引导（MHA Guidance）： $Q$ 与经过归一化处理的图像特征执行多头注意力计算。通过这种方式， $Q$ 开始捕获图像中与前景语义一致的分布特征，逐渐学会在特征空间中区分目标区域与背景。

**特征投影与残差融合：**交互后的表征通过 MLP 投影进行语义强化，并利用残差连接（Residual Fusion）保留原始特征的细节。最终输出“特征条件提示 Token”（Feature-conditioned Prompt Tokens），这些 Token 已经包含了目标的几何与类别分布信息。

(3)渐进式学习的成效+

随着训练轮数（Epochs）的增加，PPT 生成的 Token 会经历从“模糊分布”到“精确语义对齐”的转变：在推理阶段，PPT 能够直接从图像特征中生成自适应提示，实现全自动分割。该机制在目标明确、前景背景对比清晰的任务（如 ISIC 黑色素瘤分割、SZ-CXR 胸部 X 光）中表现尤为出色，能够显著降低临床部署时的交互负担。
实验数据表明，在域外（OOD）测试中，PPT 辅助下的模型性能比传统点选提示方法提升了约 1% 至 6% 。

(4)局限性说明

由于多器官分割（Multi-class）任务涉及多个类别的语义重叠与干扰，目前 PPT 方案主要聚焦于二分类任务（Binary Classification），以确保在临床应用中的简洁性与推理效率。

3.数据哲学的转变：MedSeg-HQ 的高质量启示

在构建 MedSeg-HQ 数据集的过程中，研究团队并没有采取传统医疗影像研究中“数据量即正义”的逻辑，而是建立了一套严苛的五维度专家评估系统，从 12 个原始公开数据集中精选出约 15 万个高质量标注样本。这一系统由 5 名医学影像专家组成，针对每一张影像及其对应的掩码（Mask）进行多准则评分，确保了数据在训练过程中的“高信息增益” 。通过这套系统筛选出的 MedSeg-HQ 数据集，在 t-SNE 特征降维可视化中表现出了卓越的一致性：

特征流形平滑：相比于 COSMOS 或 IMed-361M 等数据集，MedSeg-HQ 的特征分布呈现出更加平滑且连续的转换过程。

消除分布突变：五维度筛选有效地剔除了那些分布极其离散、带有严重噪声的冗余数据（即图中红色方框标注出的异常区域），显著提升了模型在跨模态任务下的泛化上限。

这套系统的成功证明了在医疗 AI 领域，1% 的高质量“珍珠”数据，其价值远胜于 99% 的平庸“沙砾”数据 。