EG-SPIKEFORMER: EYE-GAZE GUIDED TRANSFORMER ON SPIKING NEURALNETWORKS FOR MEDICAL IMAGE ANALYSIS
— 一种融合眼动注视数据、脉冲神经网络(SNN)与 Transformer 的混合架构,专为医学图像分析设计,核心解决传统模型在医疗领域存在的捷径学习、数据稀缺、可解释性差及能耗高等问题,是神经形态计算在医疗影像方向的创新性探索.
一、Abstract:
EG-SpikeFormer—— 一种融合眼动注视数据、脉冲神经网络(SNN)与 Transformer 的混合架构,专为医学图像分析设计,核心解决传统模型在医疗领域存在的捷径学习、数据稀缺、可解释性差及能耗高等问题,是神经形态计算在医疗影像方向的创新性探索.
二、Background:
1. 脉冲神经网络
(Spiking Neural Networks, SNN): 脉冲神经网络(SNN)是第三代人工神经网络模型,也是神经形态计算的核心载体,其设计高度模拟生物大脑中神经元的信息传递方式 —— 以离散的电脉冲(Spike) 为信息编码和传输的基本单位,而非传统人工神经网络(ANN)的连续数值信号,兼具类生物特性、低功耗、时空动态信息处理等核心优势,是实现高效能人工智能的重要方向,也是论文中 EG-SpikeFormer 模型的基础架构核心。
(1)SNN 完全模拟生物神经元的工作模式,核心差异体现在 3 点:
(a) 信息编码:以脉冲序列(时间维度上的 0/1 离散信号)编码信息,脉冲的发放时间、频率、序列模式均代表不同的特征含义,天然支持时空特征的表达(适合处理医学影像、视频、脑电等含时间维度的动态数据);
(b) 神经元工作机制:SNN 的神经元并非持续激活,而是累积输入信号至阈值后才发放脉冲,大部分时间处于静默状态,计算具有事件驱动性,仅在有脉冲时产生计算开销,能耗大幅降低;
(c) 学习规则:除了借鉴 ANN 的反向传播,还可采用生物启发的学习规则(如 STDP—— 脉冲时间依赖可塑性),更贴合生物大脑的学习方式,也为低功耗硬件实现提供了基础。
(2)SNN 的核心组成:
脉冲神经元模型。泄漏积分点火(Leaky Integrate-and-Fire, LIF)神经元(最经典、应用最广泛的脉冲神经元模型),其工作原理可概括为 **“积分 - 泄漏 - 点火 - 重置”** 四步。核心逻辑:
积分:神经元持续累积来自突触的输入信号,膜电位随输入不断升高;
泄漏:若输入信号未达到点火阈值,膜电位会随时间缓慢衰减(对应公式中的泄漏因子 λ),模拟生物神经元的电位自然消散;
点火:当膜电位累积至预设阈值(V_th) 时,神经元发放一个脉冲(输出 S_t=1),完成一次信息传递;
重置:发放脉冲后,神经元膜电位立即重置至复位电位(V_reset),重新进入下一个积分周期。
(3)核心优势:
- 极致的能量效率:事件驱动的计算模式使 SNN 在硬件上实现时,仅需处理脉冲信号(0/1),无需大量浮点运算,能耗远低于 ANN,适合部署在边缘设备、医疗便携设备等资源受限的场景(也是论文中将其用于医疗影像分析的重要原因);
- 天然的时空信息处理能力:以脉冲序列编码时间和空间特征,无需额外的时间维度建模模块,即可处理动态时序数据(如连续的医学影像、生理信号);
- 强可解释性:神经元的脉冲发放模式、激活时间可对应具体的特征响应,更贴近人类大脑的信息处理逻辑,相比 “黑箱” 式的传统 ANN,更适合对可解释性要求极高的医疗、自动驾驶等领域;
- 硬件友好性:SNN 的脉冲传递、事件驱动特性与神经形态硬件(如英特尔 Loihi、IBM TrueNorth)高度适配,可实现算法与硬件的协同设计,进一步提升计算效率(论文中也提出了基于 SNN 的硬件感知协同设计框架
三、Introduction
脉冲神经网络的能效与可解释性均更具优势,但其实际应用却常因精度偏低而受限。
脉冲神经网络在医学影像领域的融合应用仍受限于训练难度与可扩展性方面的诸多挑战
本文首次提出一种全新的眼动注视引导式脉冲驱动混合模型 EG-SpikeFormer,将其应用于医疗诊断领域;该模型融合了脉冲神经网络(SNN)的低功耗计算优势与 Transformer 强大的特征提取能力。模型在训练过程中融入放射科医生的眼动注视数据作为先验信息,能够有效引导模型的注意力聚焦关键区域。我们在两个公共医疗数据集上开展的实验验证表明,该模型在能效与诊断精度两方面均表现出优异性能。
- 首次在医疗诊断领域提出融合卷积神经网络与 Transformer 的混合脉冲神经网络模型,该模型兼具二者的优势。
- 模型在训练过程中融入放射科医生的先验信息,学会聚焦于病变相关区域,减少无关信息的干扰,大幅提升了医学影像诊断任务中的模型性能与可解释性。
- 我们首次提出一种融合神经形态计算与眼动注视引导的硬件感知协同设计框架,有效解决了捷径学习、数据稀缺等医疗领域的核心挑战。这一协同设计方案不仅提升了诊断精度与能效,更凸显了此类协同机制在推动医疗健康实际应用落地过程中的重要意义。
尽管脉冲神经网络(SNN)能够优化网络架构的能效,但基于 SNN 的 Transformer 模型精度通常低于传统视觉 Transformer(ViT)。SNN 本身具有时空特性,但现有研究大多集中于自然图像。在小规模医疗数据集中,包含时序信息的眼动数据可以为 SNN 提供极具价值的先验知识,引导网络收敛。为此,我们设计了两种策略来利用这一特性。
由医生看片子时的眼动轨迹数据,经过统计、平滑、归一化后,生成一张和图像大小对应的「热图」,这就是 Ag。
把所有注视点投影到和医学影像一样大小的图上:
- 盯得越久、盯得越多 → 数值越高
- 没看过的地方 → 数值低
然后做高斯平滑,让它变成一张连续的、柔和的热图。
这张图就是:眼动掩码 M / 眼动注意力图 Ag。
四、眼动数据
-
INbreast 数据集:由 1 位有 10 年经验的放射科医生 看乳腺钼靶片时,用眼动仪记录下来的。
-
SIIM-ACR 数据集:由 3 位资深放射科医生 看胸片时记录的眼动数据。
简单说:就是让专家医生看片子,仪器记录他眼睛看哪里、盯多久,变成热图 / 注意力图。
2. 为什么以前的方法不用眼动数据?
以前不用,主要有这几个真实原因(答辩 / 写论文都能直接用):
-
眼动数据很难获取要专门的眼动仪、要找资深医生、要伦理审批,成本高、麻烦。
-
普通 CNN / Transformer 不擅长 “用人的知识”传统模型只管自己学特征,不知道怎么把 “医生看哪里” 加进去。
-
医疗数据本来就少,再加眼动更难公开医疗数据集带眼动的非常非常少,你用的 INbreast 和 SIIM-ACR 是少数公开带眼动的。
-
之前 SNN 研究基本都在自然图像,没人关注医疗 + 眼动以前 SNN 大多做分类、检测,很少有人把脉冲神经网络 + 医疗 + 医生眼动结合起来。
-
眼动数据来源:由资深放射科医生在诊断医学影像时,通过眼动仪采集得到。
-
以前不用的原因:眼动数据难以获取、传统模型难以融合专家先验知识,且公开医疗眼动数据集稀缺。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)