论文总结

1、作者总结了挑战:1)数据的挑战-meta元学习和transfering learning迁移学习;2)生物医学模型的可解释性--基于网络结构的可解释性(将通路先验信息等加入到网络结构中,约束网络学习参数)和基于归因的事后可解释性方法(SHAP、集成梯度等)3)跨尺度数据整合

2、多模态表示学习方法:

  • 浅层学习方法:如联合非负矩阵分解、偏最小二乘、典型相关分析、多核学习,适用于早期多组学整合任务。

  • 深度生成模型

    • 变分自编码器:通过共享或模态专属编码器学习联合潜在表示,支持不完整模态学习。

    • 生成对抗网络:用于跨模态数据生成与图像合成。

  • 图神经网络:适用于结构化数据(如知识图谱、细胞-基因网络),能捕捉节点间复杂关系。

  • Transformer架构:通过自注意力机制实现跨模态交互,广泛应用于视觉-语言、影像-文本等多模态任务。

3、未来研究方法:1)元学习和迁移学习;2)基础模型:

  • 借鉴大语言模型思路,构建可处理影像、文本、组学数据的通用医学AI模型。

  • 现有模型如scGPT、GeneCompass、CHIEF、BiomedGPT等在单细胞、病理影像、多模态诊断中展现出潜力。

摘要

生物和医学检查方法的快速发展极大地扩展了个人生物医学信息,包括分子、细胞、图像和电子健康记录数据集。整合这些丰富的信息,使得临床环境中能够精确诊断疾病、识别生物标志物和治疗设计。人工智能(AI)技术,尤其是深度学习模型,已被广泛应用于生物医学应用,展示了更高的精度、效率和泛化性。大型语言和视觉模型的成功进一步显著扩展了其生物医学应用。然而,学习这些多模态生物医学数据集(如数据隐私、融合和模型解释)仍面临挑战。在本综述中,我们将全面概述各种生物医学数据模式、多模态表示学习方法以及人工智能在生物医学数据整合分析中的应用。此外,我们还讨论了应用这些深度学习方法的挑战,以及如何更好地将它们融入生物医学场景。随后,我们提出了未来方向,如何适应深度学习方法,结合模型预训练和知识整合,以推动生物医学研究并促进其临床应用。

引言

生物和医学检查方法的发展显著扩展了个人生物医学信息的范围,涵盖从基因组学、转录组学、蛋白质组学和代谢组学到放射学和电子健康记录(EHR)[1]。单一或统一的多模态数据集已被用于临床应用,用于疾病诊断、个体治疗、风险分层等。此外,单细胞剖析方法的出现,包括单细胞RNA测序(scRNA-seq)、带转座酶可及染色质的单细胞测序测定(scATAC-seq)、通过测序对转录组和表位的细胞索引(CITE-seq)以及空间转录组学,加深了我们对人类发育和肿瘤发生中各种生物过程的理解[2]。除了对患者进行临床和分子测量的全面洞察外,如何整合其信息以实现精准疾病诊断、新型生物标志物识别、治疗和药物设计,也是该领域面临的关键挑战。 人工智能(AI)技术已被广泛集成到不同的生物医学应用中,如医学图像分析、疾病诊断、公共卫生、蛋白质设计等[3]。在医学图像分析中,深度学习方法被广泛用于提取图像中的互补组织结构或形态特征,以辅助病灶检测、分割和计算机辅助诊断[4]。这些图像诊断方法已被证明更高效、更准确,有助于临床环境中快速决策[5]。在生物学应用中,深度学习已被用于学习DNA和蛋白质序列的结构[6,7],预测蛋白质结构[8],模拟和预测基因组突变风险[9],并促进药物发现[10]。在单细胞分析中,高通量单细胞测量技术已生成数百万个单个细胞数据点,非常适合将深度学习方法应用于多项任务,如图谱级数据集成[11]、细胞注释[12]和单细胞基因表达学习[13–15]。此外,大语言模型(LLMs)为整合医学领域知识开辟了新机遇,开发了自动生成放射报告、建议医疗干预、为患者提供医疗建议以及能够处理生物医学领域更多新任务的基础模型[16]。各种诊断方法的发展促进了涵盖个体患者、组织和细胞的多数据集的生成。尽管单个数据集捕捉了不同的表型变化及相关因素,但验证因果调控机制并追求最合适靶点的精确干预仍需引入更多模态,并需要多模态数据整合的计算方法。在肿瘤学应用中,癌症患者的放射图像和基因组信息已被整合,以增强预后预测和患者分类[17]。多组学数据集与药物使用信息的整合已被用来识别与药物相关的个体组学特征,量化药物反应效应[18]。在数字病理学应用中,整张幻灯片图像已被用于预测基因组特征[19],并与基因组特征集成用于预后预测[20]。在单细胞多组学应用中,这些多重谱被用来表征细胞和时空基因组调控[21]。已有多种方法被开发用于整合单细胞与不同组学[22]、揭示单细胞数据集的调控网络[23],或将基因表达谱与空间信息结合[24]。多模态数据收集方法和数据集成算法的开发,显著增强了生物医学进展的界定,并提供了更稳健的特征归因分析。尽管生物医学领域多模态学习取得了进步,但各种挑战仍可能阻碍模型训练及其后续应用[1]。数据挑战在生物医学数据的模型训练中普遍存在。由于隐私限制,跨机构共享数据集不可行,进一步限制了训练数据集的规模[25]。与此同时,不同的数据采集方法和不完整的多模态数据集进一步需要复杂的数据预处理和能够处理不完整模型训练的定制模型架构[26]。此外,数据解读在多模态生物医学数据集的深度学习分析中至关重要[27]。理解重要基因特征或跨模态调控网络对于揭示疾病发生机制和识别新的疾病生物标志物和药物靶点至关重要[28]。此外,如何将更多生物医学知识整合进多模态深度学习模型,并将计算机微扰预测应用于跨模态调控验证,仍需进一步讨论[29,30]。多篇综述讨论了多模态生物医学数据融合的方法、应用及挑战。Acosta等人强调了多模态生物医学人工智能在健康监测和个性化医疗中的应用[1],但未全面回顾融合方法。Stahlschmidt等人总结了生物医学分析中的多模融合方法[31],Duan等人则详细回顾了适用于临床场景中不同生物医学数据模态的多模态学习方法[32]。然而,现有综述受限于多模态生物医学数据的规模,且缺乏关于其在推进人类疾病生物学见解中作用的讨论。此外,LLMs的近期兴起也凸显了重新思考和重新定义生物医学多模态分析未来的必要性。在本综述中,我们扩展了对多模态生物医学数据规模的讨论,总结了现有的多模态生物医学数据学习方法,并探讨了将这些方法整合到特定生物医学场景中的前景与挑战。首先,我们按类别总结现有多模态生物医学数据,并列出可用数据资源。随后,回顾了多种数据表示学习方法及其在多模态学习中的作用。接下来,我们将探讨深度学习方法在多模态生物医学分析的多个重要方面中的应用,包括临床多模态数据集成、多组学分析、单细胞分析以及基因型表型关联分析。随后,我们描述了生物医学数据集多模态学习面临的挑战,如数据隐私、模型解释和跨尺度数据集成。最后,我们提出了生物医学多模态学习的未来方向,包括在临床环境中利用元学习和迁移学习处理有限队列数据集,适应大型语言模型以整合生物医学知识,以及实现自动化知识查询以提升多模态数据集中的表征学习,所有这些都旨在推动生物医学研究的发展。

多模态生物医学数据集

多模态生物医学数据集正在迅速积累,为深入的生物医学研究提供了大量资源(见表1)。这些数据集在不同尺度和类型间差异很大(见图1),包括数值数据、图像数据、文本数据和序列数据。此外,根据其来源,这些方法可分为测序数据、临床数据和实验数据。以下按类别总结了各种数据模式,并讨论了每种数据的相关处理方法。

数值数据

测序生成的多组学数据通常以数值矩阵形式出现,表示基因组突变状态、转录组表达以及组织或细胞层面的蛋白质表达等特征。然而,这些测序数据通常噪声较大且数据稀疏,给分析带来挑战。为了解决这些问题,开发了多种方法。例如,在scRNA-seq分析中,引入了零膨胀自编码器,通过采用与单细胞数据二项分布对齐的专门损失函数来处理数据稀疏性[33]。在临床环境中,患者经常接受实验室检测,如血液检测和基因组评估,以生成额外的数值数据。其他基线信息,包括年龄和性别,也对临床决策具有重要意义。对于多模态分析,这些临床数据通常直接整合到网络中,无需额外的预处理。

影像数据

影像学是临床检查中的基本工具,通常贯穿整个患者管理过程。计算机断层扫描(CT)、磁共振成像(MRI)和超声等非侵入性影像技术被广泛用于疾病诊断。对于特定器官,还会采用额外的影像学方法进行筛查或诊断,包括胃肠疾病的内镜检查[34]和眼部疾病的眼底影像[35]。此外,在大多数临床环境中,组织病理学影像被视为“黄金标准”,因为它能提供组织的高分辨率视图,包括详细的细胞形态学[36]。除了临床成像,活细胞成像在生物实验中也发挥着关键作用,能够洞察细胞活动[37]。这些成像数据处理复杂,需要专门算法来处理图像去噪、单元分割和超分辨率增强等任务。

文本型数据

临床报告是综合性文件,记录患者病史、诊断发现、治疗计划和进展记录。由于这些报告具有非结构性或半结构性质,系统性分析这些报告存在挑战。为此,采用了自然语言处理(NLP)技术,如命名实体识别(NER)、文本分类和关系提取[38]。这些方法有助于提取宝贵的见解,支持改善患者护理并推动研究进展。同样,分子数据,包括DNA、RNA和蛋白质序列,是无结构的,展现出它们的语法和语义形式。NLP技术也被应用于这些序列,并用于捕捉这些生物模式。如k-mer分裂[39]等方法[40]已被开发出来,以更好地解释分子数据中固有的生物语法和语义。

信号数据

生物医学信号如心电图(ECG)和脑电图(EEG)是时间序列数据的形式,区别于其他数据类型,需要专门的处理方法[41]。传统方法通常通过信号分解来根据频率成分分析这些信号。此外,这些时间序列数据在某些应用中可以类似于图像数据的处理方式。

多模态表示学习方法

鉴于多模态数据的异质性,对这些数据进行比对和整合极具挑战性。许多方法已被开发出来,巧妙整合高度异质的多模态数据,以最大化不同模态信息的利用,形成互补的视图(见图2;第1箱)。

浅层学习方法

在多模态表示学习的早期阶段,开发并使用了许多浅层学习方法。著名方法包括联合非负矩阵分解(jNMF)方法[42]、偏最小二乘法(PLS)[43]、典范相关分析(CCA)[44]和多重核学习(MKL)[45]。jNMF、PLS和CCA方法侧重于通过各种矩阵计算技术识别不同模态间的共享潜在空间,而MKL则试图整合来自不同模态的不同潜在空间。

具体来说,jNMF对每个模态应用非负矩阵分解,将其分解为共同和单独的因子。PLS最大化不同模态分解矩阵之间的协方差,以识别不同的投影。CCA最大化矩阵之间的相关性,以建立共享的潜在空间。这些方法(jNMF、PLS和CCA)常用于多组学集成任务,有助于基因模块的分析和探索多组学潜伏空间中的潜在生物机制[42,46]。相比之下,MKL是一种监督式机器学习方法,常用于多组学研究中的疾病诊断和分类任务[47,48]。

图1 生物医学多模态数据的类别与尺度 从生物学角度看,生物医学多模态数据集在个体、器官、组织、细胞和分子层面上有所不同(见左侧注释)。从计算术语来看,这些数据集被分为数字、图像、文本和序列数据类型(见右侧注释)。脑电图,脑电图;心电图,心电图;CT,计算机断层扫描;磁共振成像(MRI);PET,正电子发射断层扫描;SNP,单核苷酸多态性。

变分自编码器与生成对抗网络

变分自编码器(VAE)是一种强大的生成神经网络,通过概率方法学习潜在表示。它能够发现数据分布的底层结构,并促进数据集的重建[49]。这使得它非常适合从各个生物医学模态推断数据的联合表示(见图2A)。在多模态数据融合中,采用模态特定或共享编码器来获取多模态数据的潜在嵌入。随后,使用数据融合模块学习跨模态信息,同时应用特定模态解码器以确保模型在信息重建中的效率。根据多模态交互层的位置,数据融合架构可分为早期、中间和晚期融合[50]。为了将VAE功能性适应到多模态应用,整合了专家混合(MoE)[51]、专家乘积(PoE)[52]以及MoE与PoE模型的融合(MoPoE)[53],以更好地推断VAE模型的联合变分后验。此外,不完全模态学习的发展使多模态数据集中的表示学习更加灵活高效[54,55]。除了共享表示外,单模态特定表示的组合还表现出多模表示学习的增量[56]。此外,解缠学习的发展使生物医学数据集的理解和生成更加可理解和可控[57]。生成对抗网络(GAN)是另一种深度生成模型,用于学习原始数据集的潜在表示并生成人工数据集[58]。GAN的图由两个网络组成:生成器学习生成越来越真实的数据,而判别器网络学习准确区分真实数据和合成数据(见图2B)。这种对抗过程的迭代导致原始数据集和高质量合成数据集的精确潜在嵌入。在采用多模态数据学习、交叉或共享生成器来推断多模态数据的潜在嵌入,并利用判别器辨别每种生成模态的真实性。例如,CycleGAN应用配对GAN学习跨图像域并促进不同模态间的翻译[59]。Huang等人提出了PoE-GAN,利用基于PoE的多模发生器融合多模或单模输入,实现图像域转换[60]。Zhan等人提出了MGM-GAN,利用门极涌现机制学习不同模态中的重要权重,从而实现MRI中不完全模态的综合[61]。此外,马等人引入了GAN-MVAE模型,整合GAN和VAE以对齐多种模态的语义空间,实现零样本学习[62]。VAE和GAN模型在多模态表示学习中的特性及其可适应的模型框架,促进了在多模态生物医学领域的广泛应用。从复杂多模态数据中提取的潜在嵌入可用于多种生物医学应用的下游任务。

图神经网络

图神经网络(GNNs)是一种深度学习模型,专门设计并非常适合分析图结构中表示的对象之间的复杂关系[63](见图2C)。在生物医学应用的背景下,这些图结构可以代表多种关联,包括基因功能、药物反应、医学图像斑块和细胞相似性[64]。图卷积网络(GCN)的引入使GNN能够通过卷积过程学习目标数据集的潜在表示[65]。此外,图注意力网络(GAT)结构利用注意力机制评估图中不同边的重要性,同时在节点间传递信息[66]。为了将GNN适应为多模态用途[67],来自不同模态的数据点都被很好地组织成定义的图,与单模态融合架构不同,GNN可以直接同时学习模态内和间模态之间的相互作用。“一体化”多模态图学习(MGL)架构[67]引入了一个统一框架,涵盖实体识别、拓扑构建、信息传播和表示混合,用于图像、语言序列或生物系统等模态的联合学习。通过整合复杂的图结构和整合先前知识和分布来扩展该模型,可以实现更全面的数据表示。Zheng 等人提出了 MMGL 框架,该框架应用模态感知表征学习提取模态内和模态间的表征,随后利用自适应图学习(AGL)识别患者间疾病预测中的关联[68]。此外,将生物医学知识图谱(KGs)与GNNs整合,可以提升KG推断问题的表现和解释,有助于产生新假说和新药开发[69]。GNN在理解多模态数据结构和整合现有知识方面的优势,有助于生物医学领域中更稳健的多模态表示学习方法。

Transformer

变换器是一种神经网络架构,通过利用注意力机制[70]彻底革新了自然语言处理,使其区别于卷积神经网络(CNN)和循环神经网络(RNN)等传统模型。与这些模型不同,Transformers可以同时关注输入序列的多个部分并行处理数据,支持长期记忆和全面的数据表示。这种并行性增强了他们无监督数据预训练的能力,实现跨多个领域的有效迁移学习。Transformer模型在自然语言处理中的成功激励了BERT [71]、GPT-3[72]、Llama 2 [73]、Gemini[74]等大型语言模型的发展[75]。它非常适合学习生物学序列数据[76],包括DNA[6]、RNA[77]和蛋白质[7]的序列学习、基因组调控预测[78]、蛋白质功能注释[79]、蛋白质设计[80],以及进一步适应医学图像[81]和基因表达分析[13]。Transformers的统一数据输入格式还使其能够灵活处理多种模态[82],使其在多模态学习中非常有效,尤其是在视觉和语言相关任务中[83]。在多模态变换器模型中,数据融合或模态交互结构可能灵活且不同,具体取决于交互的时间、数据流以及不同模态的注意力学习[82](见图2D)。在 ViLBERT 中,使用了“共注意”变换器层来学习图像与自然语言的联合表示,并实现了跨模态交互的预训练和转移[84]。ViLT引入了一种强大的架构,能够通过单一变换器处理视觉和语言信息;它采用简单的线性投影图像补丁来替代强化图像嵌入器,并确认了适用于任意模态的统一且可适应的变换器模型[85]。在MulT中,多个两两交叉模态变换器被合并用于跨模态学习注意力,然后融合不同模态的嵌入[86]。凭借其可适应的架构和预训练框架,Transformers在推进多模态生物医学数据分析方面展现出潜力,包括在有限临床数据集下的跨域、少量样本或零样本学习[87]。

图2 多模态表示学习方法 A–C。变分自编码器(A)、生成对抗网络(B)和基于图神经网络(C)的多模态表示学习模型的示意图。D. 基于变换器的多模态学习模型图示,具有不同的注意力策略、交叉注意力(左)、串接注意力(中间)和模态特定注意力(右)。GCN,图卷积网络;GAT,图关注网络;FFN,前馈神经网络。

人工智能在多模态生物医学数据分析中的应用

在常见的多模态表示学习方法框架内,开发了许多专门技术,将这些方法应用于多模态生物医学数据。这些方法提升了生物医学图像分析、多组学分析、单细胞分析和成像基因组学,为疾病生物学和医学提供了系统且全面的洞见。

临床多模态的数据整合

深度学习在计算机视觉(CV)分析中的成功显著推动了其在理解生物医学图像的临床应用,包括CT扫描[88]、正电子发射断层扫描(PET)CT扫描[89]、全片影像(WSI)[90]和MRI扫描[91]。这一进展已广泛应用于脑部、心脏病、眼科疾病和癌症领域[4]。为了更好地理解在疾病病理学中,提出了多模态医学图像融合(MMIF)分析的概念,该方法涉及在频域、空间像素层面或通过合并不同图像模态的决策来整合图像[92](见表2)。 WSI是一幅超高分辨率的数字组织学标本图像,包含极高像素的详细细胞形态信息,常用于临床诊断[93]。深度学习方法的发展扩展了数字病理学在教育、临床诊断、图像分析以及与其他临床诊断方法整合中的应用[94]。为了在大型 WSI 上进行深度学习特征提取,需要特定的预处理程序。一种常见方法是将整幅图像划分为带有默认大小的小块,提取补丁级特征,然后将它们聚合成幻灯片级表示。尽管采用了传统的CNN方法[95],视觉变换器(ViT)[96]的发展使得WSI中嵌入和位置连接性能够实现自关注方式[97],以及“图-变换器”混合模型。通过这些方法提取的病理信息被进一步用于后续任务,如样本分类、预后预测等。此外,多模态学习WSI和基因组数据集是临床诊断和治疗分层在临床应用中的挑战和机遇[19]。Chen 等人提出了一个多模态共注意变换器(MCAT)框架,利用基因组引导共注意力(GCA)层来学习 WSI 实例与基因组通路嵌入之间的注意力[98],从而帮助预测预后和通过推断注意力分数进行交叉模态解释。在PORPOISE框架中,Chen等人引入了一种将WSIS与基因组和分子谱整合以预测预后的方法,并帮助识别与预后不佳相关的关节生物标志物[20]。Qiu 等人提出了一个弱监督模型 PathIn-NL,其中包含一个基于注意力的层级多模融合模块 AHM-Fusion,提供了一种更有效的方法来更好地表示 WSI 特征并在多模态学习中实现信息融合[99]。基于注意力的方法在进行基于图像的组织病理多模态分析中展现了其有效性。CT扫描或MRI扫描是临床环境中常用的非侵入性成像技术,能够提供人体结构信息,并被广泛应用于癌症、心脏病和脑损伤的诊断。深度学习方法已被开发用于自动提取这些图像的形态特征,并用于病灶检测与分割、图像增强与重建、样本分类及预后预测等后续任务[100]。放射学与基因组学的结合扩展了这些图像的临床应用,使得能够从图像预测分子突变状态[101],并结合放射学与基因组学特征,实现临床样本的互补学习。Vanguri等人提出了DyAM框架,该框架整合了CT图像、PD-L1免疫组化学(IHC)和基因组特征,用于预测接受癌症免疫疗法治疗的非小细胞肺癌(NSCLC)患者的临床反应[102]。 Boehm等人对高级别浆液性卵巢癌的多模态数据集进行了全面表征,并提出结合组织病理学、放射学和基因组特征可以更好地预测患者的预后并有助于风险分层[103]。应用深度学习方法整合高维多模态数据将进一步改进现有模型,并为未来的临床应用带来希望。包括脑电图(EEG)、电子健康记录(EHR)和心电图(ECG)在内的多种临床方式在临床实践中发挥着重要作用。EHR数据已与多组学和影像数据结合,以提升多种疾病的诊断和预后,如阿尔茨海默病(AD)[104]。基于Transformer的框架已被用来通过注意力机制将电子健康记录与影像数据结合[105]。此外,将脑电图与功能性磁共振成像(fMRI)数据对比和整合,显示出为人脑动力学提供更深入见解的潜力[106]。将心电图与其他生物电数据(包括心电图(PCG)数据整合,提高了心血管疾病诊断的表现,并为其他生物医学应用带来了希望[107,108]。总体而言,多模态深度学习代表了精准医疗的重大进展,有望进一步优化临床决策和患者疗效。

多组学数据分析

分子生物学的中心法则阐述了遗传信息从DNA转移到mRNA再到蛋白质的过程,代表了生物信息处理的基本机制[109]。这些组学之间的复杂相互作用,以及代谢组学、脂质组学、糖组学等,决定了分子和细胞表型,并在人类疾病的发展中发挥作用。随着高通量技术和公共组学数据集来源的快速发展,从多个组学中学习互补的样本信息,识别疾病相关生物标志物和调控机制,对该领域至关重要[110](见表2)。深度学习已被用于集成多组学数据集并执行不同的下游任务[111]。在肝癌研究中,Chaudhary等人利用多组学数据整合预测肝细胞癌(HCC)的预后,并识别存活率差异显著的亚组[112]。Wang 等人提出了一种基于GNN的新方法,称为多组学图卷积网络(MOGONET),用于生物医学样本分类,并鉴定了亚群特异性生物标志物[113]。除了深度学习的数据融合外,理解其背后的调控机制和识别靶药对于利用多组学数据集至关重要[114]。XOmiVAE引入了可解释的深度学习模型,以整合高维组学数据,并以监督和非监督方式解释基因的贡献[115]。P-NET应用分层路径信息构建稀疏深度神经网络,推断疾病状态特异性分子变化,有助于前列腺癌的疾病诊断和药物设计[116]。我们还开发了TMO-Net模型,用于癌症数据的不完全多组学数据学习,并将其应用于多个下游任务[55]。此外,Froguel等人提出了多组学变分自编码器(MOVE)框架,用于识别药物间的关联使用和多组学数据特征,有助于描述药物对2型糖尿病的影响[18]。这些方法展示了多组学整合在个性化医疗中的潜力,尤其是在癌症和代谢疾病领域,通过提升诊断和治疗能力。与此同时,可解释的模型增强了我们识别多组学特征重要性并将其与生物功能或临床结局联系的能力。这一解释层对于验证发现、识别疾病机制以及将发现转化为肿瘤学和药理学等领域的可操作见解至关重要,最终支持个性化治疗和生物标志物的发现

单细胞数据分析

随着高通量单细胞捕获和测序技术的发展,产生了多种类型的单细胞组学数据,包括转录组、染色质、DNA甲基化、组蛋白修饰等[21]。整合这些数据集并在不同层面建立交互关系对于成功应用这些复杂方法至关重要[117]。一项NeurIPS竞赛发现了三项关键任务,包括预测不同模态之间的差异、不同模态间的细胞匹配,以及共同学习细胞身份的表征,旨在将深度学习应用于推动单细胞分析并拓展对细胞生物学的理解[118](见表2)。为了整合配对或未配对单细胞的多组学数据集,Lin等人引入了scMDC方法,利用端到端自编码器模型学习配对单细胞多组学数据集的联合嵌入[119]。Cao等人引入了图联统一嵌入(GLUE)框架,用于整合未配对的单细胞多组学数据集,并以组学特征的联结图表示为指导,并推断了不同模态之间的调控相互作用[22]。Lakkis等人提出了sciPENN框架,该框架整合并推断了多个CITE-seq数据集中的不完全蛋白表达,进一步整合了其他scRNA-seq数据集,并在不同模态间转移了细胞标记[120]。他等人提出了MIDAS,一种深度学习方法,能够将单胞多模态数据和知识转移整合到新数据集中[121]。DeepMAPS构建了细胞-基因网络的混合图表示,应用异质图变换器(HGT)模型捕捉细胞与基因之间的重要性,并进一步推断特定细胞类型的基因调控网络[23]。这些研究表明基于图的表示方法在捕捉单细胞多组学数据中调控相互作用方面的有效性。空间转录组学的快速发展提供了关于局部组织环境及邻近细胞相互作用的信息[122,123]。此外,CITE-seq与空间测序的结合扩展了多组学在局部情境中的实用性[124]。深度学习方法已被应用于提取细胞定位与分子表型之间的相互作用[125]。DestVI提出了一个框架,联合学习scRNA-seq数据集和空间斑点表达数据集的潜在表示,以解卷单点细胞类型比例及相关转录状态[126]。STAGATE利用图注意力自编码器模型学习了集成的空间和基因表达谱[24]。Long等人提出了GraphST框架,该框架结合了GNN和对比学习,在空间转录组数据集中整合信息,跨组织切片和scRNA-seq数据集[127]。Zhou 等人 [128] 开发了注意力神经网络 STAligner,用于整合空间转录组数据和 scRNA-seq 数据,并将 scRNA-seq 数据映射到特定空间位置,基于空间转录组数据提供的位置信息。Tangram [129] 还集成了多模态数据用于映射,并且可以通过监督学习方法,从已知的细胞类型或基因表达特征推断细胞类型在空间位置上的分布。此外,SpatialGLUE应用了GNN整合空间多组学数据[130],捕捉了更多解剖细节,包括未发现的细胞类型,并提供了更准确的空间域信息。单细胞多组学方法的发展和单细胞数据集的增长为深度学习方法在单细胞分析中的应用创造了有利的环境,有望进一步推动药物发现、治疗靶点和数字健康领域的进步[2,131]。

基因型-表型关联分析

识别不同数据领域间的关联是多模态数据集成中的一大挑战,例如识别成像与基因组数据之间的关联,称为放射基因组学。传统方法在提取这些关联方面表现不足,限制了基因组学成像在精准医疗中的潜在应用。相比之下,人工智能方法通过学习复杂的跨模态关系,在基因组学成像中展现出前景。虽然一些深度学习方法专注于检测图像数据中的分子变化[132],但大多数现有研究主要集中在从组织病理图像中推断空间转录组或整体转录组信息[133–136]。尽管这些方法在临床环境中利用成本效益高的成像数据作为分子信息替代品展现出潜力,但在全面捕捉分子组学数据和揭示连接成像与组学数据的生物机制方面仍不足。先进的多模态学习方法在揭示复杂图像表型和分子组学数据背后的生物密码方面具有巨大潜力,推动疾病理解。同样,识别组学数据与临床信息之间的关联对于发现疾病生物标志物和识别风险因素至关重要。然而,将临床表型与组学数据,尤其是单细胞和空间组学数据联系起来,具有挑战性。由于这些数据通常是高维度和细胞层面的,传统方法难以将其与个体层面的临床表型(如疾病分类和状态)联系起来。为此,开发了基于注意力的神经网络ScRAT,用于连接scRNA测序数据与临床表型[137],促进表型特异性细胞类型识别和高分辨率疾病分类。在空间组学分析方面,已开发出基于图的深度学习算法,用于预测空间蛋白质组学剖析的患者结局[138],便于识别疾病表型特异性肿瘤微环境模式。未来结合更多表型信息和多组学数据的研究,有望推动我们理解疾病机制并实现精确的疾病亚型。

基于人工智能的生物医学多模态数据分析中的挑战

尽管已有进展,基于人工智能的生物医学多模态数据分析仍面临挑战。解决这些挑战将促进广泛的生物医学发现。

数据挑战

图3 生物医学多模态学习未来方向与应用示意图 将多模态数据(包括生物医学图像、基因组信息、临床诊断、医患对话、治疗反应和临床检查)整合进多模态大型语言模型,将成为生物医学多模态学习的未来方向。包括有限的数据可用性和不完整的多模态数据等挑战,将通过元/迁移学习和不完全的模态学习/推断来解决。

多模态学习已广泛且成功地应用于自然语言和视觉领域,但由于数据来源多样,从分子剖面到人体图像检查,且每种模态中可能存在较高的信息缺失率,其在多模态生物医学数据集中的应用面临重大挑战[1](见图3)。此外,在特定模态中,数据采集和预处理程序可能不同,这阻碍了研究间数据的标准化和互操作性。已建立多个数据集门户以维护多模态生物医学数据,包括癌症基因组图谱(TCGA)[139]、国际癌症基因组联盟(ICGC)[140]、乳腺癌分子分类国际联盟(METABRIC)[141]以及癌症基因组学cBioPortal(cBioPortal)[142],用于癌症研究的糖尿病缓解临床试验(DiRECT)[143]。 阿尔茨海默病神经影像倡议(ADNI)[144]数据集用于阿尔茨海默病,以及英国生物数据库[145]等通用数字健康记录门户,但特定癌症类型或疾病的数据规模仍然有限,可能阻碍神经网络训练。为应对数据稀缺和数据缺失等挑战,已经开发出多种方法。自我监督学习是充分利用未标记数据来应对这一挑战的重要方法。基于对比学习和数据增强,自监督学习方法可以从未标记的数据中学习稳健的数据嵌入,训练好的模型可以拟合到许多后续任务[146,147]。典型例子包括Transpath [148]和CS-CO[149]用于组织病理图像分析,这些方法降低了组织病理图像注释的成本。此外,深度学习模型已被设计用于不完全模态学习的应用。MeLIM方法提出了一个框架,通过GAN框架代入缺失模态,并学习了联合样本表示[150]。M3Care方法学习了单模态表示,构建了患者的相似性图,然后在不同患者中推算出缺失模态的潜在空间[151]。Tu 等人引入了交叉链统一嵌入(CLUE)模型,用于利用模态间的交叉编码器学习不完整数据集的全面表示[152]。Hou 等人采用了一种新颖的混合图卷积网络(HNCG)模型和在线掩蔽自编码器,学习多模态生物医学数据集中的模态内和间相互作用,并解决了缺失的模态学习[153]。此外,跨模态数据综合提供了另一种潜在解决方案。Caroline等人开发了一种跨模态分析方法,能够从易获得的心电图中推断难以获得的心脏MRI[154]。Wang等人开发了联合学习框架,实现MRI与PET数据的跨模态综合,并改进阿尔茨海默症的诊断[155]。基于GAN的网络应用于从CT到PET影像的跨模态合成,实现了自动病灶检测的改进[156]。Carrillo-Perez等人开发了级联扩散模型,从RNA测序数据合成WSIs,准确保留了WSI中细胞类型的分布[157]。然而,这些合成数据在模型训练中的应用仍需进一步研究。隐私保护是生物医学数据集深度学习中的另一个重大挑战[25],这需要开发和部署保护隐私的深度学习方法。一种方法是联邦机器学习[158],允许训练单个数据集本地更新核心主模型,但不访问私有数据。安全多方计算(SMPC)是另一种基于密码学框架的隐私保护方法[159]。例如,Hie 等人提出了一个基于单个实体私有数据集预测药物-靶点相互作用的框架[160]。此外,合成数据生成器也被用于构建原始私有数据集的类似复制品,同时保持一致的统计属性[161,162]。

生物医学数据可解释性

机器学习模型在各种生物医学学习任务中已被证明非常成功。尽管模型设计复杂且任务表现优异,理解和揭示其背后的决策(解释)过程在生物医学学习中至关重要(见图3),尤其是在机制识别、药物设计和治疗选择方面[27]。一般来说,生物学解释主要有两个方向:一是基于生物学的神经网络设计,另一是事后模型学习。生物模型设计的常见方法是构建一个受生物通路约束的神经网络架构,特别是将目标基因节点与通路节点连接,包括P-NET [116]、pmVAE [163]、VEGA [164]和LDVAE [165]的模型。例如,Lotfollahi等人推出了expiMap,利用生物域数据库学习细胞基因程序,旨在推断新生基因程序,从而实现更高效的细胞注释和新单细胞数据集查询[166]。生物学知情神经网络设计的主要挑战是生物学设计的偏见,这限制了知识提取,且由于特定模态中策划的生物学网络数量有限,无法用于多模态应用。此外,解缠学习还应用于生物医学学习,用于识别疾病相关的潜在变量并生成合成数据集,以辅助机制验证。Yu 等人提出了 MichiGAN,结合 VAEs 和 GAN 来学习单细胞数据集的解缠表示,并生成具有生物学洞见的单细胞数据集[167]。通过定义一组潜在相关数据调控角色,专家可以揭示潜在的因果关系,帮助生物医学对数据集的理解。基于梯度和微扰的方法已被广泛用于深度学习模型的事后解释[168]。在基于梯度的方法中,输入特征在各个模态中的贡献被估算并有显著分数。Jha等人提出了增强整合梯度(EIG)方法[169],该方法识别了肝脏中的显著剪接编码特征,并被用于识别癌症的共同转录特征[170]。对于基于微扰的方法,XOmiVAE计算了输入基因特征的Shapley加法解释(SHAP)值[171],然后确定了样本分类中最重要的基因[115]。该方法在无监督样本聚类中的进一步应用,使得对新颖聚类进行基于激活的解释成为可能。MOVE框架采用基于扰动的方法识别2型糖尿病中重要的药物相关多模态特征,为解读生物医学多模态数据集提供了框架[18]。此外,理解跨模态相互作用是多模态学习中的一个关键挑战,例如基因突变对转录组或蛋白质组调控的下游影响。梁等人提出了多模态学习中图像嵌入与词嵌入相互作用的多视化框架[172],但相关应用在多模态生物医学数据学习中仍然有限。此外,还需要更多努力来验证计算机解释学习的结果。Chen 等人提出了解释验证,利用合成数据集验证了计算生物学学习中揭示的生物机制的预期逻辑[29]。

跨尺度数据整合

生物医学数据通常涵盖多个尺度,如临床数据、体量组学数据和单细胞组学数据。整合这些跨尺度数据集对于产生有意义的生物医学洞察既关键又充满挑战。为了整合体质和单细胞转录组数据,研究人员采用β-VAE方法将体数据解卷成细胞类型特异性表达谱,解决了单细胞测序中的“遗漏”问题[173]。在其他案例中,如整合多尺度组织病理图像,跨尺度注意力机制和多实例学习(MIL)等方法也有效[174]。MIL方法也展现出整合其他类型跨尺度数据的潜力[175]。对于跨尺度生物医学成像,通常可以通过浅层学习方法实现整合,尽管准确注册和比对跨尺度图像仍存在挑战[176]。RAPHIA是一种基于几何一致性生成对抗网络(GcGAN)的端到端算法,为MRI和组织病理图像的注册提供了有前景的解决方案,实现了医学和组织病理图像的跨尺度分析[177]。还需要进一步研究以增强跨尺度信息整合与对齐,从而加深我们对生物系统的理解。

人工智能与生物医学多模态数据分析的未来方向

鉴于分析生物医学多模态数据的挑战,我们概述了人工智能在该领域的关键未来方向(见图3)。

元学习和迁移学习

虽然深度学习在数字健康领域的成功激发了各种疾病和任务模型的发展,但某些疾病的队列规模有限,对这些模型的高效训练和验证构成了重大挑战。为解决这一问题,提出了少样本或零样本学习方法,如元学习和迁移学习,以实现小规模数据集的适应[178]。预训练与微调框架已证明其在计算机视觉学习、神经语言处理和生物医学学习方面的有效性,用于预后预测[179]和癌症依赖预测[180]。在单细胞分析中,Lin等人提出了scJoint框架[181],该框架对带有细胞类型信息的scRNA-seq数据集进行半监督学习,并将细胞注释进一步转移至scATAC-seq数据集和多模态数据集成。Lotfollahi 等人将迁移学习应用于带有去中心化且迭代更新参考模型的单单元格查询图[12]。

元学习是一种模型学习高效适应新任务的技术,在生物医学应用中也展现出潜力。例如,Qiu 等人引入了元学习框架,通过整合多个任务中训练的模型并用有限的训练数据进行预后预测,来识别样本表示[182]。Cho等人进一步将类似方法应用于多模态生存分析[183]。此外,元学习已被应用于研究细胞系表型与药物反应之间的相互作用,并将其进一步转化为临床情境,从而能够预测有限数量的人类肿瘤样本[184]。生物医学多模态数据集的整体格局,包括数据稀缺、大量未标记数据和缺失模态,需要更灵活的深度学习方法来提取和传输未标记数据的知识。元学习和迁移学习在生物医学学习领域的前景,为解决这些问题提供了途径,并扩大深度学习在各种生物医学任务中的适用性。

基础模型

大型语言模型在神经语言处理领域的成功及其解决复杂任务的卓越能力,激发了研究人员对将这些模型应用于生物医学领域的热情[185]。这包括构建基因组学[186]、临床图像[187]和临床文本学习[188]的大型基础模型。Moor 等人提出了一种用于医学人工智能基础模型应用的范式,称为通用医学人工智能(GMAI)[16]。他们提出GMAI模型应能够简单适应新任务,灵活结合输入和输出生物医学模式,整合医学知识,并支持结果推理。在临床应用中,该模型应能自动生成疾病报告、总结患者临床对话、建议医疗干预等。在生物学应用中,该模型融合了基因组学、表观基因组学、蛋白质组学和临床信息等多模态数据集,并与生物学知情的数据库整合,揭示特定临床表型的分子调控,有助于临床诊断、药物反应预测和药物设计[16]。基础模型在单细胞分析中的应用极大地推动了对复杂生物系统的理解。scGPT [14] 专注于处理这些高维且稀疏的RNA数据,捕捉细胞间复杂的关系,从而支持跨数据集甚至跨物种的迁移学习。GeneFormer [189] 专注于基因功能和调控网络的推断,这在探索特定基因集和基因簇在细胞中的作用方面具有一定优势,并为组学引导的个性化治疗奠定了基础,但其泛化能力仍需提升。scFoundation [15] 加强了模块化设计,旨在结合不同模块以适应多种单细胞任务,并且非常灵活且可扩展。Yang等人开发了GeneCompass,这是一个基于知识的跨物种基础模型,用于理解普遍的基因调控机制[190]。然而,大规模单单元数据模型仍需面对诸如大规模多模态数据的有效集成和模型可解释性等问题。此外,关于稀有细胞类型的数据稀缺,模型常忽视它们,因为它们被主流细胞淹没。

新兴的基础模型能够操作大尺度图像和文本数据。已开发出多个临床影像数据和临床报告的基础模型。UNI [191]、Prov-GigaPath [192]和Virchow [193]仅基于病理图像数据进行预训练,用于癌症分类、诊断和预后。PLIP [194] 和 CONCH [195] 通过对比学习方法对配对病理图像和文本描述进行预训练。CHIEF通过在预训练期间采用一种弱监督方法,将组织起源视为标签[196]。BiomedGPT采用统一的标记化方法,整合了不同的临床图像和相应的临床报告模式[197]。还开发了一些其他多模态基础模型,以实现多重疾病筛查和检测。例如,EyeCLIP已在多模态眼科图像上预训练,用于检测多种疾病[198]。多模态基础模型的进步提升了当前疾病的诊断和预后预测。然而,迄今为止,尚无基础模型将图像数据与组学数据结合,这限制了图像信息在临床指导精准医疗中的应用。LLM训练中显著高昂的成本和大量数据收集要求,在建立生物医学学习基础模型时带来了重大挑战,尤其是在收集个体患者配对多模态数据集时[199]。为解决这些问题,一种方法是结合提示调优以增强大型语言模型的医学知识学习和生物医学应用的适应[200];另一种方法是将知识图谱注入大型语言模型中[201]。此外,推理扩展和推理导向LLMs(如DeepSeek-R1 [202])的知识蒸馏,通过提供专家级推荐且成本合理,展现出推动临床应用发展的前景。此外,LLMs的另一个关键特性是能够使用自动化在线搜索、任务设计和实验执行工具[203205],这进一步展示了其在自动收集和预处理生物医学数据集、设计生物信息分析以识别疾病相关分子调控、进行文献综述以解释结果以及提出潜在疾病治疗干预措施等能力。因此,将大型语言模型与生物医学多模态学习(包括数据集收集、模型融合和因果推断)相结合,对加速生物医学研究的发展具有巨大潜力。

结语

生物医学检查方法的发展极大地拓展了我们对人类疾病(从分子到人体尺度)的理解,产生了数千个数据集。这些数据集使人工智能技术能够应用于多种下游任务,如样本分类、预后预测、图像病变检测、图像分割等[206],在临床环境中显示出更高的精度和有效性[94]。此外,多模态测量方法的发展使得能够整合多种模态数据集、学习联合数据表示以及识别跨模态特征间关联的算法得以发展。传统上,多模态数据的融合分析依赖于线性相关近似,常导致对底层信息的理解不完整机制。然而,人工智能技术的出现已经有效解决了这一局限。此外,深度学习技术克服了复杂数据分布中参数估计的挑战,这是生物医学数据分析的关键方面。这一进展使得对潜在调控机制的理解更加全面,凸显了多模态方法在生物医学数据分析中的潜力[1]。将深度学习方法应用于生物医学多模态学习仍面临诸多挑战。生物医学数据生成的高成本、患者随访困难以及隐私限制限制了训练数据集的规模,导致数据模态的缺失[28]。这些问题在生物医学多模态学习中带来了重大数据挑战,需要设计能够处理不完整模态学习并适用于小群体样本的模型。解读深度学习模型是生物医学多模态学习中的另一大挑战;理解多模态特征在深度学习模型决策过程中的关键作用,有助于识别潜在治疗靶点的生物调控机制,并有助于医疗干预和药物设计的决策[29]。此外,将生物医学知识融入深度学习模型也面临挑战。虽然已有多种深度学习方法将生物通路信息与神经网络架构整合[116,166],但这些方法仍受限于预定义的通路注释。此外,深度学习方法中使用的融合策略影响了多模态学习中的跨模态特征解释,这对于理解生物系统的调控过程至关重要。尽管基于微扰的方法在表征最有效的药物响应组学特征方面表现有效[18],但仍需进一步研究和讨论,通过完善模型设计来提升跨模态解释能力。LLMs的成功彻底改变了自然语言和图像处理中的人工智能学习[75],并扩展到生物序列数据集的学习[80]。庞大的神经网络规模和庞大的训练数据集使这些模型能够快速适应新任务。Moor 等人提出了 GMAI 框架,这是一种基础模型,旨在处理大多数临床任务,旨在为患者和临床医生提供高质量的医疗支持[16]。同样,生物医学多模态学习需要一个基础模型,支持多模态数据查询和补值,利用生物医学知识,促进联合表述学习,生成假设,并协助临床决策、药物设计和人类疾病理解。实现这一基础模型还需要更多的公共生物医学数据集和社区协作努力。此外,由于训练和应用在生物医学多模态模型中,样本样本有限,模型设计中需要采用少数样本或零样本学习技术。元学习和迁移学习等技术可用于从其他大型数据集中学习通用数据表示[178,181]。尽管在生物医学数据分析中应用了先进的人工智能技术,但必须承认人工智能和深度学习在生命科学和临床医学中的局限性。目前成功的应用主要集中在解决这些领域的科学问题,深度学习计算方法本身的创新相对较少。受生命科学启发的AI算法进展更是寥寥无几。解决这些空白是未来AI在多模态生物医学数据分析中应用研究的关键方向。总之,本综述强调了人工智能在生物医学多模态数据分析中的作用,涵盖多模态生物医学数据、多模态表示学习方法及其在多种生物医学多模态数据分析任务中的应用,包括数据整合、多组学分析、单细胞分析和基因型-表型关联研究。基于人工智能的生物医学多模态数据分析面临的挑战包括处理多样化数据类型、解读生物医学数据以及实现有效的跨尺度数据整合。未来工作应重点发展基础模型,并运用元学习和迁移学习技术进行跨尺度多模态生物医学数据分析。这些都需要在数据收集、模型设计和外部验证方面进行协作,以充分利用这些生物医学多模态数据集,改善人类健康结果。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐