已有研究表明,肠道微生物群的不平衡即“菌群失调”,会导致各种人类疾病的出现。目前,微生物标志物的开发主要基于二元分类器法。新的研究结果显示,多数健康状况表现出重叠的肠道微生物组特征,单一疾病诊断模型可能会被不相关的疾病混淆,进而导致错误的分类。虽然人们开始尝试开发多类诊断模型,但先前依赖公共数据集进行分析的工作所涉及的异质性、技术偏差和批次效应限制了模型的准确性。

近日,香港中文大学黄秀娟教授团队Nature Communications上发表了题为“Faecal microbiome-based machine learning for multi-class disease diagnosis”的研究文章。研究团队开发了迄今为止最大的涵盖多种疾病的单站点数据集,通过机器学习多类模型,使用物种水平的粪便微生物组分析、预测了不同疾病,并依据跨不同人群的公共宏基因组数据集对研究结果进行了验证

41dd727ca961cfe343912f3f9e0a4043.png

文章发表于Nature Communications

研究人员对2,320名香港华人(平均年龄54.9岁,48.7%女性)的粪便样本进行了宏基因组测序,包括9种特征明确的疾病表型:结直肠癌(CRC,n=174)、结直肠腺瘤(CA,n=168)、克罗恩病(CD,n=200)、溃疡性结肠炎(UC,n=147)、肠易激综合征(IBS-D,n=145)、肥胖(n=148)、心血管疾病(CVD,n=143)、急性COVID-19综合征(PACS,n=302)和健康对照组(n=893),并鉴定了1,208种细菌。

研究人员观察到不同疾病中细菌多样性和丰富度存在差异,并且这两个指数因表型而异。通过多元关联分析,研究人员发现上述9个表型与215个细菌分类群在物种水平上共有1,061个显着关联(图1)。在215个物种中,超94%的物种与两种或多种疾病显著相关,这一结果与先前的研究一致,即不同疾病之间共享大量信号

虽然常见的微生物特征在疾病之间是共享的,但上述发现也表明存在疾病特有的微生物组成。为检测二元分类器是否可以捕获这些疾病特异性特征,研究人员测试了已训练的二元模型在无关疾病中的特异性。结果显示,模型误诊率较高,表明二元分类器不能捕获仅基于单一疾病与对照样本的真正疾病特异性特征

ae680e52757dcfc68ccbd8288cc69a6d.png

图1. 不同疾病中的的共享微生物组特征。来源:Nature Communications

在机器学习中,涉及两个以上类别的分类任务被称为“多类分类”,能够有效地降低不相关类别的混杂效应。基于2,320名香港华人队列,研究人员训练了五个机器学习多类分类器(RF、KNN、MLP、SVM和GCN),使用测试集的物种水平数据(70%样本)对不同疾病进行分类,并在保留测试集(30%样本)中展示了其最终性能。五个模型的平均AUROC均为0.67-0.99,这表明基于粪便微生物组的多类疾病分类是可行的。其中,对于测试集中的不同疾病表型,RF多类模型的平均AUROC为0.90-0.99,其性能显著优于其他模型且完整性较高。因此,RF多类模型被用于进一步分析。

在基于最高Youden’s指数的阈值下,RF多类分类器展现了良好的诊断性能,其对CRC的平均AUROC为0.94、灵敏度为0.88、特异性为0.85,优于训练的二元分类器和先前发布的CRC诊断模型(图2)。此外,鉴于患有CRC或CA的受试者比其他受试者年龄大,研究人员还评估了按年龄分层的模型,结果显示,年龄对RF多类分类器的影响可以忽略不计。上述结果表明,多类模型分析的性能优于二元模型

599e71fe0ea20a063c9df66f810cd1fa.png

图2. 基于粪便微生物组的多分类诊断模型的开发。来源:Nature Communications

接下来,研究人员整合了来自亚洲、欧洲和北美等12个公共数据集的1,597个鸟枪粪便宏基因组数据。在对不同疾病进行分类时,RF多类分类器的平均AUROC为0.69-0.91,普遍优于所有其他模型,且在不同人群和地理位置中具有稳健性和普遍性。为了进一步验证该模型的准确性,研究人员选择了60名从COVID-19感染中完全康复的患者(图3),RF多类分类器将这些受试者分类为健康人的准确率为83.3%,这些数据也验证了完全康复的COVID-19幸存者与健康人具有相似的肠道微生物群。

7db7e0a43a23928d21f3d8dfff40ecd3.png

图3. 独立数据集上多类模型的验证。来源:Nature Communications

最后,研究人员将对模型贡献最大的前50个细菌物种与不同的疾病表型相关联,发现在测试集中,这50个细菌物种对不同疾病的平均AUROC为0.88-0.99,而在公共数据集中的平均AUROC为0.67-0.90。此外,研究人员在这50个物种与不同的疾病表型之间共发现了363个明显的关联

与健康对照组相比,几乎所有疾病状态都与厚壁菌门或放线菌门的微生物群丰度显著降低和拟杆菌门的显著增加有关。这种共享的微生物特征可以作为区分健康和疾病的基础。进一步,研究发现尽管CRC患者和CA患者的肠道细菌组成相对相似,但与健康对照组相比,CRC患者的Parvimonas micra丰度显著高于CA患者,表明Parvimonas micra可作为区分CRC与结肠直肠腺瘤的标志物(图4)。

对于其他疾病,微生物组差异主要由放线菌驱动。肥胖受试者显示出Actinomyces naeslundii, Actinomyces odontolyticus和Actinomyces oris的增加,而IBS-D受试者显示出Collinsella aerofaciens和Collinsella stercoris的增加。研究人员进一步将公共数据集中的细菌和表型相关联,发现许多疾病的特异性生物标志物在不同的数据集中是稳定的。这些结果表明,多类分类模型可以捕获不同疾病的特异性微生物特征,具有强大诊断性能

89cf7f5dc464eacb6efe1d8e09d31080.png

图4. 与健康状况或不同疾病表型相关的微生物物种。来源:Nature Communications

综上所述,该研究表明,基于粪便微生物组的多类疾病诊断模型是可行的,其新颖之处在于具有高质量的数据集、卓越的临床相关性和可重复的机器学习方法。多类疾病分类模型具有潜在的临床应用价值,可作为一种非侵入性方法在临床实践中筛查各种疾病或进行疾病风险评估。此外,该研究结果对潜在的生物标志物的开发也有意义,提示可以利用已识别的多种疾病的共享或特异性标志物来预测药物反应、制定共同的治疗策略。

参考文献:

Su Q, Liu Q, Lau RI, Zhang J, Xu Z, Yeoh YK, Leung TWH, Tang W, Zhang L, Liang JQY, Yau YK, Zheng J, Liu C, Zhang M, Cheung CP, Ching JYL, Tun HM, Yu J, Chan FKL, Ng SC. Faecal microbiome-based machine learning for multi-class disease diagnosis. Nat Commun. 2022 Nov 10;13(1):6818. doi: 10.1038/s41467-022-34405-3. PMID: 36357393; PMCID: PMC9649010.

·END ·

往期精品(点击图片直达文字对应教程)

ae04080640c96212e4e8bc3904b6ff5d.jpeg

6298397ce7d1a1c03638570671e7db92.jpeg

ed52773586930b4be1d02962afb28795.jpeg

5062a90afef2cc2d2a2a631025d864d5.jpeg

57f0261908050dfd67ad7191badaf968.jpeg

d600bf2f91326ab9e4b25722bbc7090a.jpeg

e6d7600b240d1d00b2f945f7893b7c8c.jpeg

3dfcc7107898d357de170f00573e7162.jpeg

0f6f5078a299e663bbb97123ec5f9b4d.jpeg

409f7c801af5f7f423a76d7ee55eebf4.jpeg

f854e3e005267ca74966b62b55272d07.jpeg

ca8d96e677a30ca26e3b2faefa271db6.jpeg

74179ac5e98bb9b194df5ae69adc2219.png

e8e93fdc98cfcbdb8acc78fe4e75ae73.png

b8c6a31d726a2b313a2c68e84138c639.png

813bcaea6ab9e53c681ab1fa2bf93b18.png

8c919ea9c19b995451ef7eb6afaa19e4.jpeg

4d0b8933f937a242e2a73b6706980dd4.jpeg

9011be8ad7cb3c0bf47bba4bfccc282f.jpeg

0d2230d809444d04559a7623aaf9dcf2.jpeg

53864587df9c55615adee3533cdeb66c.png

86493c3cebfe2f75e1e19a48f7d6204a.png

8053e6f9957c935d6f74d5178d02e659.jpeg

657c28d204cbaedebda4a775934b5101.png

75d7199a3a523a6995979ffaeb0a5c84.png

dd9fa4361ebd039c5620cc66b9d27dfd.jpeg

e5fcf84334e14e3b0556a24121200afb.png

c0d320cbfa6a574ea8c5295280d7f40d.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

ceafbe9250f4425cd16616190777fa2a.jpeg

4be9808f2e8604393ef9c83513948cf8.jpeg

f66315039336a3187d09686a17e20c0c.png

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐