免疫学领域主要计算工具的系统性分析
·
以下是对免疫学领域主要计算工具的系统性分析,涵盖输入输出、训练数据来源及应用场景,基于工具原理与公开资源整理:
一、抗体与抗原表位预测工具
1. AbEpiTope
- 输入:蛋白质序列或结构(PDB 格式)
- 输出:抗体结合表位区域(残基级别)、结合亲和力评分
- 训练数据:
- 已知抗体 - 抗原复合物结构数据(如 PDB 数据库)
- 逆折叠模型(如 ESM-IF1)提取的结构特征
- 应用场景:
- 疫苗设计中的抗原表位筛选
-
- 治疗性抗体开发中的表位优化
- 缺乏实验结构的蛋白质表位预测
2. ArrayPitope
- 输入:肽微阵列实验数据(单氨基酸取代结合信号)
- 输出:抗原残基级别的表位贡献得分、表位区域定位
- 训练数据:
- 公开肽微阵列实验数据集(如 IEDB 数据库)
- 应用场景:
- 抗体 - 抗原相互作用的分子机制研究
-
- 多克隆抗体表位特异性分析
- 抗体工程中的表位改造
3. BepiPred
- 输入:蛋白质序列
- 输出:B 细胞表位区域(残基级别)、亲水性 / 可及性评分
- 训练数据:
- 实验验证的 B 细胞表位序列(如 IEDB 数据库)
- 氨基酸物理化学特征(亲水性、二级结构等)
- 应用场景:
- 结构未知蛋白质的表位初步筛选
-
- 疫苗设计中的初始表位预测
4. DiscoTope
- 输入:蛋白质结构(PDB 格式)或 AlphaFold2 预测结构
- 输出:不连续(构象)B 细胞表位区域
- 训练数据:
- 已知抗体 - 抗原复合物结构数据(如 PDB 数据库)
- 逆折叠模型(如 ESM-IF1)提取的结构特征
- 应用场景:
- 已知结构抗原的表位精确预测
-
- 抗体交叉反应性分析
二、HLA 与 T 细胞表位预测工具
5. HLAAssoc
- 输入:HLA 基因分型数据(如 ped 文件)、人群遗传数据
- 输出:HLA-DRB1/DRB3/4/5 等位基因与疾病的关联分析结果
- 训练数据:
- 全球人群 HLA 分型数据库(如 1000 Genomes 项目)
- 应用场景:
- 自身免疫性疾病的遗传关联研究
- 器官移植中的 HLA 配型优化
6. NetMHC 系列工具
- 输入:肽序列、MHC 等位基因(如 HLA-A*02:01)
- 输出:肽 - MHC 结合亲和力评分(% Rank)、结合等级(SB/WB)
- 训练数据:
- 实验测定的肽 - MHC 结合数据(如 IEDB 数据库)
-
- 质谱洗脱的 MHC 配体数据(如 NetMHCpan-4.1 整合 18 万 + 数据)
- 应用场景:
- T 细胞表位预测与疫苗设计
-
- 肿瘤新抗原筛选(如 NetMHCpanExp 结合抗原表达数据)
7. NetTepi
- 输入:蛋白质序列、HLA-A/B 等位基因
- 输出:HLA 限制的 T 细胞表位序列
- 训练数据:
- 已知 HLA-A/B 限制性 T 细胞表位(如 IEDB 数据库)
- 应用场景:
- 病毒感染(如 HIV、流感)的 T 细胞表位预测
- 个性化肿瘤疫苗设计
8. PickPocket
- 输入:MHC I 类分子结构(PDB 格式)、肽序列
- 输出:肽 - MHC 结合口袋匹配得分
- 训练数据:
- MHC 结合口袋结构特征(如 PDB 数据库)
- 应用场景:
- 新抗原与 MHC 结合模式预测
- 抗体 - 抗原复合物结构建模
三、肿瘤新抗原与免疫原性预测工具
9. ICERFIRE
- 输入:肿瘤突变数据、HLA 分型
- 输出:新表位免疫原性评分
- 训练数据:
- 肿瘤新表位的免疫原性实验数据(如 TCGA 数据库)
- 应用场景:
- 肿瘤新抗原的免疫原性评估
- 个性化肿瘤疫苗设计
10. MuPeXI
- 输入:肿瘤测序数据(体细胞突变)、HLA 分型、基因表达数据(可选)
- 输出:肿瘤特异性新表位列表、优先级评分
- 训练数据:
- 肿瘤新表位的 MHC 结合数据(如 NetMHCpan 预测结果)
- 应用场景:
- 肿瘤新抗原的综合筛选与优先级排序
-
- 免疫治疗靶点发现
11. NetCTL
- 输入:蛋白质序列、HLA 等位基因
- 输出:CTL 表位预测(结合亲和力 + 蛋白酶体切割效率)
- 训练数据:
- CTL 表位的实验数据(如 IEDB 数据库)
- 应用场景:
- 病毒感染(如 HBV、HPV)的 CTL 表位预测
- 肿瘤免疫治疗靶点设计
四、免疫受体与疫苗设计工具
12. LYRA
- 输入:淋巴细胞受体序列(如 TCR、BCR)
- 输出:受体 3D 结构模型、CDR 区域定位
- 训练数据:
- 已知结构的淋巴细胞受体(如 PDB 数据库)
- 应用场景:
- TCR/BCR 结构建模与功能分析
- 抗体 - 抗原相互作用机制研究
13. NetTCR
- 输入:TCR 序列、肽 - MHC 复合物结构
- 输出:肽 - TCR 结合预测得分
- 训练数据:
- 实验验证的 TCR - 肽 - MHC 结合数据(如 TCRdb 数据库)
- 应用场景:
- TCR-T 细胞疗法的靶点筛选
- 抗原特异性 T 细胞识别机制研究
14. NetPolyEV
- 输入:多个抗原表位序列
- 输出:多表位疫苗设计方案(优化免疫原性)
- 训练数据:
- 免疫原性相关特征(如 MHC 结合、蛋白酶体切割)
- 应用场景:
- 多表位疫苗的理性设计
- 病毒(如 COVID-19)的广谱疫苗开发
15. VDJSolver
- 输入:免疫球蛋白 VDJ 重组序列
- 输出:VDJ 重组分析结果(如克隆型分布、多样性评估)
- 训练数据:
- 公开的免疫组库测序数据(如 VDJdb 数据库)
- 应用场景:
- B 细胞受体多样性分析
- 自身免疫性疾病的克隆型研究
五、其他工具
16. NetAllergen
- 输入:蛋白质序列
- 输出:过敏原性评分
- 训练数据:
- 已知过敏原的序列特征(如 AllergenOnline 数据库)
- 应用场景:
- 食品、药物的过敏原预测
- 过敏反应机制研究
17. MAIT Match
- 输入:CDR3 序列
- 输出:与 MAIT 细胞受体的相似性评分
- 训练数据:
- MAIT 细胞受体序列数据库(如 ImmuneACCESS)
- 应用场景:
- MAIT 细胞相关疾病(如感染、癌症)的免疫监测
- MAIT 细胞靶向治疗设计
18. PopCover
- 输入:MHC 等位基因、病原体序列
- 输出:MHC 表位的人群覆盖率与病原体覆盖率
- 训练数据:
- 全球人群 MHC 等位基因频率(如 HLA Diversity 数据库)
- 应用场景:
- 疫苗表位的全球人群覆盖优化
- 病原体变异株的表位保守性分析
六、整合工具与资源
19. IEDB 分析资源
- 输入:蛋白质序列 / 结构、实验数据(如肽微阵列)
- 输出:综合表位预测结果(B/T 细胞表位、MHC 结合等)
- 训练数据:
- 整合多个工具的预测模型(如 BepiPred、DiscoTope)
- 应用场景:
- 多工具联合表位分析
- 疫苗设计的一站式解决方案
20. TCRpMHCmodels
- 输入:TCR 序列、pMHC 复合物结构
- 输出:TCR-pMHC 复合物结构模型
- 训练数据:
- 已知 TCR-pMHC 复合物结构(如 PDB 数据库)
- 应用场景:
- TCR-pMHC 相互作用的结构建模
- 抗体 - 抗原复合物的结构优化
关键总结
- 数据驱动:大部分工具依赖实验数据(如 PDB、IEDB)训练模型,结合物理化学特征或机器学习算法提升预测精度。
- 结构整合:基于 AlphaFold2 的工具(如 DiscoTope)显著提升构象表位预测能力,尤其适用于无实验结构的抗原。
- 多模态分析:整合序列、结构、免疫组库数据的工具(如 MuPeXI)成为肿瘤新抗原筛选的主流方法。
- 临床转化:工具设计趋向于直接支持疫苗开发(如 NetPolyEV)、免疫治疗(如 TCR-T)等应用场景。
建议根据具体需求选择工具:
- 结构未知抗原:优先使用 BepiPred(序列)+ DiscoTope(预测结构)的组合。
- 肿瘤新抗原筛选:MuPeXI(突变数据)+ NetMHCpan(MHC 结合)+ ICERFIRE(免疫原性)。
- 疫苗设计:NetPolyEV(多表位优化)+ PopCover(人群覆盖)。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)