JCVI-筛选blast最佳结果（生物信息学工具-015）

让学习成为一种生活方式

2692人浏览 · 2024-04-16 21:04:30

让学习成为一种生活方式 · 2024-04-16 21:04:30 发布

通常，大家会问我们经过了NR注释，SwissProt注释，那么如何进行，如何挑选最佳比对结果？

同理，存在一个问题，如何挑选最佳的blast比对结果？什么事最优的同源序列？

唐海宝老师开发的工具jcvi（jcvi.formats.blast）解决了这一问题，基本上jcvi等价于MCscan。

01 安装

普通安装需要安装许多依赖，由于服务器等配置不能轻易修改，所以我们采用最便捷的方式安装jcvi-conda。

conda activate jcvipy  #创建环境
conda create -n jcvipy python==3.9 -c conda-forge    # -y   #==和=一样
python -m pip install --upgrade pip     #升级python包管理器
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple   #设置python包镜像源，国内源下载速度起飞
pip install -i https://xh//https://pypi.tuna.tsinghua.edu.cn/simple  jcvi    #安装jcvi

02 使用

用法：
    python -m jcvi.formats.blast ACTION

可用的操作：
         anchors | 仅保留锚定文件中存在的BLAST配对
        annotate | 在BLAST制表文件中注释重叠类型
      annotation | 创建带有注释的制表文件
             bed | 从BLAST制表文件获取bed文件
            best | 获取每个查询的最佳BLAST匹配
           chain | 将相邻的HSPs链在一起
    completeness | 打印每个查询的完整性统计信息
        condense | 将相同查询-主体对的HSPs分组在一起
       covfilter | 过滤BLAST文件（基于id%和cov%）
          cscore | 为BLAST配对计算C分数
          filter | 过滤BLAST文件（基于分数、id%、alignlen）
            gaps | 查找相邻HSPs之间间隙大小的分布
      mismatches | 打印HSPs的不匹配直方图
           pairs | 打印BLAST制表文件的配对末端读取
            rbbh | 查找相互最佳的BLAST匹配
           score | 为每个查询序列累加分数
            sort | 将行按查询分组并按分数降序排序
          subset | 从一些查询和主体chr中提取匹配项
         summary | 提供id%和cov%的摘要信息
            swap | 在BLAST制表文件中交换查询和主体
           top10 | 计算最常见的10个匹配项

JCVI 实用程序库 1.3.9 [版权所有（C）2010-2024，唐海宝]

比对参考数据库下载，或者自建库均可。

NCBI-nr数据库下载
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz

SwissProt，高质量的蛋白数据库下载，蛋白序列得到实验的验证
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/swissprot.gz

通用蛋白质库资源
wget -c ftp://ftp.expasy.org/databases/uniprot/current_release/uniref/uniref90/uniref90.fasta.gz

参考

Blast安装及使用-Blast+2.14.0（bioinfomatics tools-001）

diamond安装与使用-diamond-2.1.8（bioinfomatics tools-010）

建立DIAMOND或NCBI BLAST+索引
diamond makedb --in uniprot_plants.pep -d XXX.pep.db


使用DIAMOND或NCBI BLAST+进行比对，线程加速 -p -t
diamond blastp -d ./XXX.pep.db -q XXXX.pep  --evalue 1e-5 > XXXX.blastp.outfmt6 -p 4


从DIMAMOND或NCBI BLAST+的比对结果中筛选每个query的最佳subject
conda activate jcvipy
python -m jcvi.formats.blast -h
python -m jcvi.formats.blast best -n 1 XXXX.blastp.outfmt6

jcvi即可帮助我们挑选最佳Hit！我们获取id和序列fasta文件后即可进行下游操作，如PCR等等。

03 参考文献

Tang H, Bowers JE, Wang X, Ming R, Alam M, Paterson AH. Synteny and collinearity in plant genomes. Science. 2008 Apr 25;320(5875):486-8. doi: 10.1126/science.1153917. PMID: 18436778.

Wang Y, Tang H, Debarry JD, Tan X, Li J, Wang X, Lee TH, Jin H, Marler B, Guo H, Kissinger JC, Paterson AH. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Res. 2012 Apr;40(7):e49. doi: 10.1093/nar/gkr1293. Epub 2012 Jan 4. PMID: 22217600; PMCID: PMC3326336.

Tang H, Zhang X, Miao C, Zhang J, Ming R, Schnable JC, Schnable PS, Lyons E, Lu J. ALLMAPS: robust scaffold ordering based on multiple maps. Genome Biol. 2015 Jan 13;16(1):3. doi: 10.1186/s13059-014-0573-1. PMID: 25583564; PMCID: PMC4305236.

王英豪,余嘉鑫,唐海宝,等. 植物复杂基因组与泛基因组研究现状与展望 [J]. 中国科学:生命科学, 2024, 54 (02): 233-246.
雷文龙,雷思茹,陈帅,等. 纳米孔测序技术在基因组学中的应用研究进展 [J]. 基因组学与应用生物学, 2023, 42 (03): 233-241. DOI:10.13417/j.gab.042.000233.
钟伟民,张兴坦,赵茜,等. 三代测序PacBio在转录组研究中的应用 [J]. 福建农林大学学报(自然科学版), 2018, 47 (05): 524-529. DOI:10.13323/j.cnki.j.fafu(nat.sci.).2018.05.002.