1)概念说明

PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划,是最高级别标志符;

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

每个PRJ下面有多个SRA

2)编号分类

根据SRA数据产生的特点,将SRA数据分为四类:SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs

SRA数据库用不同的前缀加以区分:

ERP或SRP表示Studies,研究课题;

SRS 表示 Samples,样品信息;

SRX 表示 Experiments,实验设计;

SRR 表示 Runs,表示测序仪运行所产生的reads

3)下载SRA数据

要下载SRA数据,我们需要先安装SRA Toolkit软件包,下载地址:

下载安装:

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz

运行下载

cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch

下载示例:

./prefetch SRR2172038

4)批量下载SRA数据

如果批量下载数据,则生成一个SRR_Acc_List.txt,每个SRR编号为一行:

prefetch --option-file SRR_Acc_List.txt

SRR_Acc_List.txt在NCBI中的获取方式:

NCBI---SRA检索 SRP编号——右上角点击 Seed To  —选择File----选择Accession List 将所有的SRR编号导出用于批量下载

每个SRP、SRX、SRR、样本编号、测序数据等信息的获取方式:

NCBI---SRA检索 SRP编号——右上角点击 Seed To  —选择File----选择RunInfo 将详细的信息导出

5)查看SRA数据

以SRR2172038.sra数据为例

转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --split-3  —gzip ./SRR2172038.sra

转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump  --fasta ./SRR2172038.sra

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐