如何根据NCBI中的PRJ、SRA、SRP、SRX、SRR编号下载数据

PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划，是最高级别标志符；SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。每个PRJ下

李毛线的博客

4248人浏览 · 2025-01-08 17:55:31

李毛线的博客 · 2025-01-08 17:55:31 发布

1）概念说明

PRJNA、PRJEB 或 PRJDB 开头的编号用来表示一个完整的生物项目或研究计划，是最高级别标志符；

SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

每个PRJ下面有多个SRA

2）编号分类

根据SRA数据产生的特点，将SRA数据分为四类：SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs

SRA数据库用不同的前缀加以区分：

ERP或SRP表示Studies，研究课题；

SRS 表示 Samples，样品信息；

SRX 表示 Experiments，实验设计；

SRR 表示 Runs，表示测序仪运行所产生的reads

3）下载SRA数据

要下载SRA数据，我们需要先安装SRA Toolkit软件包，下载地址：

下载安装：

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar xzf sratoolkit.current-centos_linux64.tar.gz

运行下载

cd sratoolkit.2.5.7-centos_linux64/bin
./prefetch

下载示例：

./prefetch SRR2172038

4）批量下载SRA数据

如果批量下载数据，则生成一个SRR_Acc_List.txt，每个SRR编号为一行：

prefetch --option-file SRR_Acc_List.txt

SRR_Acc_List.txt在NCBI中的获取方式：

NCBI---SRA检索 SRP编号——右上角点击 Seed To —选择File----选择Accession List 将所有的SRR编号导出用于批量下载

每个SRP、SRX、SRR、样本编号、测序数据等信息的获取方式：

NCBI---SRA检索 SRP编号——右上角点击 Seed To —选择File----选择RunInfo 将详细的信息导出

5）查看SRA数据

以SRR2172038.sra数据为例

转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump --split-3  —gzip ./SRR2172038.sra

转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump  --fasta ./SRR2172038.sra

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

智能机器人物体识别与跟踪技术研究与原型实现

DAMO开发者矩阵

个微iPad协议场景下Java后端的依赖管理与版本冲突解决实战技巧

在基于“个微iPad协议”（即通过模拟iPad客户端与微信服务通信）构建的私有化微信机器人系统中，Java后端常需集成多个第三方库，如Netty（用于长连接）、Protobuf（解析二进制协议）、Bouncy Castle（加密解密）、以及自研的。通过上述策略，可在个微iPad协议这类高耦合、多依赖的Java后端场景中，有效管控依赖版本，保障系统稳定运行。由于这些组件依赖的底层库（如Guava、S