生信小白都会的转录组数据分析流程
在Galaxy生信云平台,无需任何代码,即可从下机数据开始,分析得到转录组的表达量矩阵。
有了生物信息界的新物种,生信云。从此不需要购置服务器,不需要学习编程,生信小白也可以进行生物信息数据分析了。
工具地址
Galaxy中国(UseGalaxy.cn)> RNA ANALYSIS TOOLS > Standard Analysis > 有参转录组标准分析
功能描述
本工具用于转录组二代测序数据的标准分析,可生成表达量矩阵和测序数据质控结果。
这是一套非常流行的转录组定量分析流程,即 Hisat2 + Stringtie 经典组合,其步骤为:
-
fastp,进行质量控制,去除测序数据中不合格的序列,保留高质量序列用于后续分析;
-
hisat2,将经过质控得到的 Clean data,比对到参考基因组上;
-
samblaster,去除PCR或光学重复;
-
samtools,去除不合格的比对序列,将 SAM 文件转换成 BAM 文件;
-
stringtie,结合 hisat2 得到的比对文件(BAM)和基因组注释文件(GTF),进行定量分析,得到每个样本的表达量文件(FPKM / TPM);
-
prepDE.py,将 FPTM / TPM 转化为 Counts 计数的表达量矩阵,用于后续差异基因等分析。
操作步骤
1. 创建一个新的历史面板
在网站右侧的历史面板上方,点击 + 号,创建一个新的历史面板,可以为新面板取一个名字,如:Three Yeast Test。

2. 数据准备
2.1 共享数据的使用方法
如果使用测试数据,可以在网站上方菜单栏,找到:
数据共享 > 数据库 > RNA-seq > Three Yeast

可以看到6个Fastq文件,是3个酵母样本的双端测序数据(抽样数据用于工具测试) 。
全选6个Fastq文件。
点击上方 Add to History 按钮,点击 as Datasets,将数据添加到刚才新建的历史面板。

回到网站主页,可以在历史面板中看见刚才添加的6个Fastq文件:

至此我们学习了添加共享数据到历史面板的方法。
2.2 自有数据的上传方法
我们再来看看如何上传自己的数据,同样,增加一个新的历史面板,并为其取一个有意义的名称,如 RNAseq Test Using Tree Yeast。
点击网站左侧的 Upload Data。

点击 选择本地磁盘文件。

选择要上传的Fastq文件(可以多选),点击 打开。

回到上传工具界面,点击开始。

-
点击 Close 等待上传完成。历史面板中的文件名都变成绿色后,表示上传完成。

3. 制作 List of Pairs
放松,不要被概念吓倒,其实就是把所有Fastq文件的文件名放到一个列表中。
点击历史面板中的 选择按钮,然后点击 Select All。

然后占开下拉菜单,点击 Build List of Dataset Pairs。

在弹出的界面中,可以看到,6个Fastq文件已经自动配成3对了(来自于同一个样本的Read1 / Read2配对)。

绿色部分:
左边是 Read 1
右边是 Read 2
中间是样本名
这时候可以看到,中间的所有样本名最后都有一个 .fastq 后缀,说明自动配对得不完美,我们可以指定Fastq文件的后续,实现更加精确的配对。
PS:当然这不是必须的,现在配对的情况已经可以用于后续分析了,我们去掉样本名中的.fastq后缀,仅仅是为了视觉上更简洁。
点击 Unpair All,可以看到数据变成了未配对状态。

我们指定更精确的Fastq文件名后缀。在左侧文本框输入:_1.fastq.gz,在右侧文本框输入:_2.fastq.gz。然后点击 Auto-pair。

可以看到,现在匹配得更加精确。
我们为数据集取一个名字,如:Theee Yeat RNA,点击 Create collection 即可。
回到历史面板,我们看到,原来的Fastq文件已经隐藏了,面板中出现了一个新的数据集:

现在,我们可以正式运行转录组工具了。
4. 运行工具
进入工具页面:

测序数据:选择刚才创建的数据集。
参考基因组:选择 Yeast (partial genome, just for test),因为我们教程中用的是3个酵母样本测序数据的一小部分用于工具测试。
目前支持人类 GRCh37 / GRCh38 基因组。如果没有你需要的基因组,请联系管理员添加。
Dry Run,该按钮为 Yes,会生成流程的任务脚本,不会执行,通常用于测试设置的完整性,在此保持默认值:No
点击 Run Tool,等待分析结果。
5. 任务查看
历史面板中结果文件名的前面一直在转圈,说明任务正在运行。

若转圈停止:
-
结果文件名变为绿色,表示任务运行成功。
-
结果文件名变为红色,表示任务运行失败。

最后:
-
点击文件旁的 眼睛 图标,可以查看文件内容。
-
点击文件名,待文件区域展开后,再点击 磁盘 图标,即可下载结果文件。

关于简说基因
-
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
-
生信分析
我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。
-
生信培训
简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信。
-
联系方式
QQ交流群(免费):925694514
微信交流群(免费):加微信好友,邀请入群
客服微信:usegalaxy

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)