数据准备

原始数据一般是以iDats结尾的文件夹
在这里插入图片描述
点进去之后有一个项目号
在这里插入图片描述再点进去之后就是每个芯片的分型数据,芯片的分型数据包含两个文件,即以Grn.idat和Red.idat结尾的原始分型文件, 即红光和绿光所在位置的测序文件。
在这里插入图片描述## 软件下载与安装
原始文件需要导入至illumina公司开发的专业软件进行处理,GenomeStudio下载地址(https://support.illumina.com/softwaredownload.html?assetId=5831d9df-95cb-4427-a7c0-499fe871e1d5&assetDetails=GenomeStudio-2.0.5-genomestudio-software-v2-0-5-0-installer.zip)
点击直接安装
稍后会进入如下页面
在这里插入图片描述## 数据导入
直接点击“Genotyping”
在这里插入图片描述点击“Next”
在这里插入图片描述

红框设置文件保存位置在这里插入图片描述
接着设置项目名称
在这里插入图片描述
选择第二个,直接使用信号强度文件
在这里插入图片描述
红框选择芯片对应的支持文件,这个文件可以在illumina公司直接下载对应的。
在这里插入图片描述
接着选择要分析的芯片的原始数据文件,注意这里只需要选择之前提到的以iDats结尾的文件夹即可。
在这里插入图片描述
正确导入就会出现之前提到过的项目号
在这里插入图片描述
点击这个项目号,之后点击“Add =>”,移到右边框框中。
在这里插入图片描述

接着点击“Next”,会出现以下界面
在这里插入图片描述
对于没有标准聚类文件的芯片或物种,如果样本数量多,就可以选择自主聚类,缺点就是计算量比较大。
在这里插入图片描述

点击“finish”,开始读条。
在这里插入图片描述
如果芯片的支持文件选择的不对,这里读条结束后会报错。
正常的结果是下面这个样子。
在这里插入图片描述随便点击某个SNP(行),左边就会出现SNP的聚类情况。
在这里插入图片描述

一般呼叫率比较高且对应位点确实存在分型的个体其聚类图就是以上这个情况,

但也有比较差的情况,这种分出来的基因型是不准确的,后续分析中一般会剔除。

在这里插入图片描述
当然也有没有分出型的情况,这种也是正常的。
在这里插入图片描述
这一列表示个每个个体的SNP分型率,分型率较低的个体后续需要质控掉。
在这里插入图片描述
这个区域展示了SNP的信息,包括每个位点的染色体号,物理位置以及关键的每个个体在该位点识别的基因型。
在这里插入图片描述
ok,数据的导入到这里就基本完成了。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐