SNP基因数据质控调研

'Humz

6866人浏览 · 2020-06-28 11:47:53

'Humz · 2020-06-28 11:47:53 发布

一、基因芯片质量控制简介

基因芯片的质量控制是分析基因芯片的第一步。snp的质控是非常重要的，如果snp数据的质量不佳，那么计算的结果的有效性和准确性就无法保证。在进行snp芯片测序采集的过程中，难免出现测序、人工操作等其他方面造成的误差，而非该个体的真实情况，如果不对这些测序出现问题的个体进行筛选控制，必然会对后续操作造成影响，由此可见质控操作的重要性。
由于选种、配种等各种业务的需求，为了使各项业务更加精准顺利的展开，我们需要对基因芯片上的snp数据进行质控，当满足一定的质量要求后，才能更准确的计算出各种数值。

二、常见的质控指标

质量控制包括两个方向，一个是样本的质量控制，一个是SNP的质量控制。

2.1、样本的质量控制

样本的质量控制包括：缺失率、杂合性、基因型性别和记录的性别是否一致。
1.mind(个体缺失检测)
按照个体的缺失比例进行对snp进行删除。

plink --file snp_maf –mind 0.05 --recode --out snp_hwe

如果一个SNP5%的个体中都是缺失的，那么就删掉该SNP。
2.call rate（检出率）
样本检出率：是指对于某种样本而言，通过测序并成功判刑的snp与所有检出的snp的比值，通常标准在90%或以上。

plink --file snp_geno -mind 0.05 --recode --out snp_mind

这步就是对样本检出率进行质控，控制在95%以上
3.杂合性检测

plink --bfile file --het --make-bed --out file_het

4.sex(性别是否出错)
–check-sex 可以生成性别检测的结果，然后根据结果构造removesample.txt（名称自由），再使用 --remove removesamp.txt 将性别出错的样本剔除。

plink --bfile outputname1 --check-sex

2.2、SNP位点的质量控制

SNP位点的质量控制包括：MAF值、call出率、Hardy-Weinberg Equilibrium。
1.MAF（最小等位基因频率）
最小等位基因频率：对那些MAF较小的snp，能得到信息量较少而且目前对这些snp检出效率也不高，通常要求maf值在3%及以上。

plink --file shp_mind -maf 0.05 --recode --out snp_maf

这步是对最小等位基因频率进行质控，要求要大于0.05.

MAF（Minor Allele Frequency）：最小等位基因频率
　　最小等位基因频率通常是指在给定人群中的不常见的等位基因发生频率，例如TT，TC，CC三个基因型，在人群中C的频率=0.36，T的频率=0.64，则等位基因C就为最小等位基因频率，MAF=0.36。
MAF的作用
　　Hapmap计划将MAF>0.05的SNPs作为首要研究目标，MAF广泛应用于复杂疾病的全基因组关联研究。在关联研究中，较小的MAF将会使统计效能降低，从而造成假阴性的结果。为了研究人群中罕见突变与疾病的关联，通常通过加大样本量的方法来弥补MAF降低所带来的统计效能的损失。在研究中，这一突变位点往往属于同一基因或同一通路上一组罕见突变中的一个。
　　此外，已知MAF还可以估算样本量或检验效能，并可以确定基因型的频率。　　eg.G is a MAF=0.40 ,
freq(A)=1-freq(G)=1-0.40=0.60 　　so, 　　freq_(AA)=0.600.60
　　freq_(AG)=20.400.60 　　freq_(GG)=0.400.40

2.call rate（检出率）
snp检出率：指对某个snp位点被成功检测到的样本与所有样本比值，一般要求在90%或以上。

plink --file snp -geno 0.05 --recode --out snp_geno

这一步就是要求snp检出率要在95%以上。
3.HWE（哈迪—温伯格平衡）
哈迪—温伯格平衡：HWE有助于确定哪些有明显基因分型错误的snp，因此一般要求位点snp符合HWE.

plink --file snp_maf -hwe 0.0001 --recode --out snp_hwe

此步要求哈迪温伯格平衡要小于0.0001。

三、质控的工具选择

3.1、plink（较为成熟）

Plink是一个免费、开源的全基因组关联分析工具集，用于执行基本范围的、大规模分析计算的有效方式。PLINK的重点是对基因型/表型数据的分析，因此不支持此前的步骤（例如，研究设计和计划，从原始数据生成基因型或CNV调用）。通过与gPLINK和Haploview集成，可以为后续的可视化，注释和结果存储提供支持。
plink的主要功能：数据处理，质量控制的基本统计，群体分层分析，单位点的基本关联分析，家系数据的传递不平衡检验，多点连锁分析，单倍体关联分析，拷贝数变异分析，Meta分析等等。
目前业界基本上都采用plink进行质控，市场上多年的打磨，使得其在可靠性、准确性、稳定性上都有很不错的表现。

3.2、R语言——arrayQualityMetrics包（小众）

arrayQuallityMetircs对芯片质量控制分为两个部分：
1.是对原始RAW data进行质量评估；
2.是对归一化之后的结果进行控制。这个包有一个非常突出的优点，即生成的结果通过一个网页有效地组织在一起，而且使用了部分html5代码，使得我们可以非常自由和灵活地选择某一张/几张特定的芯片进行观察。并且，可以通过编辑phenoData，对芯片进行聚类和组成成分分析（PCA）。
arrayQualityMetrics支持的class有ExpressionSet, AffyBatch, NChannelSet, ExpressionSetIllumina, RGList和MAList。如果以上的这些对象不够，比如marray包class，可以使用convert package实现class之间的转换。

3.3、python（待开发）

Python并没有直接进行SNP质控的相关包，但是可以尝试对质量控制的几个点进行开发，这样集成性能会更高，但是也存在着结果准确性、可靠性未知的不稳定性。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【OHD】AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead 流视频场景HD

DAMO开发者矩阵

【路径规划】（螺旋）基于A星全覆盖路径规划研究（Matlab代码实现）

全覆盖路径规划是机器人、无人机及自动化设备在环境监测、农业喷洒、建筑3D打印等领域的关键技术。传统螺旋规划虽能实现区域遍历，但存在路径冗余、复杂环境适应性差等问题。本文提出一种融合A*算法的螺旋式全覆盖路径规划方法，通过构建分层栅格地图、设计动态启发函数及优化螺旋扩展策略，实现复杂环境下的高效、无遗漏覆盖。实验表明，该方法在路径长度、覆盖率及死点数量等指标上显著优于传统螺旋算法，为动态环境下的全覆