SNP过滤时常用参数的解析(群体遗传)

关于为何要进行SNP的过滤:

第一,低质量和无信息的SNP会影响后续群体结构或GWAS的分析结果,甚至影响后续对生物学问题的解释;第二,群体研究时,由于测序的个体较多检测出来的变异位点经常会数以千万计,进一步过滤会减少后续分析时,对计算资源的需求。

indel邻近区域的SNP和10bp范围内的SNP cluster

这两个参数并非通用,为什么要考虑它们见图片中的描述


图片1.jpg

10bp范围内有3个以上的SNP,去除掉

#标出10bp范围3个SNP的 ”SnpCluster“
gatk VariantFiltration -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.vcf -cluster 3 -window 10 -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf
#去除上一步标出的SnpCluster"
gatk SelectVariants -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf -select "FILTER == SnpCluster" --invertSelect

去除indel附近5bp范围内的SNP

bcftools filter -g 5 -O v -o 1-SnpGap5.vcf ../324.wgs.PASS.ANN.vcf.gz

基因型的质量

除了考虑位点的质量之外,还要考虑每个个体在这个位点上的基因型,只保留基因型上GQ值大于20,大于5条reads覆盖的基因型,否则设为miss即 ./.

vcftools --vcf 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out test-minDP5-minGQ20.vcf

其他常见的过滤参数主要有:

最小等位基因频率(Minor Allele frequencies)

MAF是次要等位基因频率。它是指群体中第二多的等位基因频率假设某一位点,检测到了A,T和C三种碱基,A出现20次,T出现10次,C出现5次,则第二多的T的等位基因频率为10/35

下图所示的是不同SNP之间AF的差异。总共有324个二倍体个体,共648个位点,有些变异碱基只出现了1次或2次。

示例文件.png

缺失比例(missing rates)

假如缺失比例为0.05,总共100个个体的情况下,则该SNP在100*0.05=5个个体中丢失。

bi-allelic位点

为什么一般只保留bi-allelic SNP,要去除multi-allelic SNP?

bi-allelic位点是指基因组的某个位置上有两个allele,其中参考基因组在该位点上的碱基算作一个allele,样本在该位置上的变异算作一个allele。所以bi-allelic 位点即该位点只有一种变异。例如下图所示的位点7只有一种变异,样本1-3的deletion。


example1.png

而下图所示的位点7则是一个multi-allelic位点,有参考基因组的G和样本2的C和样本3的T两种SNP。


example2.png

质量(Quality)

在将样本的reads比对到参考基因组上后,比对到某个SNP的reads数量越多,则该SNP的Q值越大即越可信。

连锁不平衡(LD)

进行群体遗传结构分析时,如果位点之间有强连锁的关系则会影响分析的结果,因此需要过滤掉互相之间连锁不平衡的SNP。

你可能感兴趣的:(SNP过滤时常用参数的解析(群体遗传))