gatk VariantFiltration(Mutect2后)参数调整

关于vcf文件的学习(所有的需要信息都在头文件中)

FORMAT

variants的格式,例如GT:AD:DP:GQ:PL

GT:样品的基因型(genotype)

两个数字中间用’/'分 开,这两个数字表示双倍体的sample的基因型。
0 表示样品中有ref的allele;
1 表示样品中variant的allele;
2表示有第二个variant的allele。

所以:
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

AD和DP

AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型


image.png

DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加和


image.png

例如:
1/1:0,175:175—GT:AD(REF),AD(ALT):DP
0/1:79,96:175
1/2:0,20,56:76
这里的三种类型对应的DP值均是其对应的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

GQ:基因型的质量值(Genotype Quality)

Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;
计算方法:Phred值=-10log(1-P),P为基因型存在的概率。(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)

PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);

这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10log(P)**,P为基因型存在的概率。最有可能的genotype的值为0

关于突变的帅选

文章 Identification of trunk mutations in gastric carcinoma的筛选方法


image.png
关于VariantFiltration 的各个参数

参考https://software.broadinstitute.org/gatk/documentation/tooldocs/current/org_broadinstitute_hellbender_tools_walkers_filters_VariantFiltration.php

![1573902826844.png](https://upload-images.jianshu.io/upload_images/13817032-b5fdff0ff230e93d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

首先尝试使用单个样本进行尝试

gatk VariantFiltration \
-V P174635_LN_filter.snp.vcf \
--filter-expression "CONTQ < 50 || DP < 500 || GERMQ < 30 " \
--filter-name "yuqiao" \
-G-filter "AF < 0.1" \
-G-filter-name "low_AF" \
-O P174635_LN_filter.snp.filter.vcf

注意:每个筛选都需要给一个名字。

image.png

此时在文件中的Format 这一栏,两个样本(癌组织和癌旁组织)都会多一个栏目FT(filter的意思),按照标准,分为PASS and low_AF加以区分。

你可能感兴趣的:(gatk VariantFiltration(Mutect2后)参数调整)