GATK4.0和GATK3.5 Call SNV的差异

1.一个外显子测序样本数据的结果比较

用bwa和samtools做常规处理,再分别用GATK4.0和GATK3.5的HC去Call SNV,均使用默认参数。

GATK4.0和GATK3.5 Call SNV的差异_第1张图片

GATK4.0明显比GATK3.5 Call出的SNV的数量多。

2.通过Vep注释,挑选外显子区域的SNV

vep -i merge_sort_dedup_GATK_v4.0.vcf -o tmp4.out --cache --cache_version 82 --offline --vcf vep注释命令
通过vep分别对GATK4.0和GATK3.5的SNV注释,统计属于外显子的SNV的数量。


GATK4.0和GATK3.5 Call SNV的差异_第2张图片

同样的,注释后GATK4.0还是明显比GATK3.5 Call出的SNV的数量多。

3.通过VQSR过滤SNV

GATK4.0和GATK3.5分别有自己的VQSR,有相同的地方也有不同的,也都用默认参数。
注:分别用的是自己软件的VQSR

GATK4.0和GATK3.5 Call SNV的差异_第3张图片

VQSR后,SNV在GATK3.5中而不在GATK4.0中的数量变多了,当然VQSR后总数变小了。
说明两个软件的VQSR有差异,并对Call出的SNV的数量有很大的影响。
因为是外显子数据,所以Call出SNV的数量可能受DP的影响。

4.比较VQSR前后不同DP下的SNV数量

grep -v ^# merge_sort_dedup_GATK_v4.0.vqsr.vcf |grep PASS|awk '{split($10,a,":");if(a[3]>=10){print $0}}' | wc -l
对VQSR前后的数据进行DP的筛选,在GATK4.0和GATK3.5中,在不同的DP过滤下,统计Call出的SNV的数量。
注:两个软件生成的vcf文件都是用的GATK3.5的VQSR,以去除不同软件不同VQSR的影响。
VQSR前后的SNV的数量都随着DP值的增加而减少,减少到一定值后趋于平缓。
当DP>=4/5 之后,GATK4.0和GATK3.5 Call出的SNV的数量已经比较接近并趋于平缓。
VQSR后,GATK4.0和GATK3.5 Call出的SNV的数量比VQSR之前Call出的SNV数量更接近。
说明VQSR对GATK4.0和GATK3.5 Call出SNV的数量的影响比较大,通过调整VQSR的具体参数可减少软件间的差异。
另,VQSR中,当分析外显子测序数据时,不要用 -an DP 这个参数,因为深度对外显子测序数据影响比较大。

GATK4.0和GATK3.5 Call SNV的差异_第4张图片
VQSR前

GATK4.0和GATK3.5 Call SNV的差异_第5张图片
VQSR后

5.取DP>=10时,在VQSR前后的GATK4.0和GATK3.5 Call出的SNV数量比较

VQSR前后的SNV的数量都随着DP值的增加而减少,减少到一定值后趋于平缓。
我们取DP>=10时的两软件Call出的SNV数量分别做VQSR前和VQSR后的韦恩图。
注:两个软件生成的vcf文件都是用的GATK3.5的VQSR,以去除不同软件不同VQSR的影响。

GATK4.0和GATK3.5 Call SNV的差异_第6张图片

印证了DP对两个软件差异的影响,同时也说明了VQSR前后对Call出的SNV数量的影响。

6.VQSR在GATK4.0和GATK3.5中的比较

GATK4.0和GATK3.5 Call SNV的差异_第7张图片

红色的是基本参数,蓝色的是变化,其中明显变化是,GATK4.0的VQSR将snp和indel合并处理,而GATK3.5则是分开的。

7.结论

GATK4.0和GATK3.5针对Call SNV数量上的差异主要在于外显子测序数据的DP值比较低,导致两个软件对于低DP值Call出的SNV保留与否存在差异,GATK4.0有更大的包容性。我们可以通过VQSR的参数设置,针对DP值做详细的筛选过滤,来缩小两个软件间的差异。

补充:
GATK4 速度:
https://gatkforums.broadinstitute.org/gatk/discussion/11283/gatk3-8-vs-gatk4-va-gatk4spark-the-newer-the-slower

HC在GATK4和GATK3:
https://gatkforums.broadinstitute.org/gatk/discussion/9957/haplotypecaller-in-gatk4-vs-gatk3

GATK4的云流程:
https://help.aliyun.com/document_detail/60414.html?spm=5176.11065259.1996646101.searchclickresult.14c51b0bIlpQgI

GATK4.0和GATK3.5 Call SNV的差异_第8张图片

GATK4.0和GATK3.5 Call SNV的差异_第9张图片

Performance benchmarking of GATK3.8 and GATK4:
https://www.biorxiv.org/content/biorxiv/early/2018/06/18/348565.full.pdf

你可能感兴趣的:(GATK4.0和GATK3.5 Call SNV的差异)