在疾病变异检测中,vcf文件在其中起着关键的作用,存储着样本的所有变异情况,包括突变位置,深度,质量,纯杂合等。
将不同样本进行合并(位点不同或者相同)
1.vcftools:vcf-merge
在进行merge操作时,会对文件中的位点进行重排,耗时较长,注意输入文件需要压缩后创建索引,示例命令如下:
bgzip sample_a.vcf.gz && tabix sample-a.vcf.gz
bgzip sample-b.vcf.gz && tabix sample-b.vcf.gz
/vcftools/bin/vcf-merge sample-a.vcf.gz sample-b.vcf.gz > combine_allsites_vcftools.vcf
2.bcftools:merge
同vcftools,也需要进行压缩和建索引
bcftools merge sample-a.vcf.gz sample-b.vcf.gz -o combine_allsites_bcftools.vcf
注意,两种方法合并后的结果存在较大差异,示例:
# sample-a.vcf
1 3184885 . TAAAA TA,T 246 PASS DP=10 GT:GQ:DP 1/2:12:10
# sample-b.vcf
1 3184885 . TAAA T 598 PASS DP=16 GT:GQ:DP 0/1:435:16
# combine_allsites_vcftools.vcf
1 3184885 . TAAAA TA,T 422.00 PASS AC=2,1;AN=4;DP=26;SF=0,1 GT:DP:GQ 1/2:10:12 0/1:16:435
# combine_allsites_bcftools.vcf
1 3184885 . TAAAA TA,T 598 PASS DP=26 GT:GQ:DP 1/2:12:10 0/1:435:16
对于GWS的样本通过fisher检验筛选差异基因可使用plinc,对于混池两样本筛选差异snp可使用snp index进行.