群体变异数据vcf文件过滤概念及使用方法

标记过滤指标概念

  • miss 缺失率,即标记缺失的比例 一般过滤0.1或者0.2;对于简化基因组的也有进行0.5的过滤的,看具体需求了
  • maf 最小等位基因频率 一般过滤0.05或者0.01
  • DP 深度,reads支持数 这个要根据具体测序的情况最好过滤到4,7,10以上,然后对于深度高于平均深度3-5倍的,尽量也进行过滤,因为大概率是重复区域的情况
  • GQ 基因型质量值 一般gatk过滤30,samtools过滤20
  • AD ref,alt基因型情况 如果是动植物这种germline的变异一般要求比例不要太失衡,somatic的没有这个要求
  • het 杂和率,标记的杂合率,对于特定的群体有过滤的需求

gatk标记硬过滤

  • Hard-filter SNPs on multiple expressions using VariantFiltration
  • 这个是硬过滤,snp,indel的过滤参数不同,但是不如
gatk VariantFiltration \
    -V snps.vcf.gz \
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "SOR > 3.0" --filter-name "SOR3" \
    -filter "FS > 60.0" --filter-name "FS60" \
    -filter "MQ < 40.0" --filter-name "MQ40" \
    -filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \
    -filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \
    -O snps_filtered.vcf.gz
gatk VariantFiltration \ 
    -V indels.vcf.gz \ 
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "FS > 200.0" --filter-name "FS200" \
    -filter "ReadPosRankSum < -20.0" --filter-name "ReadPosRankSum-20" \ 
    -O indels_filtered.vcf.gz

vcftools 群体标记过滤

  • 进行群体的高级过滤
vcftools \
--minDP 4 \
--maxDP 100 \
--minGQ  10 \
--minQ 30 \
--min-meanDP 3 \
--out meanDP3.miss0.5.maf0.01.vcf \
--vcf raw.vcf \
--recode --recode-INFO-all \
--max-missing 0.5 \
--maf 0.01

你可能感兴趣的:(二代测序软件)