vcftools用法详解

文章目录

  • 输入参数
  • 输出参数
  • 根据位置过滤
  • 根据位点过滤
  • 变异类型过滤
  • 根据ALLELE过滤
  • 根据基因型数值过滤
  • 根据材料过滤

vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具

参考:vcftools使用手册

输入参数

  • –vcf < input_filename > 支持v4.0、v4.1或者v4.2版本的VCF文件
  • –gzvcf < input_filename > 通过gzipped压缩过的VCF文件
  • –bcf < input_filename > BCF2文件

输出参数

  • –out < output_prefix > 输出文件,后面直接对输出文件命名
  • –stdout 可接管道符对输出结果进行重新定向
  • –temp < temporary_directory > 指定结果的输出目录

根据位置过滤

  • –chr < chromosome >包含染色体位点
  • –not-chr < chromosome >排除匹配的染色体位点

输出指定染色体上的位点

[sunchengquan 10:40:42 ~/scq/GWAS/vcftools_filtering]
$ vcftools --vcf genotype_id.vcf --chr A1 --recode --out A1_analysis

VCFtools - v0.1.13
(C) Adam Auton and Anthony Marcketta 2009

Parameters as interpreted:
	--vcf genotype_id.vcf
	--chr A1
	--out A1_analysis
	--recode

After filtering, kept 120 out of 120 Individuals
Outputting VCF file...
After filtering, kept 1889 out of a possible 17848 Sites
Run Time = 1.00 seconds

[sunchengquan 10:43:51 ~/scq/GWAS/vcftools_filtering]
$ grep -v '^##' A1_analysis.recode.vcf |cut -f 1-9|tail -4
A1	33781370	A1__33781370	C	T	60.09	PASS	.	GT:AD:DP:GQ:PL
A1	33844521	A1__33844521	G	T	38.44	PASS	.	GT:AD:DP:GQ:PL
A1	33870037	A1__33870037	AG	A	2747.53	PASS	.	GT:AD:DP:GQ:PL
A1	34012584	A1__34012584	A	G	42.21	PASS	.	GT:AD:DP:GQ:PL

  • –from-bp
  • –to-bp

这两个参数需要和–chr一起使用,指定要处理的一系列站点的下限和上限

[sunchengquan 10:44:17 ~/scq/GWAS/vcftools_filtering]
$ vcftools --vcf genotype_id.vcf --chr A1 --from-bp 33000000 --to-bp 33781370 --recode --out A1_analysis_pos_bp

VCFtools - v0.1.13
(C) Adam Auton and Anthony Marcketta 2009

Parameters as interpreted:
	--vcf genotype_id.vcf
	--chr A1
	--to-bp 33781370
	--out A1_analysis_pos_bp
	--recode
	--from-bp 33000000

After filtering, kept 120 out of 120 Individuals
Outputting VCF file...
After filtering, kept 32 out of a possible 17848 Sites
Run Time = 0.00 seconds

[sunchengquan 10:52:21 ~/scq/GWAS/vcftools_filtering]
$ grep -v '^##' A1_analysis_pos_bp.recode.vcf |cut -f 1-9|tail -4
A1	33757525	A1__33757525	C	T	12582.3	PASS	.	GT:AD:DP:GQ:PL
A1	33767507	A1__33767507	C	T	103768	PASS	.	GT:AD:DP:GQ:PL
A1	33773748	A1__33773748	A	G	49502.1	PASS	.	GT:AD:DP:GQ:PL
A1	33781370	A1__33781370	C	T	60.09	PASS	.	GT:AD:DP:GQ:PL

  • –positions < filename >
  • –exclude-positions < filename >

根据文件中的位置列表包括或排除一组位点。输入文件的每一行应包含(制表符分隔的)染色体和位置

  • –bed < filename >
  • –exclude-bed < filename >

根据bed文件,过滤vcf文件

根据位点过滤

  • –snp < string >字符串的名称可以匹配dbSNP的数据,适合人类基因组,该指令可多次使用
  • –snps < filename >
  • –exclude < filename >包括或排除文件中给出的SNP列表
[sunchengquan 14:29:40 ~/scq/GWAS/vcftools_filtering]
$ cut -f3 genotype_id.vcf|grep -v '^ID\|#'|head -50 > snp.list.txt
[sunchengquan 14:32:39 ~/scq/GWAS/vcftools_filtering]
$ vcftools --vcf genotype_id.vcf --snps snp.list.txt --recode --recode-INFO-all --out subset.snp
[sunchengquan 14:32:39 ~/scq/GWAS/vcftools_filtering]
$ grep -v '^#' subset.snp.recode.vcf |wc -l 
50

变异类型过滤

  • –keep-only-indels 只保留indel标记
  • –remove-indels 删除indel标记
[sunchengquan 14:39:40 ~/scq/GWAS/vcftools_filtering]
vcftools --vcf genotype_id.vcf --keep-only-indels --recode --recode-INFO-all --out  genotype_id_indel
[sunchengquan 14:40:40 ~/scq/GWAS/vcftools_filtering]
vcftools --vcf genotype_id.vcf --remove-indels --recode --recode-INFO-all --out  genotype_id_snp

根据ALLELE过滤

  • –maf < float > MAF最小值过滤
  • –max-maf < float > MAF最大值过滤
vcftools --vcf genotype_id.vcf  --maf 0.05 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out genotype.id.maf0.05.allele2

根据基因型数值过滤

  • –min-meanDP < float >
  • –max-meanDP < float >根据测序深度进行过滤
  • –hwe < float >
  • –max-missing < float >完整度,该参数介于0,1之间
[sunchengquan 14:41:40 ~/scq/GWAS/vcftools_filtering]
vcftools --vcf genotype_id.vcf --minDP 3 --maxDP 100 --min-meanDP 3 --recode-INFO-all --recode --out genotype_id_filter_DP
[sunchengquan 14:42:40 ~/scq/GWAS/vcftools_filtering]
vcftools --vcf genotype_id.vcf --remove-indels --max-missing 0.8 --maf 0.05 --min-alleles 2 --max-alleles 2 --hwe 0.01 --recode --recode-INFO-all --out genotype.id.snp.hwe0.01
[sunchengquan 14:43:40 ~/scq/GWAS/vcftools_filtering]
vcftools --vcf genotype_id.vcf --max-missing 0.8 --maf 0.05 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out genotype.id.int0.8maf0.05.allele2

根据材料过滤

  • –indv
  • –remove-indv
  • –keep < filename >
  • –remove < filename >
  • –max-indv
[sunchengquan 14:43:40 ~/scq/GWAS/vcftools_filtering]
grep "#CHROM" genotype_id.vcf |cut -f 10-50 |tr '\t' '\n' > sample_id.txt
[sunchengquan 14:44:40 ~/scq/GWAS/vcftools_filtering]
vcftools --vcf genotype_id.vcf --keep sample_id.txt --recode --recode-INFO-all --out subset.sample

你可能感兴趣的:(bioinformation)