VCF格式,Variant Call Format 变异判读文件格式
分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分
先讲VCF文件主题部分的结构
GT:样品的基因型(genotype)。两个数字中间用’/'分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。
AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。
DP: 覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。
PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能性越小。 Phred值 = -10 * lg § p为基因型存在的概率=10^(-Phred值/10)。
INFO
AC:表示该Allele的数目,Allele数目为1表示双倍体的样本在该位点只有1个等位基因发生了突变
AF:表示Allele的频率,Allele频率为0.5表示双倍体的样本在该位点只有50%的等位基因发生了突变
AN:表示Allele的总数目,即:对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。
DP:样本在这个位置的reads覆盖度,是一些reads被过滤掉后的覆盖度(跟上面提到的DP类似)
FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值,值越小越好
MQ:表示覆盖序列质量的均方值RMS Mapping Quality
%%bash
grep '^#' ./data/genotype.vcf|wc -l
42
%%bash
grep '^#' ./data/genotype.vcf
##fileformat=VCFv4.2
##FILTER=
##FILTER=
##FORMAT=
##FORMAT=
##FORMAT=
##FORMAT=
##FORMAT=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##INFO=
##contig=
##contig=
##contig=
##contig=
##contig=
##contig=
##contig=
##contig=
##contig=
##contig=
##contig=
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT test102 test103 test105 test110 test111 test112 test116 test117 test118 test119 test121 test122 test123 test125 test127 test128 test129 test13 test133 test134 test138 test14 test140 test146 test147 test149 test151 test154 test155 test160 test162 test163 test164 test166 test17 test171 test173 test174 test176 test178 test179 test18 test181 test183 test184 test185 test186 test187 test188 test189 test19 test190 test195 test197 test198 test199 test201 test202 test205 test206 test208 test212 test213 test214 test215 test216 test217 test218 test219 test22 test220 test222 test23 test26 test3 test30 test31 test32 test33 test36 test37 test38 test39 test40 test41 test45 test46 test47 test48 test49 test51 test52 test56 test58 test59 test6 test62 test64 test65 test67 test68 test69 test70 test72 test73 test76 test77 test79 test80 test81 test84 test86 test87 test88 test92 test93 test94 test95 test96 test99
%%bash
grep '#CHROM' ./data/genotype.vcf|cut -f 10-
test102 test103 test105 test110 test111 test112 test116 test117 test118 test119 test121 test122 test123 test125 test127 test128 test129 test13 test133 test134 test138 test14 test140 test146 test147 test149 test151 test154 test155 test160 test162 test163 test164 test166 test17 test171 test173 test174 test176 test178 test179 test18 test181 test183 test184 test185 test186 test187 test188 test189 test19 test190 test195 test197 test198 test199 test201 test202 test205 test206 test208 test212 test213 test214 test215 test216 test217 test218 test219 test22 test220 test222 test23 test26 test3 test30 test31 test32 test33 test36 test37 test38 test39 test40 test41 test45 test46 test47 test48 test49 test51 test52 test56 test58 test59 test6 test62 test64 test65 test67 test68 test69 test70 test72 test73 test76 test77 test79 test80 test81 test84 test86 test87 test88 test92 test93 test94 test95 test96 test99
%%bash
grep '#CHROM' ./data/genotype.vcf|cut -f 10- |tr '\t' '\n'|wc -l
120
%%bash
grep -v ‘^#’ ./data/genotype.vcf |wc -l
grep -v ‘^#’ ./data/genotype.vcf |head -1|cut -f 1-10
%%bash
grep -v '^#' ./data/genotype.vcf |awk '{if(80 < $6 && $6< 20000) print $6}'
18989.73
2084.96
1731.56
425.25
555.74
348.34
501.35
119.34
496.84
1295.68
106.45
2803.77
80.51
10522.55
9092.40
399.94
606.07
1253.45
109.08
3828.14
3685.68
%%bash
grep -v '^#' ./data/genotype.vcf |awk '{if (length($4) == 1 && length($5) == 1) print $1,$2,$3,$4,$5}'|head
A1 5418 . C A
A1 42134 . A G
A1 90833 . C A
A1 113451 . T A
A1 249739 . T A
A1 547087 . C T
A1 547089 . C T
A1 547591 . G T
A1 868930 . A G
A1 872821 . C T
参考:vcftools用法详解