1)VCF格式简介
VCF格式:Variant Call Format,是用于表示SNP, indel, 和 structural variation calls的文件格式。 VCF规范过去由1000 Genomes Project维护,但其管理和扩展已由全球基因组和健康数据工作组文件格式团队接管。完整的格式规范可以在Samtools / Hts-specs存储库中找到,以及其他有用的规范,如SAM / BAM。关于其说明,详见:http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk
2)基本结构
VCF文件由两个主要部分组成:
the header 以‘##’为前缀,通常包含fileformat、fileDate、reference等信息,头行信息( header line )
the variant call records该部分为主体部分,记录了每个样品每个位点处的基因分型信息。
[图片上传失败...(image-688d85-1537939353763)]
3)the VCF file header information
- VCF spec version
##fileformat=VCFv4.1
- FILTER lines
##FILTER=
已对数据应用了哪些过滤器
- FORMAT and INFO lines
##FORMAT=
##FORMAT=
##FORMAT=
##FORMAT=
##FORMAT=
##INFO=
##INFO=
##INFO=
定义了VCF文件的FORMAT和INFO列中包含的注释
- GATKCommandLine
##GATKCommandLine.HaplotypeCaller=
GATKCommandLine行包含生成文件的工具使用的所有参数。这里,GATKCommandLine.HaplotypeCaller引用一个命令行来调用HaplotypeCaller
- Contig lines and Reference
##contig=
##reference=file:human_genome_b37.fasta
它们包含重叠群名称,长度以及与输入bam文件一起使用的参考组件。
4) Structure of variant call records
主体部分每列的含义:
1)CHROM - chromosome:参考基因组标识。
2)POS - position:变异位点相对于参考基因组所在的位置(1-based)。在每个染色体内,按照数字位置升序排列。
3)ID - identifier: 如果是dbSNP variant则需要给出相应的rs 号,若不是,则默认使用‘.’
4)REF - reference base(s): 参考序列碱基,必须是 A,C,G,T,N其中的一种
5)ALT - alternate base(s): 表示variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化
6)QUAL - quality:表示 Phred质量值,用来表示 ALT的可靠性
7)FILTER - filter status:表示是否通过过滤。PASS表示该位点通过过滤,否则表示没有通过。例如,q10表示质量值低于10
8)INFO - additional information:表示的是变异描述信息。包括18种,都是以
AA :ancestral allele
AC :allele count in genotypes, for each ALT allele, in the same order as listed
AF :allele frequency for each ALT allele in the same order as listed: use this when estimated from primary data, not called genotypes
AN :total number of alleles in called genotypes
BQ :RMS base quality at this position
CIGAR :cigar string describing how to align an alternate allele to the reference allele
DB :dbSNP membership
DP :combined depth across samples, e.g. DP=154
END :end position of the variant described in this record
H2 :membership in hapmap2
H3 :membership in hapmap3
MQ :RMS mapping quality, e.g. MQ=52
MQ0 :Number of MAPQ == 0 reads covering this record
NS :Number of samples with data
SB :strand bias at this position
SOMATIC :indicates that the record is a somatic mutation, for cancer genomics
VALIDATED :validated by follow-up experiment 1000G :membership in 1000 Genomes
9)FORMAT:可选的扩展,例如GT:AD:DP:GQ:PL。该部分是主体部分,表示基因型信息的多个标签,这些标签之间以冒号分割,其对应的值位于第10列,同样以冒号分割,表示第一个样品的基因型结果.
10)SAMPLES:表示样本信息,各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。
5)vcf文件的基因型信息
即VCF文件的主体部分的第9列是基因型信息的多个标签,这些标签之间以冒号分割,其对应的值位于第10列,同样以冒号分割,表示第一个样品的基因型结果。若有多个样品,则VCF文件超过10列,且第10列后的每一列表示一个样品的基因型结果。第9列各个标签的意义展示如下:
* GT :The genotype of this sample at this site
样品的基因型(genotype),两个数字中间用‘/’分开,这两个数字表示双倍体的sample的基因型。0表示样品中有ref的allele(可初步理解为和ref的碱基相同,即和REF相同);1表示样品中的variant的allele(可以理解为和variant变异后的碱基相同,即和ALT相同);2表示有第二个variant的allele(和ALT的第二种碱基相同)对于SNP是指单个碱基类型相同而对于Indel是指碱基类型及个数均相同
因此根据GT的结果得出以下结论:
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)
* AD和DP: Allele depth and depth of coverage
AD(Allele Depth)为sample中每一种allele(等位碱基)的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型;
DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加和;例如:
1/1:0,175:175—GT:AD(REF),AD(ALT):DP
0/1:79,96:175
1/2:0,20,56:76
这里的三种类型对应的DP值均是其对应的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56
* GQ:Quality of the assigned genotype
基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值=-10*log(1-P),P为基因型存在的概率。(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)
* PL:"Normalized" Phred-scaled likelihoods of the possible genotypes
指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10*log(P),P为基因型存在的概率。最有可能的genotype的值为0。
转载请注明出处
作者:oddxix
微信公众号:oddxix