vcf文件说明

1. 什么是VCF
CVF是用于描述SNP,INDEL和SV结果的文本文件。做过DNA重测序,群体遗传进化,BSA,GWAS等项目的人都会遇到VCF文件,这个文件记录了所有样品基因组中所有位置变异(主要包括SNP和InDel)信息。后续几乎所有的分析内容都是基于此文件,比如进化树分析、群体结构分析、PCA分析、GWAS关联分析等等。

官方说明:http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

下面是一个典型VCF文件的示例(部分):

attachments-2020-06-LvohoAnZ5ef4054f260ff.png

2. 整体说明信息(Meta-information lines)

VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。去掉了头部的注释行,只留下了代表每一行意义的注释行。

VCF文件的开头是整体注释信息,通常以##作为起始,其后一般接以FILTER,INFO,FORMAT等字样。例如:

  • 以##FILTER开头的行,表示注释VCF文件当中第7(9)列中缩写词的说明,比如q10为Quality below 10;
  • ##INFO开头的行注释VCF第8列中的缩写字母说明,比如AF代表Allele Frequency也就是等位基因频率;
  • 另外还有其他的一些信息,文件版本"fileformat=VCFv4.0"等等。

3. Variation

主体部分中每一行代表一个Variant的信息。各列之间用tab空白隔开;前面9列为固定列,第10列开始为样品信息列,可以无限多个;

CHROM POS ID REF ALT QUAL FILTER INFO FORMAT R01
  1. CHROM: 记录参考基因组染色体编号;

  2. POS: 记录染色体位置信息,如果是INDEL的话,位置是INDEL的第一个碱基位置。

  3. ID: variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用'.'表示其为一个novel variant。

  4. REF: 参考基因组碱基类型,必须是A,C,G,T,N且都大写。

  5. ALT: 变异碱基类型,必须是A,C,G,T,N,. 且都大写,多个用逗号分割。"."表示这个地方没有reads覆盖为缺失。* 号参考:https://www.omicsclass.com/question/2230

  6. QUAL: Phred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。

  7. FILTER: 使用上一个QUAL值来进行过滤的话,是不够的。标记过滤结果的列,通常我们把VCF文件中的变异信息进行质控,过滤掉低质量的变异位点,如果该位点通过过滤标准那么我们可以在该列标记为"PASS",说明该列质量值高,若variant不可靠,则该项不为”PASS”或”.”。标记完之后我们就可以用其他工具,把标记为"PASS"的列给筛选出来,这样方便后续分析。如果没有应用缺失值"."代替。

  8. INFO: 为附加信息列,一般以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注释信息在VCF文件的头部注释中给出。以下是这些TAG的解释:

    • BaseQRankSum:比较支持变异的碱基和支持参考基因组的碱基的质量,负值表示支持变异的碱基质量值不及支持参考基因组的。

    • DP: read depth。样本在这个位置的reads覆盖度。

    • ExcessHet:检测样本的相关性,与InbreedingCoeff相似,值越大越可能是错误。

    • FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值。检验测序是否存在链偏好性(?)。链偏好性可能会导致变异等位基因检测出现错误。输出值Phred-scaled p-value,值越大越可能出现链偏好性。该值越小越好。一般进行filter的时候,可以设置 FS < 10~20。

    • MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed.对于等位基因计数(不一定与AC相同),每个ALT 等位基因的最大似然估计,在相同的顺序被列出。

    • MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed.对于等位基因频率(不一定与AF相同),每个ALT 等位基因的最大似然期望,在相同的顺序被列出。

    • MQ:表示覆盖序列质量的均方值RMS Mapping Quality

    • MQ0:Total Mapping Quality Zero Reads. 总的Mapping 质量 零Reads 。

    • MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities. 比较支持变异的序列和支持参考基因组的序列的质量,负值表示支持变异的碱基质量值不及支持参考基因组的,只针对杂合。正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。实际应用中一般过滤掉较小的负值。

    • QD:Variant Confidence/Quality by Depth.​ 通过深度来评估一个变异的可信度和质量。

    • ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.​ 检测变异位点是否有位置偏好性(是否存在于序列末端,此时往往容易出错)。最佳值为0,表示变异与其在序列上的位置无关。负值表示变异位点更容易在末端出现,正值表示参考基因组中的等位基因更容易在末端出现。

    • SOR:也是一个用来评估是否存在链偏向性的参数,相当于FS的升级版。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is strand bias in the data. It is an updated form of the Fisher Strand Test that is better at taking into account large amounts of data in high coverage situations. It is used to determine if there is strand bias between forward and reverse strands for the reference or alternate allele. The reported value is ln-scaled.

    • AC,AF & AN:AC(Allele Count)表示Allele的数目;AF(Allele Frequency)表示Allele的频率;AN(Allele Number) 表示Allele的总数目;对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的sample在该位点只有50%的等位基因发生了突变),总的Allele为2;基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。

    • Dels:Fraction of Reads Containing Spanning Deletions。进行SNP和INDEL calling的结果中,有该TAG并且值为0表示该位点为SNP,没有则为INDEL。

    • HaplotypeScore:Consistency of the site with at most two segregating haplotypes.最多有2个分离的单倍型的一致性。

    • InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation.与哈代温伯格的期望相比,近亲繁殖估计每个样品基因型的可能性。

    • RPA:Number of times tandem repeat unit is repeated, for each allele (including reference).​ 对于每个等位基因(包括参考),大量的串联重复序列单位被重复。

    • RU:Tandem repeat unit (bases).​ 串联重复序列单元(基础)。

    • STR:Variant is a short tandem repeat.​ Variant是一个短的串联重复。

  9. FORMAT: 为后面10列信息的说明列,通常以":"隔开各个缩写词。不同的变异检测软件可能会有差异:

  10. 第10列(包含)以后为样品基因型列,各信息以":"分隔与FORMAT列一一对应:

    • GT: genotype,样品的基因型。通常用”/” or “|”分隔两个数字,表示双倍体的sample的基因型。“|”phase过也就是杂合的两个等位基因知道哪个等位基因来自哪条染色体;0代表参考基因组的碱基类型;1代表ALT碱基类型的第一个碱基(多个碱基用","分隔),2代表ALT第二个碱基,以此类推;比如 REF列为:A, ALT列为G,T;那么0/1基因型为AG 杂合,1/1基因型为GG纯合SNP;1/2代表GT基因型;./.表示缺失;因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。

    • AD: Allele Depth,为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型;

    • DP: Depth,该样品该变异位点的测序深度总和,也就是AD两个数字的和;

    • PL: 指定的三种基因型的质量值。归一化后各基因型的可能性,通常有三个数字用','隔开,顺序对应AA,AB,BB基因型,A代表REF,B代表ALT(也就是0/0, 0/1, and 1/1),这三种基因型的概率总和为1。由于是归一化之后,数值越小代表基因型越可靠;那么最小的数字对应的基因型判读为该样品的最可能的基因型。Phred值 = -10 * log (p) p为基因型存在的概率。

    • GQ: Genotype Quality,针对PL的判读得到的基因型的质量值,Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性,此值越大基因型质量值越好,则Genotype的可能性越大。由于PL归一化之后通常最小的数字为0;那么基因型的质量值取PL中第二小的数字,如果第二小的数字大于99,我们只取99,因为在GATK中再大的值是没有意义的,第二小的数大于99的话一般说明基因型的判读是很可靠的,只有当第二小的数小于99的时候,才有必要怀疑基因型的可靠性;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

FORMAT[9] 和 R01[10]:这两行合起来提供了’R01(某个基因名)′这个sample的基因型的信息。’NA12878′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。

你可能感兴趣的:(vcf文件说明)