生信格式之vcf格式

VCF format

一、VCF格式背景

1、VCF的由来

  • VCF(Variant Call Format)格式是记录测序结果里相对于参考序列的序列变异情况;
  • 一般用比对结果产生的bam文件作为输入,利用GATK等variant calling软件,以及参考基因组等数据综合分析最终产生VCF结果

2、基因组变异类型

如下图一般可分为三大类变异

(1)SNP
  • single nucleotide polymorphisms,单核苷酸多态性
  • 指一种碱基变为另一种碱基
SNP&INDEL
(2)INDEL
  • 指insert 插入& deletion删除 两种变异类型
  • INDEL发生变异的序列长度一般小于50bp
(3)SV
  • Structural Variant 结构变异
  • 这种涉及的类型比较多,变异程度较高,例如长片段序列的插入/删除,染色体倒位,拷贝数变异
三种变异类型

3、VCF记录变异的示例

  • 如下图3条reads在同一参考序列附近的比对结果


    image.png

    相比ref序列(1)第一行记录:染色体20的第三位发生了SNP变异(C→G);
    (2)第二行记录:染色体20的第三位的C被删除(INDEL);
    (3)第三行记录:染色体20的第三、四位之间插入了一个核苷酸A(INDEL)

  • 如下图,则为对应上图比对结果的VCF的简要记录格式
image.png
  • 当然,VCF格式记录是非常全面的(程度可以类比sam格式)。


    VCF format

二、VCF格式总结

  • VCF内容分为两大部分,第一部分是以##为标志的注释信息,第二部分则是对变异结果的全面记录。将直接从第二部分开始介绍,涉及到第一部分的注释会进行补充。
  • 变异记录部分的第一行为以#为开头的表头部分,就是列名
    image.png

第1列、CHROM

  • 即在哪条染色体发生的该行记录的基因变异;
  • 染色体名一般与注释部分的config条目结果一致,其中常见的ID与length两个flag分别指代染色体名与长度。


    VCF,config

第2列、POS

  • 指在染色体序列的什么位置发生了该变异;
  • 具体则是表示第4列 REF列记录的第一个碱基的位置,可参考上面那个小例子。
  • VCF的变异记录就是分别按第一、二列进行排序;

第3列、ID

  • 这一列表示在该染色体的该位置,发生该种变异是否在已有的变异数据库(在variant calling时提供)中有记录。
  • 若有,则该列的值就是对应的变异ID;若没有(novel variant,觉得是大部分情况),则就用点号.代替
    前5列

第4列、REF

  • 表示在参考序列的碱基,即variant calling的标准;
  • 对于SNP,很容易理解,就是变化的那个碱基(核苷酸);
  • 对于INDEL,REF的第一个碱基往往不是发生变异的那个碱基,可参考下图理解
  • 在注释部分的##reference条目说明了参考序列来源
    image.png

第5列、ALT

  • alternate base(s),说明相较于ref,具体发生了什么改变
  • 对于同一染色体的同一位置可能发生多种变异(尤其是对于多个样本的结果)时,用逗号,分隔;具体可参考上面两张图。
  • 对于SNP与INDEL的变异记录(较短序列)还比较容易理解,但是对于Structural Variant的结构变异(一般涉及较长序列)记录比较特殊,如下图所示(example:第二行变异记录表示An imprecise deletion of approximately 205 bp.)
    image.png

    (1)首先,ALT列用注释信息的Flag标签说明SV类型
    SV 注释信息

    SV types

    (2)然后在INFO列(第8列)补充SV变异的具体信息
    SVTYPE即SV类型;END表示SV的变异结束位置;SVLEN表示SV变异的序列长度;由于变异序列信息较长,起始位置估计可能不准确,CIPOSCIEND分别表示起始位置的置信区间。
    SV 注释信息

第6列、Quality

  • 表示对该行variant calling结果为wrong的可能性(错误率)大小;
  • 值类似fastq的比对质量分数经过-log10转换;即该列的值越大,表示这一行变异记录越可信。
    image.png

第7列、FILTER

  • 这一列是基于第六列错误率以及其它角度对变异结果的可靠性评价;
  • 若为PASS则表明符合一定过滤条件的质量合格的变异;若为.或者一些flag值则表明未通过筛选。常见的flag注释有q10s50等。
    image.png

If filters have not been applied, then this field should be set to the missing value.即全为点.

第8列、INFO

  • 补充additional information


    image.png
  • flag值的含义可在注释信息里找到


    image.png
  • 常见的有以下四个
    AC:allele count in genotypes,表示在变异的genotypes中,涉及到几个等位基因(对于人等二倍体生物,一般只有两个等位基因);
    AN: total number of alleles in called genotypes(二倍体AN=2);
    AF: allele frequency for each ALT allele。简单理解就是AC/AN
    DP:combined depth across samples;即所有样本里发生该变异的read数目。

对于第5列ALT列有2种的,则AC、AF值也分别有两种。其它INFO的flag就不一一介绍了,其中FSReadPosRandSumMQRankSum等是重要的过滤vcf的标准,之后可重点关注下。

第9+列、FORMAT

  • If genotype information is present, then the same types of data must be present for all samples
  • 即记录了每个样本的变异genotype信息


    image.png
  • 首先是FORMAT列写出了以冒号分隔的genotype相关flag值,具体含义可参看注释部分
    image.png

    如上两图,常见的有
    (1)GT:即表示genotype,就是该样本等位基因发生变异的情况,有如下几种取值(是我个人的理解,如有错误敬请指出)
    0|0可以理解为该sample在位点的reads均与ref一致;
    0|1或者1|0表示该sample在位点的一部分reads为REF类型,一部分为ALT类型;
    1|1表示sample在该位点的所有reads均为ALT类型;
    1|2则表示sample在该位点的一部分reads为第一种ALT类型;另一部分reads1位第二种类型。

The allele values are 0 for the reference allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on.
对于|\的区别, 官方介绍前者表示genotype phased,后者表示genotype unphased。目前我也还没完全理解,参考https://blog.csdn.net/samhuairen/article/details/70243930,https://www.biostars.org/p/5298/

image.png

(2)AD:allele depths,表示sample中该位点里不同allele的覆盖度,一般有两个,逗号分隔,分别表示REF(0)、ALT(1)的覆盖度。如果ALT有两种可能,则就有三个值。
(3)DP:表示sample中该位点的总覆盖度,一般为AD所有值的和。
(4)GQ:Genotype的质量值,类似第6列的含义,不过这里是针对每个样本的计算。
(5)PL:genotype likelihoods,指定的三种基因型(0/0,0/1,1/1)的质量值(provieds the likelihoods of the given genotypes);这三种基因型的原始概率总和为1,再经过-log10转换。值得注意就是该值越大,表明为该种基因型的可能性越小。所以最有可能的genotype的值为0(参考下图)。

image.png

参考文档链接
1、基因组变异检测概述http://www.360doc.com/content/18/1213/11/52645714_801492183.shtml
2、The Variant Call Format (VCF) Version 4.2 Specification https://github.com/samtools/hts-specs
3、VCF格式的学习及对VCF文件的统计https://www.jianshu.com/p/38f734ae47f5
PS:部分图片来自网上,侵删~

你可能感兴趣的:(生信格式之vcf格式)