VCF (Variant Call Format)


举个栗子:

image.png

Meta informations

这块儿由##打头,第一行必须是VCF的版本信息

  1. INFO
    规定VCF主体部分INFO字段可能出现的变量和对应值的数目、类型
    比如,特殊地,##INFO=表示对于INFO字段中的AF键来说,它的值的数目跟alternative allele一样多 (Number=A的意思就是每个alternate allele一个值)。其它各种奇奇怪怪的特殊规定见参考文献
  2. FILTER
    规定VCF主体部分FILTER字段可能出现的类型,好像PASS不用特意规定?
  3. FORMAT
    这个比较重要,规定VCF主题部分FORMAT字段可能出现的类型。FORMAT字段与样本具体信息是对应的,信息由冒号分割。
    GT,GQ,DP,HQ分别表示基因型(genotype),基因型质量(genotype quality),片断覆盖度(read depth),单体型质量(haplotype quality)。片段覆盖度就是比对之后,有多少片段与这个位点有overlap(猜测可能可以作为基因型可信度的一个指标?read少的话,偶然情况比较大,得到的基因型可信度不高?)。
    GT是1|0表示这是个二倍体,1表示第一个alternate allele (对应ALT字段的第一个allele),0表示reference allele(对应REF字段中的allele),另外|表示该基因型已被分型(就是把allele属于两条染色体的哪个已经分配好了,具体算法得有利用富含杂合位点的片段来做的或者直接家系信息,GATK4应该有具体的实现)。如果是未分型的,则是1/0。如果是三倍体,则是类似0/1/0这种。

Data lines

  1. 固定的字段

  2. 样本基因型字段


参考:
https://github.com/samtools/hts-specs

你可能感兴趣的:(VCF (Variant Call Format))