GWAS基因型文件介绍——VCF文件

大家好,上一期介绍了GWAS的基本原理,中间提到了基因型数据。基因型数据的获取方式有很多,例如基因芯片、简化基因组测序、全基因组重测序等。在人类中通过基因芯片获取的测序数据往往需要依靠千人基因组等参考进行填补,以形成全基因组覆盖性的位点密度。承载这些基因型数据的文件也具有多种格式,一般用到的有vcf、ped/map、bed/bim/fam、hapmap、bgen等。不同的GWAS分析软件往往使用不同的格式,在GWAS研究中使用一种格式从一而终的情况是很少见的。那么我们就需要在格式之间进行转换,通常使用plink、plink2、TASSEL等软件即可完成。下面我将对vcf格式进行介绍。


vcf(Variant Calling Format)格式,前面##所开头的行我们称其为表头,记录了文件的一些基本信息及从文件生成之后对它所进行的一些操作。#开头的行是列名,前9列的列名是通用的。CHROM代表染色体。POS是染色体上的物理位置。ID是snp的名,在人类中如果参考基因组是37版本的话是rsid。REF和ALT分别代表参考和替代。QUAL是质量得分,表示该变异位点的可靠性。FILTER表示变异位点是否合格的筛选结果,可以是 PASS 或 FAIL。INFO用于存储附加信息,例如变异类型、覆盖深度、突变频率等。FORMAT比较复杂,不同的参数表示不同的意思,可以同时出现,中间以“:”分隔,代表了后面每个样本的数据格式,包括

GT:基因型,表示该样本的两个等位基因(allele)分别是哪两个碱基,如A/T

DP:测序深度,表示该样本在该位点的测序覆盖深度,如DP = 20

AD:每种等位基因的测序深度,例如 AD:10,20 表示第一个等位基因测序 10 次、第二个等位基因测序 20 次

AF:突变频率,表示该样本中突变等位基因的频率

GQ:基因质量,表示该基因型的可靠程度

越过前9列后面便是样本名,在做GWAS时与表型数据的样本名一一对应。

列名说完了便是行,vcf文件没有行名,每一行代表一个变异位点。

以上便是vcf文件的格式介绍,下一期将介绍GWAS基因型文件的其他格式,谢谢大家支持。

你可能感兴趣的:(GWAS基因型文件介绍——VCF文件)