vcf文件格式:
VCF格式用于记录变异位点(SNP/InDel)的文件格式。
#开头注释部分
无#开头 主体部分,主体部分包含10列数据,主体部分每一行代表一个变异位点信息。
主体部分10列代表的意义:
1、CHROM 参考序列名
2、POS变异位点所在的left-most位置(1-base position)。(发生变异的的位置的第一个碱基所在)
3、ID变异位点ID。同时对应着dbSNP数据库中的ID,若没有,使用默认使用 . 。
4、REF参考序列的等位基因(Allele)(等位碱基,即参考序列该位置的碱基类型及碱基数量)
5、ALT变异位点的等位基因,若有多个,则使用逗号分隔。(变异位点碱基)
6、QUAL变异位点的质量。Phred格式的数值,代表着此位点是纯合的概率。此值越大,概率越低,代表着此位点是变异位点的可能性越大。
7、FILTER此位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为变异位点。
8、INFO变异位点的相关信息。
9、FORMAT变异位点的格式,如GT:AD:DP:GQ:PL。
10、SAMPLEs : 各个样本的值,由BAM文件中@RG下的SM标签所决定。这些值对应着第九列的各种格式。不同格式的值用冒号分开。每个样本对应着一列;多个样本则对应着多列,这种情况下列的数量会超过10列。
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)
GT - Estimated most likely genotype.
DS - Estimated alternate allele dosage [P(0/1)+2*P(1/1)].
HDS - Estimated phased haploid alternate allele dosage.
GP - Estimated Posterior Genotype Probabilities P(0/0), P(0/1) and P(1/1).
SD - Estimated Variance of Posterior Genotype Probabilities.
GT:样品的基因型(genotype)。两个数字中间用’/’分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。
AD 和 DP:AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度。
GQ:基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。
PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。
GFF文件(GFF3)
GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息,包括染色体,基因,转录本等。GFF文件本质上是一个\t分隔的,共9列的纯文本文件。
1. column1
第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
2. column2
第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自genebank数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。
3. column3
第三列是type, 代表区间对应的特征类型,比如gene, exon等。
4. column4
第四列是start, 代表区间的起始位置。
5. column5
第四列是end, 代表区间的终止位置。
6. column6
第六列是score, 软件提供了统计值,如果没有,就用.填充。(得分,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空)
7. column7
第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充。
8. column8
第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围包括0,1,2。(这列注释信息仅对第三列为“CDS"的类型有效,表示起始编码的位置,有效值为0、1、2,0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外)
9. column9
第九列是attributes, 表示属性,每种属性采用key=value 的形式,多个属性之间用;分号分隔。
ID 注释信息的编号,在一个GFF文件中必须唯一
Name 注释信息的名称,可以重复;
Alias 别名(Feature的第二个Name)
Parent 指明feature所从属的上一级ID。用于将exons聚集成transcript,将transripts聚集成gene
Note 备注
Dbxref 数据库索引
Genbank 基因库
CDS (蛋白质编码区)指成熟mRNA中能够翻译出一段蛋白产物的序列。
Is_circular 表明Feature是否为环化。用于环状基因组序列。