2021-08-25

vcf文件格式：

VCF格式用于记录变异位点（SNP/InDel）的文件格式。

#开头注释部分

无#开头主体部分，主体部分包含10列数据，主体部分每一行代表一个变异位点信息。

主体部分10列代表的意义：

1、CHROM 参考序列名

2、POS变异位点所在的left-most位置（1-base position）。（发生变异的的位置的第一个碱基所在）

3、ID变异位点ID。同时对应着dbSNP数据库中的ID，若没有，使用默认使用 . 。

4、REF参考序列的等位基因（Allele）（等位碱基，即参考序列该位置的碱基类型及碱基数量）

5、ALT变异位点的等位基因，若有多个，则使用逗号分隔。（变异位点碱基）

6、QUAL变异位点的质量。Phred格式的数值，代表着此位点是纯合的概率。此值越大，概率越低，代表着此位点是变异位点的可能性越大。

7、FILTER此位点是否要被过滤掉。如果是PASS，则表示此位点可以考虑为变异位点。

8、INFO变异位点的相关信息。

9、FORMAT变异位点的格式，如GT：AD：DP：GQ：PL。

10、SAMPLEs : 各个样本的值，由BAM文件中＠RG下的SM标签所决定。这些值对应着第九列的各种格式。不同格式的值用冒号分开。每个样本对应着一列；多个样本则对应着多列，这种情况下列的数量会超过10列。

0/0表示sample中该位点为纯合位点，和REF的碱基类型一致0/1表示sample中该位点为杂合突变，有REF和ALT两个基因型（部分碱基和REF碱基类型一致，部分碱基和ALT碱基类型一致）1/1表示sample中该位点为纯合突变，总体突变类型和ALT碱基类型一致1/2表示sample中该位点为杂合突变，有ALT1和ALT2两个基因型（部分和ALT1碱基类型一致，部分和ALT2碱基类型一致）

GT - Estimated most likely genotype.

DS - Estimated alternate allele dosage [P(0/1)+2*P(1/1)].

HDS - Estimated phased haploid alternate allele dosage.

GP - Estimated Posterior Genotype Probabilities P(0/0), P(0/1) and P(1/1).

SD - Estimated Variance of Posterior Genotype Probabilities.

GT：样品的基因型（genotype）。两个数字中间用’/’分开，这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele； 1 表示样品中variant的allele； 2表示有第二个variant的allele。因此： 0/0 表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个基因型； 1/1 表示sample中该位点为纯合的，和variant一致。

AD 和 DP：AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值，前者对应ref基因型，后者对应variant基因型； DP（Depth）为sample中该位点的覆盖度。

GQ：基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值，表示在该位点该基因型存在的可能性；该值越高，则Genotype的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为基因型存在的概率。

PL：指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1)，这三种基因型的概率总和为1。和之前不一致，该值越大，表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

GFF文件（GFF3）

GFF全称Generic Feature Format, 描述了基因组上各种特征的区间信息，包括染色体，基因，转录本等。GFF文件本质上是一个\t分隔的，共9列的纯文本文件。

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源，可以是数据库的名称，比如来自genebank数据库，也可以是软件的名称，比如用GeneScan软件预测得到，当然，也可以为空，用.点号填充。

3. column3

第三列是type, 代表区间对应的特征类型，比如gene, exon等。

4. column4

第四列是start, 代表区间的起始位置。

5. column5

第四列是end, 代表区间的终止位置。

6. column6

第六列是score, 软件提供了统计值，如果没有，就用.填充。（得分，是注释信息可能性的说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值，“.”表示为空）

7. column7

第七列是strand, 代表正负链的信息, +表示正链，-表示负链，?表示不清楚正负链的信息，当正负链信息没有意义时，可以用.填充。

8. column8

第八列是phase，当描述的是CDS区间信息时，需要指定翻译时开始的位置，取值范围包括0,1,2。（这列注释信息仅对第三列为“CDS"的类型有效，表示起始编码的位置，有效值为0、1、2，0表示该编码框的第一个密码子第一个碱基位于其5'末端；1表示该编码框的第一个密码子的第一个碱基位于该编码区外；2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外）

9. column9

第九列是attributes, 表示属性，每种属性采用key=value 的形式，多个属性之间用;分号分隔。

ID 注释信息的编号，在一个GFF文件中必须唯一

Name 注释信息的名称，可以重复；

Alias 别名（Feature的第二个Name）

Parent 指明feature所从属的上一级ID。用于将exons聚集成transcript，将transripts聚集成gene

Note 备注

Dbxref 数据库索引

Genbank 基因库

CDS （蛋白质编码区）指成熟mRNA中能够翻译出一段蛋白产物的序列。

Is_circular 表明Feature是否为环化。用于环状基因组序列。

2021-08-25

你可能感兴趣的:(2021-08-25)