生信课程笔记5-数据格式

FastA格式

>gi|187608668|ref|NM001043364.2| Bombyx mori moricin (Mor), mRNA AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCC

Fasta格式首先以大于号“>”开头，接着是序列的标识符，然后是序列的描述信息。换行后是序列信息，序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束。

FastQ格式

FastQ格式存储了生物序列以及相应的质量评价。最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

格式说明：FASTQ文件中每个序列通常有四行：

1.第一行：必须以“@”开头，后面跟着唯一的序列ID标识符，然后跟着可选的序列描述内容，标识符与描述内容用空格分开；

2.第二行：序列字符（核酸为[AGCTN]，蛋白为氨基酸字符）；

3.第三行：必须以“+”开头，后面跟着可选的ID标识符和可选的描述内容，如果“+”后面有内容，该内容必须与第一行“@”后的内容相同；

4.第四行：碱基质量字符，每个字符对应第二行相应位置碱基或氨基酸的质量，该字符可以按一定规则转换为碱基质量得分，碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。

碱基的质量（Phred quality score）Q = -10 log10 P。P代表该碱基被测序错误的概率，如果该碱基测序出错的概率为0.001，则Q应该为30。那么30+33=63，那么63对应的ASCII码为“？”。一般地，碱基质量从0-40，既ASCII码为从 “！”（0+33）到“I”（40+33）。

fastq

ASCII = 碱基的质量+33

SAM格式

SAM格式（Sequence Alignment/Map）是一种通用的比对格式，用来存储reads到参考序列的比对信息。SAM分为两部分，标头注释信息（header section）和比对结果部分（alignment section）。

标头信息可有可无，都是以@开头，用不同的tag表示不同的信息。

@HD：符合标准的版本、对比序列的排列顺序

@SQ：参考序列说明

@RG：比对上的 reads 说明

@PG：使用说明

@Co：任意的说明信息

除注释外，每一行是一个read，包括11个必须的字段（mandatory fields）和一个可选的字段，字段之间用tab分割。必须字段的顺序固定，根据字段定义，可以为0或者*。

sam

sam的11个字段

BAM格式

BAM（Binary Alignment/Map）是SAM的二进制格式，保留了与SAM完成相同的内容信息，BAM文件占用储存空间更小，运算更快。

BAM文件中每行代表一条reads的比对信息，其中第一列是read的ID，第二列为FLAG（包括是否双端比对，比对位点是否唯一等信息），第三列为比对的染色体，第四列为比对的起始位置，第六列为CIGAR值，代表比对的具体方式（例60M2D80M代表60个碱基完美匹配+2个碱基缺失+80个碱基完美匹配）等等。

bam

GTF格式

提供基因位置的注释文件通常以GTF或GFF3格式呈现。有GTF文件后，就可以利用注释信息计算每个基因/转录本/外显子比对了多少reads，从而获取counts值。

第一列是染色体编号，第三列是本行的特征（feature），如gene、transcript、exon、CDS等（实际上大多数情况下，计算表达量只要带exon的行就够了），第四列和第五列是基因组起始和终止位置，第七列是正负链，第九列是注释信息（可以包括类似基因ID、转录本ID、基因名等信息）。

gtf

Stringtie输出的sample_out.gtf，记录的转录本表达量信息，包括每个外显子的覆盖度。

gtf

BED格式

BED（Browser Extensible Data）格式文件就是通过规定行的内容来展示注释信息。BED文件每行至少包括chrom，chromStart，chromEnd三列；另外还可以添加额外的9列，这些列的顺序是固定的，每行的格式要求一致。

在自定义BED文件时，前面可以有注释行，以“browser”或“track”开头，可以设置一些参数便于浏览器更好展示BED文件信息。但是，下游的一些分析工具，例如bedToBigBed，是不接受有注释的BED文件的。

chrom：染色体号，例如chr1、chrX。或scafflold的名字。

chromStart：feature在染色体上起始位置。染色体上第一个碱基位置标记为0。

chromEnd：feature在染色体上终止位置。染色体的末端位置没有包含到显示信息里面。

染色体上前100个碱基片段的位置位置标记为：chromStart=0, chromEnd=100。实际上，第100个碱基不属于当前片段中，当前片段的碱基应该是0-99。所以在BED文件中，起始位置从0开始，终止位置从1开始。

可选的9列：name，score，strand，thickStart，thickEnd，itemRgb，blockCount，blockSizes，blockStarts。

vcf格式

vcf格式（Variant Call Format）是用于记录variants（SNP / InDel）的文件格式。

vcf格式是存储变异位点的标准格式，可以用来表示单核苷酸多态性(SNP) 【在人类基因组中分布普遍并且密度比较大，总数超过107，平均每300bp就有一个SNP】、插入缺失(InDel) 【也就是短片段的插入与缺失】、结构变异(SV) 【Structural Variant，大片段的插入与缺失】、拷贝数量变异(CNV) 【Copy Number Variant，比如一个基因在染色体的一条染色单体上的数目为1，但是在染色体复制过程中，复制结束后该基因在染色单体数目由1变成了2或者n。它发生的频率远远高于染色体结构变异，并且整个基因组中覆盖的核苷酸总数大大超过SNP的总数】。

vcf

VCF文件分为两部分内容：以“#”开头的注释部分和没有“#”开头的主体部分。注释部分有很多对VCF的介绍信息；主体部分包含10列数据，每一行代表一个variant的信息。

##fileformat：VCF格式版本号

##FILTER：显示这个文件已经进行了过滤

##reference & contig：使用的参考基因组信息及参考基因组contig信息

##INFO行：是碱基位点的注释。每一行必须的四个标签是：ID、Number、Type、Description，主要有几个tag标记：AD、DP、GQ、GT、PL。

主体部分10列的范例： CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE（前8列必须要有）。

chrM（染色体） 150（变异的第一个位置） .（变异位点名称） T（参考序列该位置碱基） C（该位置变异的碱基） 7766.77（变异的质量值） PASS（是否要被过滤掉） AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904（NFO：variant的相关信息。） GT:AD:DP:GQ:PL（FORMAT：variants的格式） 1/1:0,175:175:99:7795,531,0（使用的样本名称）

1. CHROM：参考序列名称

2. POS：variant所在的left-most位置(1-base position)（发生变异的位置的第一个碱基所在的位置）

3. ID：variant的ID。同时对应着dbSNP数据库中的ID，若没有，则默认使用‘.’

4. REF：参考序列的Allele，（等位碱基，即参考序列该位置的碱基类型及碱基数量）

5. ALT：variant的Allele，若有多个，则使用逗号分隔，（变异所支持的碱基类型及碱基数量）这里的碱基类型和碱基数量，对于SNP来说是单个碱基类型的编号，而对于Indel来说是指碱基个数的添加或缺失，以及碱基类型的变化

6. QUAL：variants的质量。Phred格式的数值，代表着此位点是纯合的概率，此值越大，则概率越低，代表着次位点是variants的可能性越大。（表示变异碱基的可能性）

7. FILTER：此位点是否要被过滤掉。如果是PASS，则表示此位点可以考虑为variant。

8. INFO：variant的相关信息。AC：variant数目，AF：频率，AN：总数目，DP：reads覆盖度，FS：Fishers精确检验来检测strand bias而得到的Fhred格式的p值。

9. FORMAT：variants的格式，例如GT:AD:DP:GQ:PL。第9列是基因型信息的多个标签。GT（genotype），0/0表示sample中该位点为纯合位点，和REF的碱基类型一致；0/1表示sample中该位点为杂合突变。AD(Allele Depth)为sample中每一种allele（等位碱基）的reads覆盖度。DP(Depth)为sample中该位点的覆盖度。GQ（Genotype Quality）基因型的质量值，基因型存在的概率。PL（likelihood genotypes）指定的三种基因型的质量值，0/0，0/1，1/1。

10. SAMPLES：各个Sample的值，由BAM文件中的@RG下的SM标签所决定，这些值对应着第9列的各个格式，不同格式的值用冒号分开，每一个sample对应着1列；多个samples则对应着多列，这种情况下列的数多于10列。

BCF格式

BCF是VCF的二进制文件。