生信课程笔记5-数据格式

FastA格式 

>gi|187608668|ref|NM001043364.2| Bombyx mori moricin (Mor), mRNA AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCC

  Fasta格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。 换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。

所有来源于NCBI的序列都有一个唯一的gi号“gi|gi_identifier”。gi号后面是序列的标识符,标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。 “ref|NM001043364.2|”表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。


FastQ格式

FastQ格式存储了生物序列以及相应的质量评价。最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

格式说明:FASTQ文件中每个序列通常有四行:

1.第一行:必须以“@”开头,后面跟着唯一的序列ID标识符,然后跟着可选的序列描述内容,标识符与描述内容用空格分开;

2.第二行:序列字符(核酸为[AGCTN],蛋白为氨基酸字符);

3.第三行:必须以“+”开头,后面跟着可选的ID标识符和可选的描述内容,如果“+”后面有内容,该内容必须与第一行“@”后的内容相同;

4.第四行:碱基质量字符,每个字符对应第二行相应位置碱基或氨基酸的质量,该字符可以按一定规则转换为碱基质量得分,碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。

碱基的质量(Phred quality score)Q = -10 log10 P。P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30。那么30+33=63,那么63对应的ASCII码为“?”。一般地,碱基质量从0-40,既ASCII码为从 “!”(0+33)到“I”(40+33)。

生信课程笔记5-数据格式_第1张图片
fastq
生信课程笔记5-数据格式_第2张图片
ASCII = 碱基的质量+33


SAM格式

SAM格式(Sequence Alignment/Map)是一种通用的比对格式,用来存储reads到参考序列的比对信息。SAM分为两部分,标头注释信息(header section)和比对结果部分(alignment section)

标头信息可有可无,都是以@开头,用不同的tag表示不同的信息。

@HD:符合标准的版本、对比序列的排列顺序

@SQ:参考序列说明

@RG:比对上的 reads 说明

@PG:使用说明

@Co:任意的说明信息

除注释外,每一行是一个read,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tab分割。必须字段的顺序固定,根据字段定义,可以为0或者*。

生信课程笔记5-数据格式_第3张图片
sam
生信课程笔记5-数据格式_第4张图片
sam的11个字段


BAM格式

BAM(Binary Alignment/Map)是SAM的二进制格式,保留了与SAM完成相同的内容信息,BAM文件占用储存空间更小,运算更快。

BAM文件中每行代表一条reads的比对信息,其中第一列是read的ID,第二列为FLAG(包括是否双端比对,比对位点是否唯一等信息),第三列为比对的染色体,第四列为比对的起始位置,第六列为CIGAR值,代表比对的具体方式(例60M2D80M代表60个碱基完美匹配+2个碱基缺失+80个碱基完美匹配)等等。

bam


GTF格式

提供基因位置的注释文件通常以GTF或GFF3格式呈现。有GTF文件后,就可以利用注释信息计算每个基因/转录本/外显子比对了多少reads,从而获取counts值。

第一列是染色体编号,第三列是本行的特征(feature),如gene、transcript、exon、CDS等(实际上大多数情况下,计算表达量只要带exon的行就够了),第四列和第五列是基因组起始和终止位置,第七列是正负链,第九列是注释信息(可以包括类似基因ID、转录本ID、基因名等信息)。

生信课程笔记5-数据格式_第5张图片
gtf

Stringtie输出的sample_out.gtf,记录的转录本表达量信息,包括每个外显子的覆盖度。

生信课程笔记5-数据格式_第6张图片
gtf


BED格式

BED(Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息。BED文件每行至少包括chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的,每行的格式要求一致。

在自定义BED文件时,前面可以有注释行,以“browser”或“track”开头,可以设置一些参数便于浏览器更好展示BED文件信息。但是,下游的一些分析工具,例如bedToBigBed,是不接受有注释的BED文件的。

chrom:染色体号,例如chr1、chrX。或scafflold的名字。

chromStart:feature在染色体上起始位置。染色体上第一个碱基位置标记为0。

chromEnd:feature在染色体上终止位置。染色体的末端位置没有包含到显示信息里面。

染色体上前100个碱基片段的位置位置标记为:chromStart=0, chromEnd=100。实际上,第100个碱基不属于当前片段中,当前片段的碱基应该是0-99。所以在BED文件中,起始位置从0开始,终止位置从1开始。

可选的9列:name,score,strand,thickStart,thickEnd,itemRgb,blockCount,blockSizes,blockStarts。


vcf格式

vcf格式(Variant Call Format)是用于记录variants(SNP / InDel)的文件格式。

vcf格式是存储变异位点的标准格式,可以用来表示单核苷酸多态性(SNP) 【在人类基因组中分布普遍并且密度比较大,总数超过107, 平均每300bp就有一个SNP】、插入缺失(InDel) 【也就是短片段的插入与缺失】、结构变异(SV) 【Structural Variant,大片段的插入与缺失】、拷贝数量变异(CNV) 【Copy Number Variant,比如一个基因在染色体的一条染色单体上的数目为1,但是在染色体复制过程中,复制结束后该基因在染色单体数目由1变成了2或者n。它发生的频率远远高于染色体结构变异,并且整个基因组中覆盖的核苷酸总数大大超过SNP的总数】。

生信课程笔记5-数据格式_第7张图片
vcf

VCF文件分为两部分内容:以“#”开头的注释部分和没有“#”开头的主体部分。注释部分有很多对VCF的介绍信息;主体部分包含10列数据,每一行代表一个variant的信息

##fileformat:VCF格式版本号

##FILTER:显示这个文件已经进行了过滤

##reference & contig:使用的参考基因组信息及参考基因组contig信息

##INFO行:是碱基位点的注释。每一行必须的四个标签是:ID、Number、Type、Description,主要有几个tag标记:AD、DP、GQ、GT、PL。

主体部分10列的范例: CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE(前8列必须要有)。

chrM(染色体) 150(变异的第一个位置) .(变异位点名称) T(参考序列该位置碱基) C(该位置变异的碱基) 7766.77(变异的质量值) PASS(是否要被过滤掉) AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904(NFO:variant的相关信息。) GT:AD:DP:GQ:PL(FORMAT:variants的格式) 1/1:0,175:175:99:7795,531,0(使用的样本名称)

1. CHROM:参考序列名称

2. POS:variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置)

3. ID:variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用‘.’

4. REF:参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)

5. ALT:variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化

6. QUAL:variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大。(表示变异碱基的可能性)

7. FILTER:此位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为variant。

8. INFO:variant的相关信息。AC:variant数目,AF:频率,AN:总数目,DP:reads覆盖度,FS:Fishers精确检验来检测strand bias而得到的Fhred格式的p值。

9. FORMAT:variants的格式,例如GT:AD:DP:GQ:PL。第9列是基因型信息的多个标签。GT(genotype),0/0表示sample中该位点为纯合位点,和REF的碱基类型一致;0/1表示sample中该位点为杂合突变。AD(Allele Depth)为sample中每一种allele(等位碱基)的reads覆盖度。DP(Depth)为sample中该位点的覆盖度。GQ(Genotype Quality)基因型的质量值,基因型存在的概率。PL(likelihood genotypes)指定的三种基因型的质量值,0/0,0/1,1/1。

10. SAMPLES:各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多于10列。


BCF格式

BCF是VCF的二进制文件。

你可能感兴趣的:(生信课程笔记5-数据格式)