fasta格式是一种非常简单的储存序列的格式(主要是把序列存储到数据库中的一种形式),可以储存核酸序列(RNA/DNA)和氨基酸序列(AA),主要包括2个部分:
>
开始的一行主要储存“序列的描述信息”;举例1: 人类血红蛋白 α \alpha α亚基的氨基酸序列:
>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
举例2: 人类血红蛋白 α \alpha α亚基对应的mRNA序列:
>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTGG
这条序列来自于NCBI的RefSeq数据库,所有来自于NCBI的序列都有一个gi号,是具有唯一性的数据库流水号,
gb|AF349571.1
是genebank编号的信息,后面是序列信息的详细描述(Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds)
RefSeq(reference sequence database) 基因参考序列数据库:是美国国家医学图书馆下属国家生物技术信息中心开发的基因参考序列数据库,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。
fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息,及其对应的测序质量信息。fastq格式文件中每个read由四行描述,如下:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT
+
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF
如何理解第四行的碱基质量信息?
测序仪在碱基读取过程中,荧光信号转化为碱基类型时,会不可避免得存在一定程度误判,因此每一个base calling都会伴随一个测序错误率P产生,用来判断该base的可信程度。为了fastq文件中,碱基质量值能和第二行的碱基序列信息一一对应,P必须以一个字符的形式储存。所以有以下3步转换:
1)P转换为Q
Q = − 10 ∗ l g P Q=-10*lgP Q=−10∗lgP (P以10为底取对数,再乘以-10);
当 p = 0.001 p=0.001 p=0.001时, Q = 30 Q=30 Q=30(代表该碱基测序错误的机率为千分之一)
2)Q转换为Phred值
P h r e d = Q + C Phred = Q+C Phred=Q+C(C同测序仪和版本有关)
例如:
3) 最后获得Phred值对应的ASCII字符
ASCII码对照表链接:https://tool.oschina.net/commons?type=4
就是我们看到的第四行 FFKKKFKKFKF
需要注意的是,NovaSeq将碱基质量分数做了进一步的简化(因为测序通量高,需要节约内存和存储资源),将碱基质量分数划分为几个区间(不同版本的仪器划分的区间不同,这里以3个为例):
- 高质量read:37(Q>30)
以上4种不同的质量情况对应ASCII码:# , ; F
@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
@
开头,后面是reads的ID以及其他信息,例如上例中 HWUSI-EAS100R
代表Illmina设备名称,6
代表flowcell中的第六个lane,73
代表第六个lane中的第73个tile,941:1973
代表该read在该tile中的x:y坐标信息;#0
,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分多个样本中的reads;/1
代表paired end中的前一个read;sanger
中心用Phred quality score来衡量该read中每个碱基的质量,既 − 10 ∗ lg P -10 *\lg P −10∗lgP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在第四行中该碱基对应的质量代表值即为“?”。illumina测序仪一个flowcell中包含8个lane,每个lane可以测一个样本或多样本的混合物,其中一个lane包含2列,每一列又包含60个tile,每一个tile又会种下不同的cluster,如下图所示:
一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。以上是sanger中心采用记录read测序质量的方法,Illumina起初没有完全依照sanger中心的方法来定义测序质量,而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。
因此,Illumina有更换了好几种版本,从1.3版本升级到1.5版本再到1.8,最后完全采用sanger中的规则来做。因此,现在Illumina给出的测序质量值完全可以参考刚说的sanger
方法。
1)library:样本DNA经过PCR扩增
2)lane:测序时的一条泳道,一个泳道可以只接受一个library的,也可以是多个library的,不同的library在两段是用不同的头序列连起来作为标识的。当接受多个library的时候也是一起出的结果,当我们需要的测序深度不是特别深的时候就可以采用这种办法,根据不同的接头序列将这些数据分开成为一个个单独样本的fastq数据,这也是经常为什么在跑fastqc(质控)可以看到那些非正常的过表达序列。当然,一个library的DNA也可以用多个泳道测,这在需要很高的测序深度的时候才采用该策略。可以考虑在后续的比对生成的bam文件那里把他们合并起来成为一个bam文件。
【1】fasta和fastq文件格式详解.
【2】Fastq文件格式解析
【3】ASCII对照表
【4】全球十大基因测序公司
【5】二代测序的fastq文件格式介绍