分子序列数据库主要分为初级数据库和二级数据库。
初级数据库包括了核苷酸序列,蛋白质序列和蛋白质结构数据库,二级数据库是在初级数据库的基础上衍生而来的。
数据库主要由记录组成,包括了原始数据和生物信息学注释。两者理论上是位于同等重要的位置。
数据库的记录格式主要有FASTA,FASTQ,GFF,GTF,GBFF等。
(1)FASTA
FASTA格式也成为Pearson格式。主要用于储存DNA、RNA、蛋白序列。FASTA的最后一个字母A表示alignment的意思。通常核苷酸符号大小写均可,而氨基酸常用大写字母。
FASTA格式可以分为两部分,分别是首行以“>”开始的序列注释信息和序列信息。
例如:
sp|Q06787:表示数据库UniProtKB/Swiss-Prot的编码
FMR1_HUMAN Synaptic functional regulator FMR1:表示蛋白质的名称
OS=Homo sapiens:表示物种来源
OX=9606:表示物种的标识符
GN=FMR1:表示编码该蛋白的基因名字
PE=1:表示蛋白存在的可信值
SV=1:表示序列的版本号
FASTA格式的头部信息通常在不同的数据库中是比较混乱的,因此目前对此规定,头部信息包括必要的序列信息和额外可要可不要的注释信息。
详见的信息见FASTA headers (uniprot.org)
(2)FASTQ
FASTQ格式比FASTA格式多了序列的质量信息,由四行组成,一般储存的是测序仪产生的原始数据。
例如
@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
首行由@开始,DJB775P1:248:D0MDGACXX表示测序仪的设备名称;
7表示lane的编号
1202:tail的坐标
12362:在tail中的x坐标
49613:在tail中的y坐标
行2表示的测序的序列信息,以ATCGN表示,N无法判断是何种碱基。
行3:以“+”开始,储存附加的信息,也可以是空的,但是“+”不能省略。
行4:表示测序的质量信息,与行2的碱基一一对应。假设碱基判断错误率为p,那么质量值Q可以表示为:
从公式中很容易看出,错误率越低,质量值Q值越高。如果该碱基的测序错误率是0.01,那么质量值就是20(俗称Q20),如果是0.001,那么质量值就是30(俗称Q30)。行4的信息主要是Q+33/Q+64得到对应的ASCII值。
其实用ASCII值没什么特殊的含义,纯粹是看起来比较整齐美观。如果用数字表示,每个数字的位数不同,大小不一,丑!并且因为不是所有的ASCII码都是可见的字符,小于30的是一些空格,行换等字符,所以一般会加上一个固定值,使得ASCII值能表现为可见字符。
(3)GFF格式
GFF格式全称为Generic Feature Format,主要是为了表现基因上的特征序列,是由Sanger研究所定义的一种数据格式,由\t分割,GFF格式以#开头,现在大部分用的是version3的版本,除了注释外,可以分为9列。
行1:seqid,表示的是序列的名称,比如scaffold编号或者染色体号。
行2:source,注释来源,可以是基因的来源或是GFF文件产生的软件或者方法,如果未知的话一般会用“.”表示。
行3:type,表示的是对应的基因的类型,可以是CDS,exon,intron。
行4:start,区间的起始位置
行5:end,区间的结束位置
行6:score,可以是序列比对的E-value值,也可以是基因预测的P-value值。
行7:strand,标明正负链的信息。“+”表示正链,“-”表示负链,“?”表示无法识别是正链还是负链,“.”表示区别正负链无意义。
行8:phase,只针对CDS有意义,表示到达下一个密码子需要跳过的碱基的数量,可以是“0”,“1”,“2”。
行9:attribute,表示区间的众多属性,以tag=value这样的形式展示,一个列表中包含了多个字段,不同的属性之间以“;”分割。
(4)GTF格式
GTF全称Gene transfer format,是GFF发展而来的,所以可想而知,两者之间有很多相似的地方。包括都分为9列,由“\t”分隔,GFF的信息更加全面,GTF主要是用来显示基因和转录本的信息。一般认为GTF文件时GFF文件2.0版本。
GTF头部也包含了以“#”开头的注释信息
行1-8的格式和GTF基本相同,主要是行9的attribute有些许差异。以type value的形式呈现,中间以空格隔开。不同属性之间依旧以“;”分隔,attribute中必须有gene_id和transcript_id两个属性。
chr1 ensembl transcript 339070 350389 . - . gene_id "ENSBTAG00000006648"; gene_version "6"; transcript_id "ENSBTAT00000008737"; transcript_version "6"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_source "ensembl"; transcript_biotype "protein_coding";
这边显示的gene_id指的是gene的信息来自Ensembl数据库,以ENSG作为前缀,gene_version表示geneID的不同版本号,一个完整的基因ID应该包括ENSG编号和版本号,以“.”连接。gene_source表示gene的来源,gene_biotype表示基因类型,这边显示的protein_coding表示该基因编码蛋白。关于transcript相关的信息也大同小异。
GFF和GTF格式的文件在mapping的时候一个gene的elements并不在同一行,需要用循环一个个找出一个基因的不同的elements并挑选出来。
(5)GBFF文件
GBFF格式主要是GenBank数据库常用的数据记录格式。整体可以分为3部分:描述部分,注释部分和序列部分。
LOCUS NG_007529 39177 bp DNA linear PRI 02-AUG-2021
DEFINITION Homo sapiens FMRP translational regulator 1 (FMR1), RefSeqGene
(LRG_762) on chromosome X.
ACCESSION [NG_007529](https://www.ncbi.nlm.nih.gov/nuccore/NG_007529) REGION: 4961..44137
VERSION NG_007529.2
KEYWORDS RefSeq; RefSeqGene.
SOURCE Homo sapiens (human)
ORGANISM [Homo sapiens](https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9606)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 39177)
AUTHORS Sittler A, Devys D, Weber C and Mandel JL.
TITLE Alternative splicing of exon 14 determines nuclear or cytoplasmic
localisation of fmr1 protein isoforms
JOURNAL Hum Mol Genet 5 (1), 95-102 (1996)
PUBMED [8789445](https://www.ncbi.nlm.nih.gov/pubmed/8789445)
上图显示的就是基因的描述部分,包括了:
LOCUS表示基因的位置,长度,分子类型,数据更新的最后时间。
Definition描述基因的名称,是否为编码区,以及位于那条染色体上。
Accession:表示的是检索号,Version表示版本号,Source表示物种来源,Organism表述具体的物种分类,以及具体的Reference参考文献。
FEATURES Location/Qualifiers
source 1..39177
/organism="Homo sapiens"
/mol_type="genomic DNA"
/db_xref="taxon:[9606]"
/chromosome="X"
/map="Xq27.3"
gene 1..39177
/gene="FMR1"
/gene_synonym="FMRP; FRAXA; POF; POF1; POFX"
/note="FMRP translational regulator 1"
/db_xref="GeneID:[2332]"
/db_xref="HGNC:[HGNC:3775]"
/db_xref="MIM:[309550]"
mRNA join(1..280,9983..10035,13590..13683,16372..16443,
16709..16857,17998..18091,18178..18294,20475..20645,
20735..20813,24554..24663,25516..25650,26149..26211,
28626..28712,31181..31376,32919..33101,33584..33666,
36733..39177)
/gene="FMR1"
/gene_synonym="FMRP; FRAXA; POF; POF1; POFX"
/product="FMRP translational regulator 1, transcript
variant ISO1"
/transcript_id="[NM_002024.5]"
/db_xref="GeneID:[2332]"
/db_xref="LRG:t1"
/db_xref="HGNC:[HGNC:3775]"
/db_xref="MIM:[309550]"
exon 1..280
/gene="FMR1"
/gene_synonym="FMRP; FRAXA; POF; POF1; POFX"
/inference="alignment:Splign:2.1.0"
/number=1
CDS join(230..280,9983..10035,13590..13683,16372..16443,
16709..16857,17998..18091,18178..18294,20475..20645,
20735..20813,24554..24663,25516..25650,26149..26211,
28626..28712,31181..31376,32919..33101,33584..33666,
36733..36894)
/gene="FMR1"
/gene_synonym="FMRP; FRAXA; POF; POF1; POFX"
/note="isoform ISO1 is encoded by transcript variant ISO1;
fragile X mental retardation protein 1; synaptic
functional regulator FMR1; truncated FMRP; fragile X
mental retardation 1"
/codon_start=1
/product="synaptic functional regulator FMR1 isoform ISO1"
/protein_id="[NP_002015.1]"
/db_xref="CCDS:[CCDS14682.1]"
/db_xref="GeneID:[2332]"
/db_xref="LRG:p1"
/db_xref="HGNC:[HGNC:3775]"
/db_xref="MIM:[309550]"
/translation="MEELVVEVRGSNGAFYKAFVKDVHEDSITVAFENNWQPDRQIPF
HDVRFPPPVGYNKDINESDEVEVYSRANEKEPCCWWLAKVRMIKGEFYVIEYAACDAT
YNEIVTIERLRSVNPNKPATKDTFHKIKLDVPEDLRQMCAKEAAHKDFKKAVGAFSVT
YDPENYQLVILSINEVTSKRAHMLIDMHFRSLRTKLSLIMRNEEASKQLESSRQLASR
FHEQFIVREDLMGLAIGTHGANIQQARKVPGVTAIDLDEDTCTFHIYGEDQDAVKKAR
SFLEFAEDVIQVPRNLVGKVIGKNGKLIQEIVDKSGVVRVRIEAENEKNVPQEEEIMP
PNSLPSNNSRVGPNAPEEKKHLDIKENSTHFSQPNSTKVQRVLVASSVVAGESQKPEL
KAWQGMVPFVFVGTKDSIANATVLLDYHLNYLKEVDQLRLERLQIDEQLRQIGASSRP
PPNRTDKEKSYVTDDGQGMGRGSRPYRNRGHGRRGPGYTSGTNSEASNASETESDHRD
ELSDWSLAPTEEERESFLRRGDGRRRGGGGRGQGGRGRGGGFKGNDDHSRTDNRPRNP
REAKGRTTDGSLQIRVDCNNERSVHTKTLQNTSSEGSRLRTGKDRNQKKEKPDSVDGQ
QPLVNGVP"
misc_feature join(230..280,9983..10035,13590..13683,16372..16443,
16709..16857,17998..18091,18178..18216)
/gene="FMR1"
/gene_synonym="FMRP; FRAXA; POF; POF1; POFX"
/experiment="experimental evidence, no additional details
recorded"
/note="propagated from UniProtKB/Swiss-Prot (Q06787.1);
Region: Required for nuclear localization{ECO:0000250|UniProtKB:P35922}"
注释部分(Feature)描述基因和基因的产物,以及序列相关的生物学特征。对该序列的RNA,CDS和gene进行描述。
序列部分(Origin)展示的就是核苷酸序列,以“//”结尾。如果展示的是真核生物的基因,那么基因组中还包括了除了exon之外的部分。
参考:
从零开始完整学习全基因组测序(WGS)数据分析:第2节 FASTA和FASTQ | Public Library of Bioinformatics (plob.org)
GFF文件格式简介 - 云+社区 - 腾讯云 (tencent.com)
GTF文件格式简介 - 云+社区 - 腾讯云 (tencent.com)