简介不同的文件格之Fasta格式

在浏览核酸蛋白质数据库的时候会经常遇见不同的文件格式,常见的有Fasta格式文件、NBRF/PIR格式文件、 EMBL/SWISSPROT格式文件、Clustal(*.aln)格式文件、GCG/MSF(Pileup)格式文件、RSF 格式文件、GDE格式文件、Mega格式文件、Genbank格式文件、NEXUS格式文件、Phylip格式文件等。

Fasta格式

Fasta格式包含序列文件和质量文件

1.Fasta序列文件格式是核酸蛋白数据最常见的一种文件格式,第一行以'<'开头引导的序列名称开始,后面接序列的详细信息,随后的行接序列,每一行序列长度不超过80。序列由标准的IUB/IUPAC氨基酸和核酸代码表,出常见的ATCGU、20种常见氨基酸外还有下表1.1和1.2中代表的字符,'-'代表不明长度的字符序列。

2.Fasta格式质量文件第一行和序列文件一样,只是序列部分对应的是每个碱基的质量,用空格分隔。


简介不同的文件格之Fasta格式_第1张图片
表1.1

简介不同的文件格之Fasta格式_第2张图片
表1.2

Fasta格式序列文件


简介不同的文件格之Fasta格式_第3张图片
氨基酸序列文件

简介不同的文件格之Fasta格式_第4张图片
核酸序列文件

简介不同的文件格之Fasta格式_第5张图片
DNA质量文件

你可能感兴趣的:(简介不同的文件格之Fasta格式)