Fasta与Fastq格式文件

FASTA 文件格式

FASTA格式是一种用于表示核苷酸序列或多肽序列的文本格式。其中碱基对或氨基酸用单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。

FASTA文件各行记录信息如下:

第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的。

从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。注意有些程序对大小写有明确要求。一般每行60~80个字母。


image.png
核苷酸序列:

A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length

氨基酸序列:

A alanine P proline
B aspartate or asparagine Q glutamine
C cystine R arginine
D aspartate S serine
E glutamate T threonine
F phenylalanine U selenocysteine
G glycine V valine
H histidine W tryptophan
I isoleucine Y tyrosine
K lysine Z glutamate or glutamine
L leucine X any
M methionine * translation stop
N asparagine - gap of indeterminate length

FASTQ 文件格式

FASTQ是一种存储了生物序列以及相应的质量评价的文本格式。其序列以及质量信息都是使用一个ASCII字符标示,现在几乎是高通量测序的标准格式。
FASTQ文件中以四行最为一个基本单元,并对应一条序列的测序信息,各行记录信息如下:

第一行记录序列标识以及相关的描述信息,以‘@’开头,后面跟着序列的描述信息;

第二行为碱基序列;

第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;

第四行是第二行每个碱基对应的质量值,字符数跟第二行的序列是相等的。

image.png

你可能感兴趣的:(Fasta与Fastq格式文件)