fastq 数据格式解析

概念介绍

Read 读段

Read 中文翻译: 读段,来自测序仪的raw data
一个Read 可能由多个片段组成, Read的索引是测序时的顺序

Sequencing quality 测序质量

测序仪在测序的时候,每次测出来的结果可能都不一样(仪器误差 序列长度等各方面因素), 所以往往需要多测几次,最后开决定是哪一个碱基。


fastq 数据格式解析_第1张图片
Phred_Figure_1.jpg

Sequencing quality 是度量测序仪测序质量的指标。
测序质量指标有很多种 , 最常用的的是Phred quality score。

Sequencing quality metrics can provide important information
about the accuracy of each step in this process, including library
preparation, base calling, read alignment, and variant calling. Base
calling accuracy, measured by the Phred quality score (Q score), is the
most common metric used to assess the accuracy of a sequencing
platform. It indicates the probability that a given base is called
incorrectly by the sequencer.

Phred quanlity score 测序质量分数

概念

illumina 质量分数说明
https://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf

Q scores are used to measure base calling accuracy, one of the most
common metrics for assessing sequencing data quality. Low Q scores
can lead to increased false-positive variant calls, resulting in inaccurate
conclusions and higher costs for validation experiments.

测序质量分数
Q Phred quality scores
P base-calling-error probabilities

简单来说 Q越大 就说明测序质量越好

Paste_Image.png

fastq 数据格式解析_第2张图片
Paste_Image.png

https://en.wikipedia.org/wiki/Phred_quality_score

格式

不同的测序仪采用不同的测序标准, 取值范围不同
在存入Fastq格式的时候往往需要将数值转换为单个字符,要将数值范围映射到ASCII码上

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;
Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+

测序仪产生的数据格式

不同测序仪,不同版本号,产出的数据格式不一定相同

测序平台 文件格式 说明
454测序 FASTA / FASTAQ
Illumina/Solexa FASTQ
SOLiD CSFASTA / QV.qual质量文件 测序结果包含峰值

下面的这四行就是一行Read(这里我们以FASTQ格式为例)

fastq 格式说明

@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

第一行: @文件识别标志 + Read ID

HWI-ST507:4:75:4291:2239#0/1

说明

数据 含义 说明
HWI-ST507 测序仪的唯一编号 -
4 测序通道 说明这批数据是在测序仪的第四通道测出来的
75 Read读长 代表每个Read的长度都是75bp
4291:2239 测序仪中的坐标数
#0 多样本测序时候的索引 #0 代表单样本测序
/1 每对paired-end 或者mate-pair的reads中的第一个

第二行:序列

第三行: + 文件标识标识 + Read ID

第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略

第四行:质量分数

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

对应到到该仪器版本所采用过的phred标准,对应的ascall码范围求得整数质量分数值

你可能感兴趣的:(fastq 数据格式解析)