fastqc结果判读(2018-05-25)

转自 https://blog.csdn.net/gateswell/article/details/78858579


使用的是raw date数据,数据质量还是比较好的,不过要进一步用还是需要过滤。

拿到原始数据后我们采用fastqC程序进行质控,看原始数据质量情况,fastqC会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求,fastqC总结如下:

fastqc结果判读(2018-05-25)_第1张图片

FastqC有3种结果:绿色代表PASS;黄色代表WARN;红色代表FAIL。

当出现黄色时说明需要查看结果。

Basic statistics是该fastq一些基本信息,主要有

fastqc结果判读(2018-05-25)_第2张图片
数据基本信息

Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用

Total Sequences: 输入文本的reads的数量

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。

fastqc结果判读(2018-05-25)_第3张图片
数据质量

(最主要看得数据信息)

横轴为read长度,纵轴为质量得分,Q = -10*log10(error P)。

柱状表示该位置所有序列的测序质量的统计,柱状是25%~75%区间质量分布,error bar是10%~90%区间质量分布,蓝线表示平均数。一般要求所有位置的10%分位数大于20,即大于最多允许该位置10%的序列低于Q20。当任何碱基质量低于10,或者任何中位数低于25报WARN,需注意;当任何碱基质量低于5或者任何中位数低于20报FAIL。这个结果相对来说还是比较好的。


fastqc结果判读(2018-05-25)_第4张图片
tail测序情况

每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。

当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。

fastqc结果判读(2018-05-25)_第5张图片

横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好。

fastqc结果判读(2018-05-25)_第6张图片

横轴为碱基长度分布,纵轴表示百分比,图中4条线分别代表A,C,T,G在每个位置上的平均含量。由于测序平台及测序长度不同,以及测序仪开始状态不稳定经常出现前后波动情况。

fastqc结果判读(2018-05-25)_第7张图片

横轴表示GC含量,纵轴表示不同GC含量对应的read数,蓝色为程序根据经验分布给出的理论值,红色是真实值,当红色出现双峰是表示混入了其他DNA序列。

fastqc结果判读(2018-05-25)_第8张图片

当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。

fastqc结果判读(2018-05-25)_第9张图片

理论上每次测序仪测出的read长度时一致的,但是由于建库等因素通常会导致一些小片段,如果报FAIL,表明此次测序过程中产生的数据不可信。

fastqc结果判读(2018-05-25)_第10张图片

统计序列完全一致的reads的频率,横轴表示重复的次数,纵轴表示重复的reads的数目。一般测序深度越高,越容易产生一定程度的重复序列。

fastqc结果判读(2018-05-25)_第11张图片

当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。

fastqc结果判读(2018-05-25)_第12张图片

横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。

重复短序列出现的次数,这个是没有经过clean的数据。

具体可像原文所说,查看具体信息:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

你可能感兴趣的:(fastqc结果判读(2018-05-25))