1.3质控结果解读

以最差的一个为例

总览

本批次QC中最差的一个

绿色勾勾:合格的
黄色叹号:触到了警戒线
红色叉叉:不合格

1.基础数据

结果1

reads长度=150
GC含量=47%
reads数9.4kw

illumina可以达到2X150bp。reads长度符合仪器标准,GC含量符合理论

2.某一位置上所有读段的测序质量评分

结果2

绿(合格)、黄(警戒)、红(不合格)

3.每次荧光扫描的质量

结果3

蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。

4.读段的质量得分分布情况

结果4

序列长度为151bp,那么这151个位置每个位置Q值的平均值就是这条reads的质量值。该图横轴是0-40,表示Q值。

从图中可以看到红线为单峰(窄而高),并且分值在36(>>20),所以每条reads的可靠性很高。

5.每个位置的4种碱基的比例图

5

G%比值不太对,而且不太配对...

四条线总体平行行走于25%水平线说明总体质量可以,问题出在前10个位置,四条线严重分离,说明有碱基偏向性,很可能就是接头序列。

6.GC含量分布图

6

果然是GC含量偏高

7.每个位置上N的比例

7

红线接近0,说明几乎所有位置都被识别为ATCG之一。

8.读段长度分布

8

所有reads长度都是150

9.序列重复的水平

9

重复次数为一次的比例越高越好。统计序列完全一致的reads的频率,横轴表示重复的次数,纵轴表示重复的reads的数目。一般测序深度越高,越容易产生一定程度的重复序列。

10.序列重复的水平

10

大量超过0.1%的重复,通过ncbi blast发现支原体污染....
支原体污染

如果有某个序列大量出现,就叫做over-represented。fastqc的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“。https://www.jianshu.com/p/dacedb7f6e2f

11.每一位置上是常用接头序列的比例

11

横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。

12.结果分析

GC含量偏高,重复序列过多,原因可能有两个,一个是支原体污染,一个是adapter残余


参考文献

要充分了解你的测序数据--论QC的重要性http://www.biotrainee.com/thread-324-1-1.html
FastQC的基本介绍https://www.jianshu.com/p/fe6af418a8bc
FastqC结果简介https://blog.csdn.net/gateswell/article/details/78858579
(3)转录组之数据质控https://www.jianshu.com/p/2ed3622ed4a8

如何处理fastqc报告中duplication level报错的问题https://www.bioinfo.info/?/question/21

首先,对于FastQC duplication衡量的问题,应该先考虑是什么建库方式。是DNA重测序,还是RNA-Seq,如果是RNA-Seq duplication level报警是很容易的,因为很多gene存在多拷贝的情况。其次,那么这个duplication到底严不严重,或者后续怎么处理呢,目前没有唯一的定论。但是有这么几个原则:
[]RNA-Seq一般不去duplication,除非是设计了UMI或者random barcode,如果设计了这些序列,在reads水平进行去duplication,单端reads推荐seqkit工具,双端测序推荐UniqFast去reads的duplication;[/][]DNA-Seq一般在比对完以后,用picard 里面的MarkDuplicates 模块去duplication;[/][]DNA测序中,酶切打断一般去duplication,超声打断一般不去 duplication;[/][]常见的ChIP-Seq不需要去duplication。

你可能感兴趣的:(1.3质控结果解读)