一文读懂FastQC Report

前言：从今天开始就开始为拼装转录组做准备啦，今天听了技能树组织的生信人论坛，感觉很有意思。特此声明：本文所有代码及文件经通过本人亲自实践！绝对没有副作用！当然希望大家多提出宝贵意见，这样可以方便我更好的学习和进步。

特别注意：本文所用数据已经经过Trimmomatic清洗！

Basic Statistics

总览，来判断测序质量

图1 Basic Statistics

Encoding：测序平台信息，我也不知道这个样本的测序信息对不对，所以这里就没有办法深入解释了。

Total Sequences：测序获得的reads数目，测序质量的重要评价手段。

Sequences flagged as poor quality：标记为差的碱基序列，这个貌似没有神马用处

Sequence length：测序获得长度

%GC：整个测序中碱基GC所占比例，一般有物种特异性。

注意：Sequence length GC

Per base sequence quality

图2 Per base sequence quality

横坐标：碱基所在的测序位置，这个一般根据不同测序平台会有不同。

纵坐标：测序质量。20%代表错误为1%的错误读取率，30%代表0.1%的错误读取率。

图例：箱线图，25-50-75%代表数据所处位置。

注意：理论来说好的测序结果应该都在绿色和黄色区域，红色区域代表测序质量较差。

Per tile sequence quality

图 3 Per tile sequence quality

横坐标：碱基所在的测序位置，这个一般根据不同测序平台会有不同。

纵坐标：tile的index编号（tile应该是flow cell - lane - tile中的单位。

注意：也是判定测序质量好和不好的依据，整张图应该以冷色调为主，如果出现大量暖色，则证明某些tail测序有些问题，在后期的处理过程中可以删掉那些暖色的tail。

Per sequence quality scores

1563507204317.png

从read的总体质量判定这次测序的质量，是质量分析的重要标准之一。

横坐标：测序质量。20%代表错误为1%的错误读取率，30%代表0.1%的错误读取率。

纵坐标：在该质量值下的read数目。

注意：峰应该集中在高质量区间，即图像起始点最好大于20。

Per base sequence content

图4 Per base sequence content

横坐标：还是碱基的数目

纵坐标：碱基的百分比

注意：ATCG碱基分布应该差异不大。两条紧挨着的线：AT、CG误差应小于10%，若大于该比值则认为测序风险大。由于测序仪调整造成前几个测序结果略有误差，同时也有同学指出可能是含有接头序列所导致的碱基偏好，可以通过后期工作将前几个碱基删掉。在本案例中由于测序质量很好，就没有进行删除操作（ps 查了几个资料，大家争议比较大，建议还是根据自身情况进行确定，至于删除与否建议参考biostar相关的帖子）。

Per sequence GC content

图5 Per sequence GC content

横坐标：每个read的平均GC比

纵坐标：该GC比下，read的数量

注意：蓝色是理论值，测序结果趋向蓝色越好。如果有其它污染会导致双峰图样。

Per base N content

图6 Per base N content

横坐标：又是碱基数目。

纵坐标：N（未知碱基）所占比例。

注意：未知碱基数目越少越好。

Sequence Length Distribution

[图片上传失败...(image-ee9921-1564222758518)]

横坐标：read的长度，本文中应该是125。

纵坐标：代表在该长度下read数目的多少。

Sequence Duplication Levels

图7 Sequence Duplication Levels

横坐标：序列重复等级

纵坐标：重复数量

注意：在测序建库PCR过程中，由一些基因扩增次数过多导致。重复次数为一次的比例越高越好。但由于本文中使用的是转录组数据，偏高正常，一旦移除会对后面定量分析计算带来困扰。

Overrepresented sequences

图8 Overrepresented sequences

大量重复序列：FastQC检测出的大量重复序列。

Adapter Content

图9 Adapter Content

横坐标：又又又是碱基所在位置。

纵坐标：接头所占比例。

注意：当FastQC参数中 -a中没有参数时，默认使用四种lillmina接头进行匹配。

Kmer Content

图10 Kmer Content

横坐标：又又又又是相同的内容。

纵坐标：观测值和预测值的比值。

注意：啥是K-mer啊？具体可以看参考资料5。其实就是一段短小的重复序列。

图11 K-mer统计图

这是前面k-mer=5时（软件默认）生成的表格，主要用于检查数量情况。

参考资料：

(3)转录组之数据质控 https://www.jianshu.com/p/2ed3622ed4a8
【转录组入门】3：了解fastq测序数据 https://www.cnblogs.com/chenpeng1024/p/9166988.html
利用fastqc检测原始序列的质量 https://www.jianshu.com/p/a1eb03d63083
Question: Sequence duplication levels-RNA Seq https://www.biostars.org/p/307361/
Kmer content http://seqanswers.com/forums/showthread.php?t=16262
FastQC analyses of trimmed MiSeq reads kmer content http://seqanswers.com/forums/showthread.php?t=40646
Question: Kmer content failed in FastQC analysis https://www.biostars.org/p/340112/