一文读懂FastQC Report

前言:从今天开始就开始为拼装转录组做准备啦,今天听了技能树组织的生信人论坛,感觉很有意思。特此声明:本文所有代码及文件经通过本人亲自实践!绝对没有副作用!当然希望大家多提出宝贵意见,这样可以方便我更好的学习和进步。

特别注意:本文所用数据已经经过Trimmomatic清洗!

Basic Statistics

总览,来判断测序质量

图1 Basic Statistics

Encoding:测序平台信息,我也不知道这个样本的测序信息对不对,所以这里就没有办法深入解释了。

Total Sequences:测序获得的reads数目,测序质量的重要评价手段。

Sequences flagged as poor quality:标记为差的碱基序列,这个貌似没有神马用处

Sequence length:测序获得长度

%GC:整个测序中碱基GC所占比例,一般有物种特异性。

注意:Sequence length GC

Per base sequence quality

图2 Per base sequence quality

横坐标:碱基所在的测序位置,这个一般根据不同测序平台会有不同。

纵坐标:测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

图例:箱线图,25-50-75%代表数据所处位置。

注意:理论来说好的测序结果应该都在绿色和黄色区域,红色区域代表测序质量较差。

Per tile sequence quality

图 3 Per tile sequence quality

横坐标:碱基所在的测序位置,这个一般根据不同测序平台会有不同。

纵坐标:tile的index编号(tile应该是flow cell - lane - tile中的单位。

注意:也是判定测序质量好和不好的依据,整张图应该以冷色调为主,如果出现大量暖色,则证明某些tail测序有些问题,在后期的处理过程中可以删掉那些暖色的tail。

Per sequence quality scores

1563507204317.png

从read的总体质量判定这次测序的质量,是质量分析的重要标准之一。

横坐标:测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

纵坐标:在该质量值下的read数目。

注意:峰应该集中在高质量区间,即图像起始点最好大于20。

Per base sequence content

图4 Per base sequence content

横坐标:还是碱基的数目

纵坐标:碱基的百分比

注意:ATCG碱基分布应该差异不大。两条紧挨着的线:AT、CG误差应小于10%,若大于该比值则认为测序风险大。由于测序仪调整造成前几个测序结果略有误差,同时也有同学指出可能是含有接头序列所导致的碱基偏好,可以通过后期工作将前几个碱基删掉。在本案例中由于测序质量很好,就没有进行删除操作(ps 查了几个资料,大家争议比较大,建议还是根据自身情况进行确定,至于删除与否建议参考biostar相关的帖子)。

Per sequence GC content

图5 Per sequence GC content

横坐标:每个read的平均GC比

纵坐标:该GC比下,read的数量

注意:蓝色是理论值,测序结果趋向蓝色越好。如果有其它污染会导致双峰图样。

Per base N content

图6 Per base N content

横坐标:又是碱基数目。

纵坐标:N(未知碱基)所占比例。

注意:未知碱基数目越少越好。

Sequence Length Distribution

[图片上传失败...(image-ee9921-1564222758518)]

横坐标:read的长度,本文中应该是125。

纵坐标:代表在该长度下read数目的多少。

Sequence Duplication Levels

图7 Sequence Duplication Levels

横坐标:序列重复等级

纵坐标:重复数量

注意:在测序建库PCR过程中,由一些基因扩增次数过多导致。重复次数为一次的比例越高越好。但由于本文中使用的是转录组数据,偏高正常,一旦移除会对后面定量分析计算带来困扰。

Overrepresented sequences

图8 Overrepresented sequences

大量重复序列:FastQC检测出的大量重复序列。

Adapter Content

图9 Adapter Content

横坐标:又又又是碱基所在位置。

纵坐标:接头所占比例。

注意:当FastQC参数中 -a中没有参数时,默认使用四种lillmina接头进行匹配。

Kmer Content

图10 Kmer Content

横坐标:又又又又是相同的内容。

纵坐标:观测值和预测值的比值。

注意:啥是K-mer啊?具体可以看参考资料5。其实就是一段短小的重复序列。

图11 K-mer统计图

这是前面k-mer=5时(软件默认)生成的表格,主要用于检查数量情况。

参考资料:

  1. (3)转录组之数据质控 https://www.jianshu.com/p/2ed3622ed4a8

  2. 【转录组入门】3:了解fastq测序数据 https://www.cnblogs.com/chenpeng1024/p/9166988.html

  3. 利用fastqc检测原始序列的质量 https://www.jianshu.com/p/a1eb03d63083

  4. Question: Sequence duplication levels-RNA Seq https://www.biostars.org/p/307361/

  5. Kmer content http://seqanswers.com/forums/showthread.php?t=16262

  6. FastQC analyses of trimmed MiSeq reads kmer content http://seqanswers.com/forums/showthread.php?t=40646

  7. Question: Kmer content failed in FastQC analysis https://www.biostars.org/p/340112/

你可能感兴趣的:(一文读懂FastQC Report)