2020-01-12 FASTQ文件可视化和质控(QC)

XII部分讲数据的质控,因为已经拿到数据了,就先从这一步开始做吧:




换算成第三张图的error values就可以可视化了。
但是error value非常不可靠,将error values作为一种建议而非精确的测量值(“treat them as an advisory rather than accurate measurements”)

FastQC工具

FastQC并不进行质控,只是可视化数据的质量。也是目前最好的FASTQ质量可视化工具

即使它是事实上的可视化标准,其结果也不总是最容易解释的。

  • 优点:
    该工具易于运行(仅需要Java),并且可以绘制出美观的图表。
  • 缺点:
    已针对Illumina平台进行了调试,在其他类型的数据上可能不稳定。
    某些精美图表并未提供足够信息或导致困惑。 例如K-MER图和Overrepresented Sequences图,并没有给出多数人希望给出的内容。
    可视化结果需要一个一个点开,不太方便。

FastQC如何工作

FastQC通过评估一小部分数据并将这些结果外推到整个数据集来生成报告。许多指标只在最初的200000个测量值上计算,然后通过其余数据进行跟踪。

FastQC工具的帮助文档:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help

如何运行FastQC执行可视化

下载示例数据

wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz
# 包含了illumina.fq, iontorrent.fq, pacbio.fq, minion.fq四个平台的.fq文件

head -10一下fastq文件


运行FastQC工具

fastqc illumina.fq

命令生成一个HTML文件,包含运行结果


感言:

  1. 对fq.gz使用tar没用
  2. gunzip不知是否是没有指定目标文件的缘故,原压缩文件在解压后消失了。。7G的压缩文件变成了33G
  3. 随后执行fastqc QFPG_2.fq
  4. 生成的html在服务器上,使用Xftp 6软件进行传输

FastQC可视化结果
参考博文:《FastQC数据质控报告的详细解读》
https://www.jianshu.com/p/dc6820eb342e

  • 基本信息,序列长度150bp,GC含量52%,总共测了90million的序列
    Conventional base calls什么意思..

  • 每个序列reads的质量,前几个read是质量慢慢升高,稳定,最后下降



  • 每个tile的序列质量,tile应该指chip-lane-swath-tile



  • 序列平均质量的分布



  • 每个序列的碱基含量,为什么前15个reads碱基比例波动这么大!

  • 序列GC含量的分布,有3个峰,理论分布为正态分布?

  • N碱基的含量,第1个碱基N的百分比较高



  • 读长150bp,很稳



  • 序列重复水平,非unique reads占总数比例60%左右。横轴为序列重复水平,蓝线unique reads总数(蓝线)作为100%,重复2次序列占10%,重复>10次序列占10%,重复>10k序列占15%

  • 大量表达的序列



  • 接头含量



  • 重复短序列含量 这个图不怎懂


序列的质量控制

质量控制(QC)通过去除数据中可识别的错误来改善数据。 通常是数据采集后执行的第一步。
由于这是更改数据的过程,因此我们必须非常谨慎,理想情况下,我们只希望相同的 (same),更准确 (more accurate)的数据。由于QC不能把不好的数据变成有用的数据,不能对QC抱有不合理的期望。

一些观念上的错误

  1. 进行简单的QC后数据就可以使用了,不要浪费时间抠细节
  2. 不要反复调整QC,以似乎“改善”最终结果。 这样做的危险是过拟合——使数据与期望的结果匹配。

执行QC的时机

  1. 序列比对前:这时所有数据的QC protocol都是一样的
  2. 序列比对后:这时根据分析的不同执行不同的protocol

执行QC的具体步骤

  1. 可视化数据
  2. 当数据质量不错时,直接进行分析
  3. 若质量不可靠,执行QC,回到第1步

QC工具有多可靠

没多可靠。这是现实。
对于什么是“好数据”,充斥着各种主观的判断

QC同样会产生新的错误

每个QC步骤都会引入新的错误。
终极哲学问题:你是愿意处理仪器引起的错误,还是愿意处理校正仪器错误时引入的新的错误?
因此如果数据没问题,那就不要QC了。

QC工具列表

作者推荐Trimmomatic, BBDuk, flexbar, cutadapt
每个工具都包括了基本的QC方法和一些独特方法

列表

read质量修剪是

你可能感兴趣的:(2020-01-12 FASTQ文件可视化和质控(QC))