MultiQC软件安装运行的过程

1.MultiQC介绍

不少生信工具都可以给样品生成一个评估结果,如FastQC、Qualimap 和RSeQC等 (39个转录组分析工具,120种组合评估)。但是几乎所有的质控工具都是针对单个样本生成一个报告,用户自己要逐一查找各个QC结果,十分耗时、重复又复杂,而且还不能快速看出所有样本的异同。MultiQC就能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件
———
版权声明:本文为CSDN博主「生信宝典」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qazplm12_3/article/details/84550515

2.安装MultiQC

我们之前已经安装了Anaconda,因此安装MultiQC非常简单,直接在命令行中输入以下命令:

conda install -c biocondamultiqc

—报错1:执行安装命令的时候出现错误,没有conda了???

image.png
—解决报错1:尝试了多种方法无果,最后查到可能是当python版本发生更改时,会发生此问题。当初的anaconda安装是anaconda3 配的python环境是python27。当我们安装了一个新软件包,可能python27和其他一些软件包一起更新了。这可能破坏了anaconda的基本环境。只能重新安装anaconda了。

注意,以前的教程都是教一路yes下来的,但是会有隐患,特别是当你的服务器之前有安装过软件的话,conda会污染你原来的环境,把你原来设置好的东西进行更改。具体的惨痛教训请参见:
Anaconda is a snake.
所以在询问是否将conda加入环境变量的时候选择no。
作者:卖萌哥
链接:https://www.jianshu.com/p/edaa744ea47d
来源:

  • 首先,我们需要删除旧的安装:
     rm -rf ~/anaconda3
     rm -rf ~/.condarc ~/.conda ~/.continuum
    
  • Anaconda安装:

此安装方法参照作者:卖萌哥
链接:https://www.jianshu.com/p/edaa744ea47d
来源:

注意在询问是否将conda加入环境变量的时候选择no
image.png
选择no之后,输入conda是会报找不到此命令的。那要如何启动呢?

cd到~/anaconda/bin目录下面,能看到有一个activate。

image.png

需要给activate添加一下权限才能使用
chmod 777 activate
image.png

启动conda
. ./activate

  • 相关配置:参照老师之前的课程


    配置
  • 重新安装成功:
wwwww77@wwwww77-VirtualBox:~$ conda --version
conda 4.5.4

问题解决,再次运行conda install -c bioconda multiqc安装成功

MultiQC安装成功

MultiQC的使用说明

3.用multiQC同时对2个以上fastq文件的数据质量做出评价

(一).首先用FastQC对测序数据进行质量评估

wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ fastqc SRR6232298_1.fastq.gz SRR6232298_2.fastq.gz
运行结束后生成html和zip文件,html文件可下载到Windows通过网页查看

FastQC运行结果

(二).然后用MultiQc整合结果,指定MultiQC要分析的文件路径即可

wwwww77@wwwww77-VirtualBox:~/Seqs/sra$ multiqc *_fastqc.zip
结果如下:

MultiQC运行结果

我们同样可以把multiqc_report.html文件下载到Windows上用网页查看。
image.png

(三).数据质量评价:

(1).General Statistics:每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。

1

(2).FastQC:MultiQC将FastQC运行的结果全整合在一起了,方便我们查看
2

(3).Sequence Counts:每个样本的序列计数,重复read的计数是个估计值。黑色部分表示重复序列的占比。

3

(4). Sequence Quality Histograms:每个read各位置碱基的平均测序质量。质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。所以落在绿色区间—质量很好;橙色区间——质量合理;红色区间——质量不好。
此处可以看出SRR6232298_2样本在约220个碱基后的测序质量平均线落在红色区间,也就是测序质量不合格。
4

(5).Per Sequence Quality Scores:具有平均质量分数的reads的数量。
横坐标代表的是平均序列质量分数,纵坐标则是落在该区域的reads数。由此图中可以看出低质量reads占整体reads的比例(估算各颜色区域曲线下面积)
这两个样本的高质量read占的百分比较大,故测序质量合格。
5

(6).Per Base Sequence Content :reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色,由此组成热图。上半部分是样本一,下半部分是样本二。由热图中可知:reads的前半部分大概14个bp左右的ATGC含量比例是非常不均匀的。
6

也可以分别查看样本中每个位置碱基出现的概率。

7

8

(7).Per Sequence GC Content :横坐标代表的是GC含量百分比,纵坐标是数量

正常的样本的GC含量曲线会趋近于正态分布曲线。正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

8

(8).Per Base N Content :每条reads各位置N碱基含量比例。从图中可以看出我们的样本N碱基含量很少,说明比对质量很好

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。

9

(9).Sequence Length Distribution :reads长度分布,当reads长度不一致时报”WARN”;当有长度为0的read时报“FAIL”。图中出现了黄色警告,表示reads长度不一致。
10

(10).Sequence Duplication Levels :通过统计不同拷贝数的reads的频率得出每个序列的相对重复水平。通过图片我可以看出reads首端重复频率很高,质量不是很好。

一般来说,测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。

11

(11).Overrepresented sequences :如果有某个序列大量出现,就叫做 overrepresented,fastqc 的标准是占全部 reads 的 0.1%以上。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报“FAIL”。结果显示这2 个样本的读取量少于 1%,这些读取由占值过多序列组成。
12

(12).Adapter Content :接头含量。从图中来看我们的样本还存在一部分接头,后续我们还需要去除接头和质量不好的reads,去污染等操作来进行数据过滤。
13

参考资料来自:
conda的安装与使用(2019-6-28更新)
Multiqc(转录组分析之质量评估)
整合QC质控结果的利器——MultiQC

学习通有关FastQC的课程

你可能感兴趣的:(MultiQC软件安装运行的过程)