MultiQC使用

一、MultiQC的安装

1.先安装conda

我们先前安装过,但是发现不能用了,在网上查询后,发现问题,下面是解决方法
<参考https://www.jianshu.com/p/edaa744ea47d>

  • 下载conda时选择是否自动添加环境变量时,这里选择no,因为自动添加会干扰系统,致使conda不能用,然后输入以下命令运行conda
cd anaconda3/bin
chmod 777 activate #给activate添加一下权限才能使用conda
source ./activate #启动conda
  • 当命令行前面出现(base)的时候说明现在已经在conda的环境中了
    image.png
  • 注意用conda安装的软件必须在conda环境下
  • 之后的配置Python环境和配置conda channels步骤和老师ppt里讲的一致

2.安装MultiQC

  • 输入以下命令
conda install -c bioconda multiqc

-c这个参数很重要,通过它来指定软件下载的镜像位置

  • 使用以下命令查看是否安装成功
multiqc --version
或者
multiqc -h

发现安装成功
image.png
image.png

二、下载sra序列

1、下载数据

  • 在NCBI数据库里面的SRA数据库里随意找了两个SRR数据下载下来

  • 为防止太大,找了几个小一点的,如图所示


    1.PNG
    image.png
  • 使用下列命令下载下来

prefetch SRR8073294
prefetch SRR8073207
image.png

显示成功下载,下载后的内容放在~/ncbi/public/sra路径下

2、解压SRA文件为fastq格式

有两种方法解压

  • 一个一个解压
fastq-dump --gzip --split-files  SRR8073294.sra
fastq-dump --gzip --split-files  SRR8073207.sra
  • 批量下载
    我建议就单独解压,因为该文件下不止我们现在需要用的两个SRR,用prefetch下载的都在这里,除非在该路径下mkdir一个文件夹存放这两个数据

(1).新建脚本文件

vi fqdump.sh

(2).输入以下脚本

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

保存退出
这里--gzip参数是为了生成压缩的gz格式fastq文件,以节省磁盘空间
(3)运行脚本

sh fqdump.sh
  • 成功转换成以fastq.gz结尾的四个文件,因为是双端测序,每个样本有正向和反向两个文件
    image.png

三、用fastqc进行数据质量评价

fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz

得到以下结果
image.png

四、使用multiqc整合

<以下有些内容有所参考https://www.jianshu.com/p/85da4dcc6020里的内容>

  • 输入以下命令
multiqc .
  • 结果如下
    image.png
  • 生成了两个文件,1个html报告和1个multiqc_data的文件夹,前者直接网页打开就可以查看,后者包含一些数据基本的统计信息和日志文档


    image.png
  • 可以把multiqc_report.html 下载下来到本地,用windows的浏览器打开,也可以直接在图形界面打开查看

五、结果分析

1. General Statistics:所有样本数据基本情况统计

image.png

这里可以看到重复reads的比例、GC含量占总碱基的比例、测序长度、总测序量

2.Sequence Counts:序列计数

image.png

这里可以看到重复reads,我找的这四个序列重复reads比例都偏高,尤其是SRR8073207达到了90%以上,说明这两个样本的序列中有用的reads数目较少

3.Sequence Quality Histograms :每个read各位置碱基的平均测序质量

image.png

绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好
可以看出SRR8073207测序质量比SRR8073294的好,SRR8073294_2这个有点问题

4.Per Sequence Quality Scores 具有平均质量分数的reads的数量

image.png

绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好
可以看出这四个序列的整体测序质量还是很不错,所有的都在绿色区域

5.Per Base Sequence Content :每个read各位置碱基ATCG的比列

image.png

结果显示四个序列都报错,说明每个位置每种碱基出现的概率差别很大,可能有过表达序列的污染

6.Per Sequence GC Content :reads的平均GC含量

image.png

这里结果显示四条序列都被报错,从形状上来看曲线和正态曲线相差甚远,可能是由于文库的污染或是部分reads构成的子集有偏差造成的

7.Per Base N Content :每条reads各位置N碱基含量比例

image.png

说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基

8.Sequence Length Distribution 序列长度分布

image.png

对于这四个序列,每次测序仪测出来的长度主要都在251bp

9.Sequence Duplication Levels:每个序列的相对重复水平

image.png

四个序列中的重复的reads的程度都超过了范围,unique reads比例太少

10.Overrepresented sequences:文库中过表达序列的比例

image.png

这四个序列中过表达的序列的比例都远远超过1%,SRR8073294的两个序列中过表达的序列都超过50%,如果出现这种情况,不是这种转录本巨量表达,就是样品被污染

11.Adapter Content 接头含量

image.png

SRR8073294的两个序列接头含量比SRR8073207多,但两者接头含量都超过了5%,而且SRR8073294_1的接头含量接近10%

  • 总的来说这两个样本测序质量还行,但是重复序列太多了,没有多少有用的序列,GC含量不正常,很有可能样品存在被污染的情况。

你可能感兴趣的:(MultiQC使用)