MultiQC软件安装运行

安装步骤如下：

一、安装MultiQC

conda install -c bioconda multiqc

发现之前安装的conda用不了了，出现下面的问题

image.png

于是我去搜索了一下解决办法，以下解决方法借鉴https://www.jianshu.com/p/edaa744ea47d

1.删除原有安装包

rm -rf anaconda3

2.重新下载conda

sh Anaconda3-5.2.0-Linux-x86_64.sh

3.下载过程中，在其中是否需要将conda加入环境变量的时候选择No,因为下载的程序会随Python版本的更新而更新，但conda不会，反而会污染环境，所以需要我们手动添加环境变量

image.png

4.给activate添加权限，再启动conda

1 cd anaconda3
2 ls
3 cd bin
4 ls
5 chmod 777 activate
6 source ./activate

结果如下，命令前面出现base说明已经在conda环境下了

image.png

后面的python环境配置和conda channels环境配置在老师2.3PPT后面

二、正式开始安装MultiQC

1.

conda install -c bioconda multiqc

2.结果发现第一步执行失败，conda无法安装multiqc，处理方法引用https://blog.csdn.net/ada0915/article/details/78529877（该方法可能出现不稳定的情况）

#首先先添加清华的镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

#如果无法解决，则删除channels配置文件中部分内容

#具体操作如下:
#1、快速创建channels配置文件的备份(保险起见)
cp ~/.condarc{,.bak}

#查看配置文件的内容
cat ~/.condarc.bak 
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
  - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  - defaults
  - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
  - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/conda
  - bioconda
  - r
  - conda-forge
show_channel_urls: true

#2、删除部分内容
## 主要是删除此行： - defaults
#修改后配置文件的内容如下：
vim ~/.condarc
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
show_channel_urls: true

一般不建议使用这个方法，conda不能使用可能是安装之后没有更新python环境等一系列原因，实在不行就用pip下载

sudo apt-get install python-pip
pip install multiqc

三、下载SRA序列

1.从NCBI的SRA库中SRR序列

image.png

image.png

2.下载单个SRA文件

prefetch SRR7511222
prefetch SRR7511256

3.单个拆解SRA文件

fastq-dump --split-files SRR7511222
fastq-dump --split-files SRR7511256

结果如下

image.png

或批量拆散SRA文件
（引用https://www.jianshu.com/p/eeaa78f6c6c4）

（1）新建脚本文件

vim fqdump.sh

（2）输入以下内容

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

（3）运行

sh fqdump.sh

四、用fastqc进行数据质量评价

fastqc SRR7511222_1.fastq
fastqc SRR7511222_2.fastq
fastqc SRR7511256_1.fastq
fastqc SRR7511256_2.fastq

结果如下

image.png

通过Winscp或者共享文件夹下载到本地，用浏览器打开fastqc_report.html浏览

五、使用MultiQC

以下内容引用https://www.jianshu.com/p/85da4dcc6020

1.输入以下命令

cd ~/ncbi/public/sra
multiqc .

结果如下

image.png

生成两个文件，multiqc_report.html和multiqc_data,前者用网页查看，后者包含一些数据的基本信息和日志文档

2.整合的fastqc文件包括以下几部分

（1）General Statistics：所有样本数据基本情况统计

image.png

%Dups——重复reads的比例、%GC——GC含量占总碱基的比例，比例越小越好、M Seqs——总测序量（单位：millions）

（2）Sequence Counts：序列计数

image.png

黑色代表重复reads的数量，这四个reads重复序列都比较高，说明两个样本序列中有用的reads比较少。

（3）Sequence Quality Histograms：每个read各位置碱基的平均测序质量

image.png

横坐标——碱基的位置，纵坐标——质量分数，质量分数=-10log10p（p代表错误率），所以当质量分数为40的时候，p就是0.0001。此时说明测序质量非常好。绿色区间——质量很好，橙色区间——质量合理，红色区间——质量不好。如图可以看出我的四条序列总的质量都比较合理，SRR7511256-2在240个碱基之后平均质量都落在红色区域，测序质量不太好。

（4）PerSequence Quality Scores 具有平均质量分数的reads的数量

image.png

横坐标——平均序列质量分数，纵坐标——reads数，绿色区间——质量很好，橙色区间——质量合理，红色区间——质量不好，当峰值小于27时——warning，当峰值小于20时——fail，由此图中可以看出低质量reads占整体reads的比例（估算各颜色区域曲线下面积）。如图可以看出4条序列在28以后都是绿色位置，最高峰在35左右，总体测序质量不错。

（5）Per Base Sequence Content ：每个read各位置碱基ATCG的比列

image.png

reads每个位置的颜色显示由4种颜色的比例混合而成，哪一个碱基的比例大，则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。如图，reads每个位置的ATGC含量比例是非常不均匀的，都报错，可能有过表达的序列的污染。

（6）5 Per Sequence GC Content ：reads的平均GC含量

image.png

横坐标——GC含量百分比，纵坐标——数量，正常的样本的GC含量曲线会趋近于正态分布曲线，曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差，形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。如图，四个样本和正态分布曲线相差很远，说明有文库污染或者部分reads构成的子集有偏差。

（7）Per Base N Content ：每条reads各位置N碱基含量比例

image.png

横坐标——read中的位置，纵坐标——N的数量比，当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”，统计N的比率。正常情况下，N值非常小。如图，说明测序仪器能辨别每条reads的每个位置。

（8）Sequence Length Distribution 序列长度分布

image.png

该序列长度为250bp

（9）Sequence Duplication Levels：每个序列的相对重复水平

image.png

四个序列中的重复的reads的程度都超过了范围，unique reads比例太少。

（10）Overrepresented sequences：文库中过表达序列的比例

image.png

横坐标——过表达序列的比例，纵坐标——样本。如图这四个序列中过表达的序列的比例都远远超过1%，如果出现这种情况，不是这种转录本巨量表达，就是样品被污染。

（11） Adapter Content 接头含量

image.png

如图没有找到超过0.1%的接头序列含量。

MultiQC软件安装运行

一、安装MultiQC

1.删除原有安装包

2.重新下载conda

3.下载过程中，在其中是否需要将conda加入环境变量的时候选择No,因为下载的程序会随Python版本的更新而更新，但conda不会，反而会污染环境，所以需要我们手动添加环境变量 image.png

4.给activate添加权限，再启动conda

二、正式开始安装MultiQC

1.

2.结果发现第一步执行失败，conda无法安装multiqc，处理方法引用https://blog.csdn.net/ada0915/article/details/78529877（该方法可能出现不稳定的情况）

一般不建议使用这个方法，conda不能使用可能是安装之后没有更新python环境等一系列原因，实在不行就用pip下载

三、下载SRA序列

1.从NCBI的SRA库中SRR序列 image.png

2.下载单个SRA文件

3.单个拆解SRA文件

（1）新建脚本文件

（2）输入以下内容

（3）运行

四、用fastqc进行数据质量评价

五、使用MultiQC

1.输入以下命令

2.整合的fastqc文件包括以下几部分

（1）General Statistics：所有样本数据基本情况统计 image.png %Dups——重复reads的比例、%GC——GC含量占总碱基的比例，比例越小越好、M Seqs——总测序量（单位：millions）

（2）Sequence Counts：序列计数 image.png

（3）Sequence Quality Histograms：每个read各位置碱基的平均测序质量 image.png

（4）PerSequence Quality Scores 具有平均质量分数的reads的数量 image.png

（5）Per Base Sequence Content ：每个read各位置碱基ATCG的比列 image.png

（6）5 Per Sequence GC Content ：reads的平均GC含量 image.png

（7）Per Base N Content ：每条reads各位置N碱基含量比例 image.png

（8）Sequence Length Distribution 序列长度分布 image.png

（9）Sequence Duplication Levels：每个序列的相对重复水平 image.png

（10）Overrepresented sequences：文库中过表达序列的比例 image.png

（11） Adapter Content 接头含量 image.png

你可能感兴趣的:(MultiQC软件安装运行)

3.下载过程中，在其中是否需要将conda加入环境变量的时候选择No,因为下载的程序会随Python版本的更新而更新，但conda不会，反而会污染环境，所以需要我们手动添加环境变量

image.png

1.从NCBI的SRA库中SRR序列

image.png

（1）General Statistics：所有样本数据基本情况统计

image.png

%Dups——重复reads的比例、%GC——GC含量占总碱基的比例，比例越小越好、M Seqs——总测序量（单位：millions）

（2）Sequence Counts：序列计数

image.png

（3）Sequence Quality Histograms：每个read各位置碱基的平均测序质量

image.png

（4）PerSequence Quality Scores 具有平均质量分数的reads的数量

image.png

（5）Per Base Sequence Content ：每个read各位置碱基ATCG的比列

image.png

（6）5 Per Sequence GC Content ：reads的平均GC含量

image.png

（7）Per Base N Content ：每条reads各位置N碱基含量比例

image.png

（8）Sequence Length Distribution 序列长度分布

image.png

（9）Sequence Duplication Levels：每个序列的相对重复水平

image.png

（10）Overrepresented sequences：文库中过表达序列的比例

image.png

（11） Adapter Content 接头含量

image.png