生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习。今天就昨天Day2-2的一些标记加以查询说明,仅供参考。

NGS基础

NGS分析注解

1. 质量分析软件

昨天提到,拿到数据后可以通过一些软件来评估测序质量的好坏,包括fastqc、multiqc、SolexaQA等。我们今天来了解一下multiqc和SolexaQA的使用。
multiqc
来自于博文:https://blog.csdn.net/qazplm12_3/article/details/84550515
原来multiqc是基于Phython的用于整合fastq质控结果的工具。通常质控工具给出的结果都是针对一个样品产生一个报告,而当样品数量繁多时,我们必须借助工具将其整合再分析。multiqc有如下几个优点:
1)能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;
2)支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;
3)支持整合68种软件分析的结果,而且支持的软件还在持续增加,也可以自己写作一个插件,具体见下图。
生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第1张图片
我并没有用过类似fastQC和multiQC这类的质控工具和整合工具,分析基因组数据也仅仅是停留在简单改改别人脚本再去跑的阶段,如有时间,可亲自试试,再来写写心得。
1.安装MultiQC
依赖python2.7+, 3.4+ 或者 3.5+

#pip安装
pip install git+https://github.com/ewels/MultiQC.git  #Installation with pip
#conda安装
conda install -c bioconda multiqc  # Installing with conda

pip
pip 是 Python 包管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能。目前如果你在 python.org 下载最新版本的安装包,则是已经自带了该工具。
Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。
pip 官网:https://pypi.org/project/pip/

  • 你可以通过以下命令来判断是否已安装:
pip --version
  • 若还未安装,可通过以下代码进行安装:
$ curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py   # 下载安装脚本
$ sudo python get-pip.py    # 运行安装脚本

conda
Conda 是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换。 Conda 是为 Python 程序创建的,适用于 Linux,OS X 和Windows,也可以打包和分发其他软件。
查了conda是什么,发现这篇写的很好,介绍了如何安装conda以及利用conda安装生信软件,以后可能会用到。
https://www.jianshu.com/p/edaa744ea47d

2. 运行MultiQC
直接指定MultiQC要分析的文件路径即可,若数据在当前目录下输入multiqc .即可。

multiqc .
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results
multiqc data/*_fastqc.zip
multiqc data/sample_1*

使用–ignore忽略掉某些文件

multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip

3. MultiQC报告解读(以RNA-Seq数据为例)
1. General Statistics
每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第2张图片
点击Plot可以对任意两种属性的评估结果做交互式二维图,若各样本均一性好,散点会比较集中,反之会出现某些离散的点,这样方便查看某些指标异常的离群样本。生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第3张图片
2. featureCounts
利用featureCounts工具计算每个基因外显子的reads数的结果展示。featureCounts不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量。功能类似的软件是HTSeq。
软件官网:http://bioinf.wehi.edu.au/featureCounts/
生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第4张图片
3. STAR
基于STAR比对工具的分析结果,STAR会将没有paired mapping的reads都剔除,避免single reads比对到基因组上;并且STAR对lower-quality(采用more soft-clipped和错配碱基)比对有较高的容忍度。
软件官网:https://github.com/alexdobin/STAR
更多分析工具比较见:转录组分析工具大比拼
生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第5张图片
4. Cutadapt
用cutadapt软件来对双端测序数据去除接头后的结果。

对测序数据进行过滤时cutadapt对测序数据进行识别、剪切并去除adapters, primers , poly_A等序列,移除被adapter污染的reads部分(指由于插入片段长度不够,测序仪读到的测序引物等序列)。具体见NGS基础 - 高通量测序原理。

软件官网:https://cutadapt.readthedocs.io/en/stable/
生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第6张图片
5. FastQC
MultiQC将fastqc工具分析得到的10个结果分别整合成一个模块,集中查看。

软件官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)_第7张图片
明天再来,先挑一些重要的标记查阅,纸上得来终觉浅,须知此事要躬行,共勉。

你可能感兴趣的:(NGS基础)