原创||宏基因组干货分享专题———组装

拿到宏基因组序列之后,首先要进行质控分析,这步的主要目的是去掉接头和低质量序列。质控结束之后,拿到了干净的数据。就要对基因序列进行组装,组装是一个繁琐且耗时久的一个过程。下面我就带领大家从组装原理到实战给朋友们进行讲解。

组装原理

什么是组装?

就是一个微生物群落里面的全部DNA被提取出来,然后被随机进行剪断、测序,得到一系列短序列;把这些短的序列拼接成连续的长序列过程就叫组装。
简单点说就是从短序列拼接到长的Scaffolds序列的过程。

原创||宏基因组干货分享专题———组装_第1张图片
为什么要进行组装?

组装之后,进行序列比对的计算时间更少
可以重建基因组
目前二代测序的序列读长比较短

怎样进行组装?

reads到contigs:基于reads之间的overlap区,拼接获得的Contig(重叠群)。
contigs到scaffold:构建双端序列库,确定Contig之间的顺序关系,并用N连接成scaffold。

原创||宏基因组干货分享专题———组装_第2张图片
组装实战练习

下面讲解近几年在宏基因组领域引用最多和组装效果比较好的两个组装软件,MEGAHIT和metaSPAdes。宏基因组很多分析软件就是在Linux操作系统上运行的,并很多支持conda一键安装,省去很多安装过程的烦恼。若没有安装conda的,请参考后期文章如何运用conda实现一键安装生信软件。

一、使用MEGAHIT进行组装

安装
git clone https://github.com/voutcn/megahit.git
cd megahit
make

用法
time megahit -t 8 --k-min 29 --k-max 171 --k-step 20 -1 pe_1.fq -2 pe_2.fq -o out

主要参数说明:
-h:显示参数详细信息
time:显示拼接完成的时间
-t : CPU线程数
-o :输出结果文件
–use-gpu:支持GPU运算
-1:双端序列pe1,一次可以输入多个,中间分别以逗号隔开
-2:双端序列pe2, 一次可以输入多个,中间分别以逗号隔开
–k-min:最小的k-mer值, 默认的是21
–k-max:最大的k-mer值, 默认的是141
–k-step:k-mer每次迭代的增幅(<= 28), 默认的是12

查看拼接结果
less out/final.contigs.fa

二、使用metaSPAdes进行组装(高复杂度数据推荐使用)

这里先介绍一下metaSPAdes跟SPAdes的关系。
SPAdes里面包含了一套工具,类似于肯德基的全家桶。例如下面五个用于各个领域的组装工具:metaSPAdes用于宏基因组数据的组装,rnaSPAdes用于RNA-seq数据的组装,truSPAdes用于truseq barcode序列的组装,dipSPAdes用于双倍型高杂合度基因组的组装。

安装

SPAdes支持conda一键安装
conda install -c bioconda spades(是不是很方便,真的是一键搞定)

用法

metaspades.py –t 8 -k 21,33,55,77,99,127 --careful --pe1-1 R1.fastq --pe-2 R2.fastq -o spades_output

主要参数说明:
-k :k-mer的设置数,如果有多个数,中间要以逗号隔开,必须是奇数且最大设置数为127
–pe-2 和–pe1-1:输入双端序列fq文件
-t :CPU线程数
–careful:减少不匹配和插入缺失的数量
-m:使用内存数设置

MEGAHIT和metaSPAdes组装性能评估:

2018年发表在Journal of Microbiological Methods一篇综述评估了各个组装工具的拼接效果。[1]
高复杂度数据拼接如下图:
原创||宏基因组干货分享专题———组装_第3张图片
在进行高复杂度的组装时,metaSPAdes的N50比MEGAHIT大,拼接的contigs比MEGAHIT长,AQI拼接质量指数比MEGAHIT大。

2017年发表在BMC Genomic上的一篇文章对各个组装工具的内存消耗及组装时间进行了评估 [2]

原创||宏基因组干货分享专题———组装_第4张图片
MetaSPAdes消耗时间和内存消耗都比MEGAHIT大。

总结:MEGAHIT组装快,耗时少,占用内存小,支持GPU运算。
MetaSPAdes组装质量高(能拼接出更长的contigs),耗时长,内存消耗大。支持多数据混拼,对iontorrent、pacbio、nanopore等数据都支持。
如果数据量大,项目周期时间紧,硬件配置一般,推荐使用MEGAHIT。若数据量小,想得到精确的组装质量,并且有足够的项目周期时间,推荐使用metaSPAdes进行组装。

最后
这期的讲解就到这里,内容不在于多,能让大家轻松理解就行。
代码要勤加练习,多动手去操作,自然而然就明白各个参数和命令的具体用法了。
下期继续讲精彩的宏基因组专题——分箱。

参考文献:
[1] Practical evaluation of 11 de novo assemblers in metagenome assembly. J. Microbiol. Methods 2018

[2] Assembling metagenomes, one community at a time. BMC Genomics. 2017

同步到微信公众号:Microbial Ecology

欢迎朋友们作出评论和建议


你可能感兴趣的:(宏基因组,大数据)