一文详解宏基因组组装工具Megahit安装及应用

要点

  1. Megahit简介

  2. Megahit的基本组装原理

  3. Megahit的安装和使用

  4. Megahit实战

hello,大家好,今天为大家带来关于宏基因组组装工具Megahit的超详细安装及应用教程。

我们将持续为大家带来生物医疗大数据分析一文详解系列文章,欢迎大家关注,可以更及时看到文章哦。

一、Megahit简介

Megahit是一款超速的宏基因组从头组装工具,由港大—华大基因联合实验室(HKU-BGI)开发,和其他基因组组装软件相比,Megahit在计算时间和内存消耗方面有着巨大优势,适用于土壤等复杂环境样本的组装和大量样本的混合组装[1,2]。

二、megahit的基本组装原理

Megahit采取的算法是基于kmer迭代的DBG法 (De-Bruijn Graph)。原文链接:https://doi.org/10.1093/bioinformatics/btv033,感兴趣的可以拓展阅读。

一文详解宏基因组组装工具Megahit安装及应用_第1张图片

编辑切换为全宽

 

如上图所示,Megahit首先将待组装的read分割为更小的k-mer片段,构建简化版的SdBG (succinct de Bruijn graphs ) [3]。

这里有三个动态的变量参数:最小的kmer长度Kmin,最大kmer长度Kmax,以及每次迭代kmer增加的步长Step。

1)Megahit首先使用最小的kmer:Kmin, 构建简化的de brujin图,然后移除de brujin图上的tips,合并bubbles,移除低覆盖度的边(此处和之前提到的SOAPdenovo的处理类似),这样就构建该kmer下的contig: Ck;

2)将当前的kmer增长为kmer+step,然后将该read和之前组装的contig(Ck-step)按现在的kmer大小进行kmer分割,继续之前SdBG构图操作,直到最终kmer大小达到Kmax则终止;

3)最后一次迭代得到的contig:Ck即最终组装结果。

三、megahit的安装和使用

3.1 安装

megahit的github链接为: https://github.com/voutcn/megahit。megahit的安装相对比较简单,可以通过以下三种方式,用户可以根据自己的实际情况选择。

1、Conda安装:

conda install -c bioconda megahit

2、直接下载二进制文件:

wget 
https://github.com/voutcn/megahit/releases/download/v1.2.9/MEGAHIT-1.2.9-Linux-x86_64-static.tar.gz 
tar zvxf MEGAHIT-1.2.9-Linux-x86_64-static.tar.gz   
cd MEGAHIT-1.2.9-Linux-x86_64-static/bin/ #可以看到目录下的可执行文件megahit

3、源码编译安装:

git clone https://github.com/voutcn/megahit.git 
cd megahit 
git

你可能感兴趣的:(生物医疗健康数据分析,生物信息学,数据分析,数据挖掘,linux)