利用masurca进行混合二、三代测序数据基因组组装

现在组装新基因组，一般用pacbio的hifi测序模式进行olc组装+Hi-c辅助组装染色体就行了，但是我们实验室以前测了一些基因组是低覆盖度的pacbio的clr模式测序+50x以上二代，没有HI-C数据做的泛基因组，还是有需求对这一部分组装进行改进。

该软件结合了debreijn 图和 Overlap-Layout-Consensus的方法，3.2.1版本以来masurca可以混合二代、三代数据进行基因组组装。

（按我的理解，2代组装用了debreijn 图，组装成super reads.然后以3代为骨架进行map比对，比对上的super reads 用OLC进行组装）

对计算资源的要求是：

1 10Mb : 16Gb 内存，8 + 核，10Gb 磁盘空间少于1小时

2 500Mb: 128Gb 内存，16个内核，1Tb 磁盘空间 1-2天

3 1Gb : 256Gb 内存，32 + 核，2Tb 磁盘空间 4-5天

4 3Gb: 512Gb 内存，32 + 核心，5Tb 磁盘空间 15-20天

5 30Gb : 1Tb 内存，64 + 核，10Tb + 磁盘空间 60-90天

所以各位自己看一下怎么搞。

安装

有人制作了bioconda的包，但是官方明确说明不能用bioconda安装……

1 安装numactl（必须要有，否则flye组装部分无法执行，然后程序弹出）

sudo apt-get install numactl

我搞了3-4天没组装成功，一直显示3代测序数据有问题，要我检查，但是也没查出毛病来，后面在某个论坛的旮旯里找到了一个回答，让安装这个，然后就没问题了。

2 下载boost最新版本，进行安装,

Boost C++ Libraries

下载完了，解压，进入文件夹

sudo ./boostrap.sh

sudo ./b2 install

然后就安装完毕了

3 安装masurca

GitHub - alekseyzimin/masurca 下载最新安装包

解压，进入文件夹

sh ./install.sh 会自动安装依赖软件包

以上步骤就完成了全部的安装，反正我这里这样处理完就可以组装了

使用

这个软件进化到4.03版本的时候可以使用一条简单的命令行进行组装

a 没有三代测序

/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa

b 有三代测序

/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa -r /path_to/nanopore.fastq.gz

一般情况下还是使用安装文件夹里面内置的config文件进行配置

主要就是2代、3代测序文件的位置，预期基因组大小、能用多少个核。具体就不细说了，文档写的很详细。

配置文件写好以后，$/install _ path/MaSuRCA-X.X. x/bin/masurca config.txt用这个命令能够生成一个assemble.sh的文件，然后运行就可以了。

需要注意的是ubuntu内置的sh是dash，不能执行这个shell，必须要bash ./assemble.sh才行。

另外 flye组装步骤只支持最高128线程，但是前序步骤我这里160都没问题，可能可以支持更好，所以个人经验是config里第一次线程数写你的机器能用的最高线程，等跑到flye步骤出错后，再吧线程改为128以下，重新接着跑。