利用masurca进行混合二、三代测序数据基因组组装

现在组装新基因组,一般用pacbio的hifi测序模式进行olc组装+Hi-c辅助组装染色体就行了,但是我们实验室以前测了一些基因组是低覆盖度的pacbio的clr模式测序+50x以上二代,没有HI-C数据做的泛基因组,还是有需求对这一部分组装进行改进。

该软件结合了debreijn 图和 Overlap-Layout-Consensus的方法,3.2.1版本以来masurca可以混合二代、三代数据进行基因组组装。

(按我的理解,2代组装用了debreijn 图,组装成super reads.然后以3代为骨架进行map比对,比对上的super reads 用OLC进行组装)

对计算资源的要求是:

1 10Mb : 16Gb 内存,8 + 核,10Gb 磁盘空间 少于1小时

2 500Mb: 128Gb 内存,16个内核,1Tb 磁盘空间 1-2天

3 1Gb : 256Gb 内存,32 + 核,2Tb 磁盘空间 4-5天

4 3Gb: 512Gb 内存,32 + 核心,5Tb 磁盘空间 15-20天

5 30Gb : 1Tb 内存,64 + 核,10Tb + 磁盘空间 60-90天

所以各位自己看一下怎么搞。

安装

有人制作了bioconda的包,但是官方明确说明不能用bioconda安装……

1 安装numactl(必须要有,否则flye组装部分无法执行,然后程序弹出)

sudo apt-get install numactl

我搞了3-4天没组装成功,一直显示3代测序数据有问题,要我检查,但是也没查出毛病来,后面在某个论坛的旮旯里找到了一个回答,让安装这个,然后就没问题了。

2 下载boost最新版本,进行安装,

Boost C++ Libraries

下载完了,解压,进入文件夹

sudo ./boostrap.sh

sudo ./b2 install

然后就安装完毕了

3  安装masurca

GitHub - alekseyzimin/masurca 下载最新安装包

解压,进入文件夹

sh ./install.sh 会自动安装依赖软件包

以上步骤就完成了全部的安装,反正我这里这样处理完就可以组装了

使用

这个软件进化到4.03版本的时候可以使用一条简单的命令行进行组装

a 没有三代测序

/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa

b 有三代测序

/path_to_MaSuRCA/bin/masurca -t 32 -i /path_to/pe_R1.fa,/path_to/pe_R2.fa -r /path_to/nanopore.fastq.gz

一般情况下还是使用安装文件夹里面内置的config文件进行配置

主要就是2代、3代测序文件的位置,预期基因组大小、能用多少个核。具体就不细说了,文档写的很详细。

配置文件写好以后,$/install _ path/MaSuRCA-X.X. x/bin/masurca config.txt用这个命令能够生成一个assemble.sh的文件,然后运行就可以了。

需要注意的是ubuntu内置的sh是dash,不能执行这个shell,必须要bash  ./assemble.sh才行。

另外 flye组装步骤只支持最高128线程,但是前序步骤我这里160都没问题,可能可以支持更好,所以个人经验是config里第一次线程数写你的机器能用的最高线程,等跑到flye步骤出错后,再吧线程改为128以下,重新接着跑。

你可能感兴趣的:(利用masurca进行混合二、三代测序数据基因组组装)