一套比较简便的基因组组装流程

这套流程主要特点是消耗资源比较少,1G以内的基因组,内存不要低于128G,最好能搞到256G,但是再多对这套流程用不上,更大的基因组没有测试过。

测序数据为100x以上的PacBio+100X左右的illumia+Hi-C。

一、组装程contig:wtdbg2 三代基因组组装

PacBio数据不需要纠错,直接使用wtdbg2进行组装成contig

1,组装成contig:wtdbg2;

2,提取一致性序列:wtpoa-cns;

二、对组装的contig进行polish:

1,用三代数据进行polish,软件为Racon,进行2~3轮就好;Racon三代数据纠错2021-01-19

2,使用二代测序数据进行polish,软件为nextpolish,进行2轮;使用nextpolish对三代组装进行polish

注意:必须先三代再二代,缺一不可,顺序不可颠倒。

三、利用Hi-C数据构建将纠错后的contig组装为scaffold:3D-DNA 挂载染色体

1,利用juicer,获得非冗余的比对位点:juicer

2,利用3D-DNA,初步组装获得scaffold:run-asm-pipeline.sh

3,利用juicerbox进行手工纠错:juicerbox

4,纠错数据再次利用3D-DNA进行组装:run-asm-pipeline-post-review.sh

非常费时间。另外组装效果好不好非常看重juicerbox的结果,经验丰富手气好,组装的就好。

四、利用ALLHiC挂载成染色体:

1,创建Allele.ctg.table文件ALLHiC续: 如何构建Allele.ctg.table

2, 将scaffold连接成染色体使用ALLHiC基于HiC数据辅助基因组组装 基于3D-DNA,ALLHiC挂载二倍体基因组

    所有给定的例子里面,除了第三步以外,所有的bwa mem都可以用bwa-mem2代替,速度可以加快很多。

你可能感兴趣的:(一套比较简便的基因组组装流程)