wtdbg 组装基因组

关键词:pacbio; nanopore; assemble

wtdbg相较于其他三代四代数据组装软件(Canu,smartdenovo,miniasm,Flye,TULIP,FALCON,FALCON-unzip等)的优点如下:

  • 安装简单(反例FALCON,拿命装软件);,使用简单, 可用run_wtdbg_assembly.sh脚本生成运行脚本
  • 内存及存储暂用少,(反例MARVEL,装个稍微大一点杂合度稍微高一点的基因组请准备30个T,组装时间=文献里面的测试时间和数据量X n,具体看补充材料)
  • 运行时间快,(反例Canu,随随便便一两个月没了);
    组装分为多步,以第一步assemble为例:35G pacbio数据,8线程,运行时间10370.440 sec, 约2.9小时;以第一步assemble为例,14G nanopore数据,32线程,多个组装参数,运行时间在1800-3800 sec之间,即0.5~1h
    当然以上时间受参数影响明显,后面会有介绍到。

Tips: 多跑参数,你永远不知道下一个参数会带你什么惊喜
最近装了三个基因组,下面简单谈谈组装情况。

软件使用:

提供参数给run_wtdbg_assembly.sh,会动生成运行脚本。可以看看生成的运行脚本run.sh的组成:一步组装,两轮纠错。
当然我说过了要多参试参数,所以知道run.sh的组成后,写个批处理,生成多个参数组装的脚本。

$ ./run_wtdbg_assembly.sh -h
$ cat run.sh
.....
.....
### assembling
wtdbg-1.2.8 -t 0 -i reads.fa.gz --tidy-reads 5000 -fo dbg -k 0 -p 21 -S 4 --rescue-low-cov-edges
### first round of correction
wtdbg-cns -t 0 -i dbg.ctg.lay -fo dbg.ctg.lay.fa -c 0
### mapping
kbm-1.2.8 -t 0 -d dbg.ctg.lay.fa -i reads.fa.gz -k 0 -p 21 -S 4 -O 0 | best_kbm_hit.pl | awk '{print $6"\t"$9"\t"$10"\t"$1"\t"$2"
### generating new layout
map2dbgcns dbg.ctg.lay.fa reads.fa.gz dbg.map >dbg.map.lay
### second round of correction
wtdbg-cns -t 0 -i dbg.map.lay -fo dbg.map.fa -k 13 -c 3
### Finished

下面的测试仅是第一步组装,不包括后续纠错的评测

组装结果:

  1. 基因组A大小约1G,原始数据pacbio(Canu纠错过;N50:20K;Total_length:35G bp)
dbgE2 p19 S2: TOT 1007279360, CNT 10977, AVG 91763, MAX 4034816, N50 460800,
dbgE2 p23 S4: TOT 983086592, CNT 9598, AVG 102427, MAX 3968000, N50 513280, 
dbgE3 p21 S4: TOT 994572032, CNT 8647, AVG 115020, MAX 4221440, N50 540928, 
dbgE3 p23 S4: TOT 988987648, CNT 8525, AVG 116011, MAX 4032768, N50 529664,

选了E3p21S3组合,并经过一轮纠错后 :N50达到55K;N50 number:512

  1. 基因组B大小约2.6G,原始数据nanopore(N50length:23K;Total_length:14G bp)
    可以看到“--edge-min”值对基因大小影响特别大,在基因组复杂度低和测序深度大的情况下可提高该值,可降低运行内存和运行时间。(仅进行第一轮组装)
dbgE1p19S2: TOT 3399903232, N50 185344
dbgE1p19S3: TOT 3597365248, N50 145920
dbgE1p19S4: TOT 3770381056, N50 116992
dbgE1p21S2: TOT 3780115712, N50 120064
dbgE1p21S3: TOT 4089948416, N50 84736,
dbgE1p21S4: TOT 4348297472, N50 65024,
dbgE1p23S2: TOT 4423848960, N50 62976,
dbgE1p23S3: TOT 4848828928, N50 49152,
dbgE1p23S4: TOT 5196448256, N50 43264,
dbgE2p19S2: TOT 2616108800, N50 240640
dbgE2p19S3: TOT 2589961728, N50 207616
dbgE2p19S4: TOT 2557624832, N50 184320
dbgE2p21S2: TOT 2585940480, N50 189440
dbgE2p21S3: TOT 2543755264, N50 162304
dbgE2p21S4: TOT 2498501632, N50 142848
dbgE2p23S2: TOT 2502693888, N50 142336
dbgE2p23S3: TOT 2418200832, N50 119296
dbgE2p23S4: TOT 2342637568, N50 105216
dbgE3p19S2: TOT 2359822080, N50 214272
dbgE3p19S3: TOT 2294566144, N50 189184
dbgE3p19S4: TOT 2225957376, N50 171264
dbgE3p21S2: TOT 2255389696, N50 173824
dbgE3p21S3: TOT 2151704576, N50 151040
dbgE3p21S4: TOT 2053985792, N50 132352
dbgE3p23S2: TOT 2043926528, N50 131328
dbgE3p23S3: TOT 1879147776, N50 112384
dbgE3p23S4: TOT 1736459264, N50 98304,
  1. 基因组C大小为4.5G,原始数据只有10x的pacbio,高重复杂合。随便测试了一下,惨不忍睹
dbgE1p17S2: TOT 4833807616, N50 13568
dbgE1p17S3: TOT 4948789760, N50 12544
dbgE1p17S4: TOT 4955079680, N50 11776
dbgE1p19S2: TOT 4731463936, N50 13312
dbgE1p19S3: TOT 4841807616, N50 12288
dbgE1p19S4: TOT 4876017152, N50 11520
dbgE1p21S1: TOT 4622665984, N50 13056
dbgE1p21S2: TOT 4789170176, N50 12288
dbgE1p21S3: TOT 4826336000, N50 11264
dbgE1p21S4: TOT 4796413184, N50 11008
dbgE1p23S1: TOT 4709794560, N50 12032
dbgE1p23S2: TOT 4752586496, N50 11264
dbgE1p23S3: TOT 4682966272, N50 10496
dbgE1p23S4: TOT 4561831680, N50 10240

我还写过一篇关于canu+wtdbg的文章,我测试过用canu纠错后的确组装结果又提升

你可能感兴趣的:(wtdbg 组装基因组)