wtdbg 组装基因组

关键词：pacbio; nanopore; assemble

wtdbg相较于其他三代四代数据组装软件（Canu，smartdenovo，miniasm，Flye，TULIP，FALCON，FALCON-unzip等）的优点如下：

安装简单（反例FALCON，拿命装软件）;，使用简单, 可用run_wtdbg_assembly.sh脚本生成运行脚本
内存及存储暂用少，（反例MARVEL,装个稍微大一点杂合度稍微高一点的基因组请准备30个T，组装时间=文献里面的测试时间和数据量X n，具体看补充材料）
运行时间快，（反例Canu，随随便便一两个月没了）;
组装分为多步，以第一步assemble为例：35G pacbio数据，8线程，运行时间10370.440 sec, 约2.9小时；以第一步assemble为例，14G nanopore数据，32线程，多个组装参数，运行时间在1800-3800 sec之间,即0.5~1h
当然以上时间受参数影响明显，后面会有介绍到。

Tips: 多跑参数，你永远不知道下一个参数会带你什么惊喜
最近装了三个基因组，下面简单谈谈组装情况。

软件使用：

提供参数给run_wtdbg_assembly.sh，会动生成运行脚本。可以看看生成的运行脚本run.sh的组成：一步组装，两轮纠错。
当然我说过了要多参试参数，所以知道run.sh的组成后，写个批处理，生成多个参数组装的脚本。

$ ./run_wtdbg_assembly.sh -h
$ cat run.sh
.....
.....
### assembling
wtdbg-1.2.8 -t 0 -i reads.fa.gz --tidy-reads 5000 -fo dbg -k 0 -p 21 -S 4 --rescue-low-cov-edges
### first round of correction
wtdbg-cns -t 0 -i dbg.ctg.lay -fo dbg.ctg.lay.fa -c 0
### mapping
kbm-1.2.8 -t 0 -d dbg.ctg.lay.fa -i reads.fa.gz -k 0 -p 21 -S 4 -O 0 | best_kbm_hit.pl | awk '{print $6"\t"$9"\t"$10"\t"$1"\t"$2"
### generating new layout
map2dbgcns dbg.ctg.lay.fa reads.fa.gz dbg.map >dbg.map.lay
### second round of correction
wtdbg-cns -t 0 -i dbg.map.lay -fo dbg.map.fa -k 13 -c 3
### Finished

下面的测试仅是第一步组装，不包括后续纠错的评测

组装结果：

基因组A大小约1G，原始数据pacbio（Canu纠错过；N50：20K；Total_length：35G bp）

dbgE2 p19 S2: TOT 1007279360, CNT 10977, AVG 91763, MAX 4034816, N50 460800,
dbgE2 p23 S4: TOT 983086592, CNT 9598, AVG 102427, MAX 3968000, N50 513280, 
dbgE3 p21 S4: TOT 994572032, CNT 8647, AVG 115020, MAX 4221440, N50 540928, 
dbgE3 p23 S4: TOT 988987648, CNT 8525, AVG 116011, MAX 4032768, N50 529664,

选了E3p21S3组合，并经过一轮纠错后：N50达到55K；N50 number：512

基因组B大小约2.6G，原始数据nanopore（N50length：23K；Total_length：14G bp）
可以看到“--edge-min”值对基因大小影响特别大，在基因组复杂度低和测序深度大的情况下可提高该值，可降低运行内存和运行时间。（仅进行第一轮组装）

dbgE1p19S2: TOT 3399903232, N50 185344
dbgE1p19S3: TOT 3597365248, N50 145920
dbgE1p19S4: TOT 3770381056, N50 116992
dbgE1p21S2: TOT 3780115712, N50 120064
dbgE1p21S3: TOT 4089948416, N50 84736,
dbgE1p21S4: TOT 4348297472, N50 65024,
dbgE1p23S2: TOT 4423848960, N50 62976,
dbgE1p23S3: TOT 4848828928, N50 49152,
dbgE1p23S4: TOT 5196448256, N50 43264,
dbgE2p19S2: TOT 2616108800, N50 240640
dbgE2p19S3: TOT 2589961728, N50 207616
dbgE2p19S4: TOT 2557624832, N50 184320
dbgE2p21S2: TOT 2585940480, N50 189440
dbgE2p21S3: TOT 2543755264, N50 162304
dbgE2p21S4: TOT 2498501632, N50 142848
dbgE2p23S2: TOT 2502693888, N50 142336
dbgE2p23S3: TOT 2418200832, N50 119296
dbgE2p23S4: TOT 2342637568, N50 105216
dbgE3p19S2: TOT 2359822080, N50 214272
dbgE3p19S3: TOT 2294566144, N50 189184
dbgE3p19S4: TOT 2225957376, N50 171264
dbgE3p21S2: TOT 2255389696, N50 173824
dbgE3p21S3: TOT 2151704576, N50 151040
dbgE3p21S4: TOT 2053985792, N50 132352
dbgE3p23S2: TOT 2043926528, N50 131328
dbgE3p23S3: TOT 1879147776, N50 112384
dbgE3p23S4: TOT 1736459264, N50 98304,

基因组C大小为4.5G，原始数据只有10x的pacbio，高重复杂合。随便测试了一下，惨不忍睹

dbgE1p17S2: TOT 4833807616, N50 13568
dbgE1p17S3: TOT 4948789760, N50 12544
dbgE1p17S4: TOT 4955079680, N50 11776
dbgE1p19S2: TOT 4731463936, N50 13312
dbgE1p19S3: TOT 4841807616, N50 12288
dbgE1p19S4: TOT 4876017152, N50 11520
dbgE1p21S1: TOT 4622665984, N50 13056
dbgE1p21S2: TOT 4789170176, N50 12288
dbgE1p21S3: TOT 4826336000, N50 11264
dbgE1p21S4: TOT 4796413184, N50 11008
dbgE1p23S1: TOT 4709794560, N50 12032
dbgE1p23S2: TOT 4752586496, N50 11264
dbgE1p23S3: TOT 4682966272, N50 10496
dbgE1p23S4: TOT 4561831680, N50 10240

我还写过一篇关于canu+wtdbg的文章，我测试过用canu纠错后的确组装结果又提升

wtdbg 组装基因组

软件使用：

组装结果：

你可能感兴趣的:(wtdbg 组装基因组)