三代组装软件canu学习笔记

三代组装软件canu学习笔记

 (2017-08-07 14:17:43)

转载

  分类: 三代

1:这个组装软件起源于PBcR包含在Celera Assembler中(http://wgs-assembler.sourceforge.net/wiki/index.php/Main_Page),该软件最新版本是8.3之后便不在更新。现在被canu取代。

 

2:canu(http://canu.readthedocs.io/en/latest/index.html)

参加文献:Koren S, Walenz B P, Berlin K, et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation[J]. Genome research, 2017, 27(5): 722-736.

 

3:目前版本1.5

 

4:几个重要的参数说明:

minReadLength 用于组装的最短reads,默认1000

 

corOutCoverage 用于矫正的数据最小coverage,默认是40x,但实际上的数据在30X-35X之间你可以自己设置为50,60,100,当设置为1000,可以用于组装出数据中质粒,一般该参数用于宏基因组组装

 

contigFilter="2 1000 0.75 0.75 2"关于contig的过滤

  • has fewer than minReads (2) reads, or(这个值可以设置为5)
  • is shorter than minLength (1000), or
  • has a single read spanning singleReadSpan percent (75%) of the contig, or
  • has less than lowCovDepth (2) coverage over at least lowCovSpan fraction (0.75) of the contig

对于低覆盖数据correctedErrorRate=0.075(4.5%-7.5%或者更多)也可以大于1%

对于高覆盖度数据correctedErrorRate=0.040(4.0%-4.5%),默认The default is 0.045 for PacBio reads,也可以小于1%

 

如果是AT(GC)富集的样本,建议设置corMaxEvidenceErate=0.15

你可能感兴趣的:(第三代测序,技术,生物信息学)