nanopore数据组装人类基因组

Sergey Koren和Adam Phillippy提出了一种“trio binning”组装策略组装人的基因组单倍型。两位大神参与了多个组装软件项目：

MashMap: A fast and approximate long read mapper
Canu：A single molecule sequence assembler for genomes large and small
Mash: Fast genome and metagenome distance and containment estimation using MinHash
MHAP: A probabilistic sequence overlap algorithm

还在bioRxiv上发表了一系列优秀文章：

RefSeq database growth influences the accuracy of k-mer-based species identification
Complete assembly of parental haplotypes with trio binning
Integrating Hi-C links with assembly graphs for chromosome-scale assembly
A fast adaptive algorithm for computing whole-genome homology maps

作者使用Oxford Nanopore MinION作者人的基因组（GM12878），使用“trio-based”组装策略组装单倍型。Nanopore持续推进，有一些重大提升，如一些工具Nanopolish ，速度更加快速且增加了一些新的功能。因此作者使用原先自己发现的文献数据，用最新的工具再次base call和组装。新的组装版本提升了NG50，trio binning准确的重建了两个单倍型的MHC基因。
作者使用 Albacore v2.1 其call raw data，覆盖了从37升至41x，reads平均长度从7.3提升至8.1kbp。Canu 1.6组装提升NG50至10.2 Mbp（150k cpu小时）。作者使用Canu 1.7对reads纠错，并使用WTDBG 进行组装，组装结果NG50为12.4 Mbp，WTDBG仅需30k cpu小时。

使用Canu + WTDBG的策略比单独使用Miniasm 或单独使用WTDBG要好，可能原因是Canu纠错后的结果更利于组装。

评估 Canu + WTDBG的组装准确性为98.94%，比之前文章报道的95.94%高。经过Nanopolish 两轮“CpG甲基化”修正后，准确性达到了99.76%，而 deletion bias和short indels的比例较突出，作者随后旨在对其进行改进。

image.png

由于GM12878有亲代的数据可用，作者试着用刚发表的trio binning方法(Koren et al. 2018)组装。在组装前，使用TrioCanu对GM12878的nanopore reads分为母本和父本单倍型bins，两轮CpG Nanopolish后，两种单倍体的识别率均为99.24%。

作者将两种nanopore的单倍体排列成一种结构变体，并将这些结果与PacBio的分析结果进行比较。在nanopore的组装结果中有更高比例的short indels。

image.png

尝试使用双亲Illumina数据在每个nanopore单倍型上运行Pilon实际上降低了质量，并在几个MHC基因中引入了额外的错误。然而，将Pilon限制为仅修正inels确实修正了所有类型基因的错误，最终的一致性准确率为99.92%。

作者组装的方法发表在Jain et al. 2017 ，trio binning 的方法在 Koren et al. 2018

nanopore数据组装人类基因组

你可能感兴趣的:(nanopore数据组装人类基因组)