纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法

纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法 

2021-01-07 15:54

新基因组组装是基因组学最重要的任务之一。三代测序技术(PacBio和Oxford Nanopore)可解决基因组重复区域的组装难题,提高基因组完整性,已成为基因组组装主流技术。其中,纳米孔(Nanopore)测序技术的迅速发展更使得测序成本显著降低,并且由于其可实现超长读长(高达1Mbp),在复杂基因组组装中具有天然优势。然而,目前Nanopore的测序错误分布广泛(10-30%,图1A),存在高错误局部区域(1000bp中存在50%测序错误,图1B),并且高错误局部区域的发生随着测序读长增加而显著增加(图1C),从而导致超长文库数据中20-30%的序列存在高错误区域。现有的错误校正软件只能通过裁剪的方式剔除高错误局部区域,显著降低了Nanopore序列完整性和组装完整性。

纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法_第1张图片

图 1. Nanopore测序错误分布特征

针对Nanopore测序错误特征,中山大学中山眼科中心肖传乐/刘奕志团队和中南大学王建新团队于2021年1月4日在Nature Communications杂志上联合发表题为“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究论文,提出了Nanopore渐进式校正组装模型,并开发了相应的软件NECAT。

纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法_第2张图片

文章发表在 Nature Communications 上

研究者提出了渐进式序列校正策略,首先选择高精度的序列校正错误率的区域(图2B),之后优选校正后高精度序列校正高错误局部区域,从而保证了序列校正速度和完整性(图2C);此外,研究者还提出渐进式组装策略,通过校正后高精度的序列组装基因组骨架(图2D),之后通过原始序列提升基因组完整度(图2E),从而保证基因组组装结果的正确性和完整性。研究者将上述模型开发了NECAT软件,开放给国内外其他科研人员,进行长达1年的体验提升。

纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法_第3张图片

图2. NECAT校正组装流程图

随后,研究者收集了多种模式生物Nanopore数据集进行性能测试,结果表明:NECAT校正后序列平均精度可达95-98%,可恢复原始数据中99%的高错误局部区域(HERS),从而保留了序列长度完整性(表1);NECAT组装完整性明显高于同类校正组装软件,且组装错误量显著低于同类软件。另外,研究者将NECAT校正结果与多个组装软件结合使用发现, NECAT校正结果能显著提高其它Nanopore组装软件的组装质量。

纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法_第4张图片

表1. NECAT序列错误校正性能评估

最后,研究者完成了视网膜母细胞瘤Nanopore测序,并应用NECAT组装出了完整度较高的母细胞瘤癌症基因组,通过组装结果发现了很多高精度结构变异(SV)位点,其中很多位点都与目前研究报道和功能预测相符(图3)。与原始数据SV检测方法相比,NECAT组装结果检测SV精度显著高于目前SV检测方法。上述结果表明, 通过NECAT序列校正能够显著减少高错误区域所造成的SV假阳性结果。

纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法_第5张图片

图3. 视网膜母细胞瘤基因组染色体图谱及SV位点

综上所述,该研究提出的渐进式校正组装方法可以有效解决Nanopore复杂测序错误问题,显著提高了Nanopore数据组装完整性、正确性和数据利用率。另外,通过NECAT序列校正,可以有效降低高错误区域SV的假阳性。

文章第一作者

陈颖博士:中山大学中山眼科中心副研究员,长期从事三代测序基础算法研究,以第一作者在 Nature Methods,Nature Communications, Nucleic Acids Research 等杂志发表多篇文章。

聂藩博士:中南大学计算机学院博士生。主要从事基因组组装算法研究。

谢尚潜博士海南大学林学院教授,主要从事三代测序数据分析工作。目前以第一或通讯在 Nature Methods, Nature Communications, Nucleic Acids Research,Horticulture Research 等杂志发表论文20余篇。

文章通讯作者

王建新:中南大学计算机学院教授、博士生导师、计算机学院院长。IEEE高级成员、国务院学位委员会第七届学科评议组成员(计算机科学与技术组),国家973计划前期研究专项项目“信息处理算法及物理实现”首席科学家。主要研究方向计算机算法与优化、网络优化理论、大数据应用、深度学习、生物信息学、虚拟实验环境等。在 Nature Communications、Genome Research、Medical Image Analysis 等国际刊物和会议上发表论文200余篇。

肖传乐:中山大学中山眼科中心副研究员、硕博士生导师、广东省杰出青年基金获得者,长期从事三代测序前沿技术开发及应用研究。主持开发了三代测序组装方法MECAT,MECAT2,NECAT和三代测序表观修饰检测方法DeepMod,在 Nature Methods,Molecular Cell和Nature Communications 等杂志上发表论文40余篇。

你可能感兴趣的:(PacBio,long,read)