眼见为实:HiFi测序挑战不同类型基因组组装

近日,美国加州大学和国家人类基因组研究所等单位组装出人完整X染色体的研究成果在《Nature》发表,其中HiFi Reads在重复序列的准确组装中功不可没。其实,自2018年10月PacBio公司发布高保真单分子长读长测序(HiFi)模式后,HiFi 在基因组组装中的应用便如雨后春笋,势不可挡。

贝瑞基因自2019年5月引进11台最新的 Sequel II测序平台以来,在HiFi测序和应用方面已经积累了丰富的项目经验,目前已经为客户提供了数百例样本的测序服务。在基于HiFi测序的基因组组装方面,贝瑞基因也在不断寻求新的突破。目前,通过项目或PacBio公司公布的HiFi数据资源[5],我们已经在利用HiFi数据组装高重复基因组、大型复杂基因组、异源多倍体基因组和同源多倍体基因组等不同基因组类型方面积累了丰富的经验。

经验展示:不同类型基因组组装结果

高重复基因组—玉米

玉米(Z.mays)是世界上产量高、种植广的作物,也是遗传学和基因组学的基础模型。玉米基因组经历的全基因组复制事件和长末端重复转座子扩增导致基因组急剧扩大(达到2.3Gb)。这些最终导致玉米基因组中转座子占比高达85%。

我们利用HiFi数据组装的玉米B73基因组大小为2.164 Gb,略大于2017年发表的利用PacBio CLR的组装版本(2.104 Gb)。在连续性方面,HiFi数据组装版本的Contig N50则达到了28.2 Mb,提升了近23倍,甚至超过了最近发表的NC358基因组。BUSCO评估表明,我们的HiFi数据组装版本的组装质量也高于已发表的玉米基因组版本。在时间和资源消耗上,最近发表的利用75× CLR数据组装NC358基因组花费了11,520 CPU hours,而我们的HiFi数据组装仅在6个小时即完成,仅花费了360 CPU hours,资源消耗节省了31倍。这些结果体现了HiFi在高重复基因组组装中的明显优势。


表1 HiFi 数据组装玉米B73基因组结果
图1 玉米基因组组装结果比较(注:B73、Mo17、SK、K0326Y、NC358组装结果来自文献[6-10])


大型复杂基因组—黄腿山蛙

黄腿山蛙(R. muscosa)是一种两栖动物。两栖动物是脊椎动物中基因组大小变化最大的一类,已完成基因组测序的美西钝口螈就高达32 Gb。蛙科物种中,最大的基因组达10 Gb以上,黄腿山蛙的基因组预计也高达9 Gb左右。

我们利用HiFi数据组装的黄腿山蛙基因组获得了两套单倍型基因组,单倍型基因组大小分别为9.03和5.23 Gb,主要单倍型基因组大小接近预估的基因组大小。主要单倍型基因组的Contig N50达到了2.8 Mb,远高于已发表的蛙科物种基因组。HiFi Reads组装的黄腿山蛙基因组的BUSCO评估结果也明显高于另外两个物种的基因组此外,虽然黄腿山蛙的基因组高达9 Gb,利用HiFi Reads的基因组组装也仅花费了12个小时。上述结果表明,HiFi测序在快速组装高质量大型基因组中具有非常明显的优势。


表2 HiFi数据组装黄腿山蛙基因组结果
图2 黄腿山蛙基因组组装结果比较(注:高山倭蛙和美洲牛蛙的组装结果来自文献[11-12])

异源多倍体基因组—草莓

栽培草莓(F. x ananassa)是一个异源八倍体物种(2n=8x=56),由两种野生八倍体物种天然杂交产生,这两种野生八倍体物种都是100多万年前四种二倍体祖先物种合并的产物。

我们利用HiFi数据组装的八倍体草莓基因组获得了两套单倍型基因组,大小分别为776和304 Mb,主要单倍型基因组的大小与2019年最新发表的栽培草莓基因组相当,Contig N50达到15.5 Mb,提升了193倍。此外,整个基因组的组装仅花费了3个小时。上述结果体现了HiFi测序在多倍体基因组组装中的良好表现。


表3 HiFi 数据组装八倍体草莓基因组结果
图3 八倍体草莓基因组组装结果比较(注:基于Illumina和多种技术(Multiple)的草莓基因组组装结果来自文献[13-14])



同源多倍体基因组—苜

栽培紫花苜蓿(M. sativa)是一种自交不亲和的同源四倍体(2n=4×=32)植物。今年5月,中科院昆明动物研究所等单位成功利用HiFi测序(约23×)实现了栽培紫花苜蓿的基因组组装[15]。

我们利用专门针对HiFi数据开发的组装软件HiCanu和Hifiasm重新对该基因组进行了组装。HiCanu组装版本的基因组大小为2.66 Gb,略低于Canu版本;Hifiasm组装版本的基因组大小(3.22 Gb)则略高于Canu版本。HiCanu和Hifiasm的组装版本的Contig N50分别为1.67和1.73 Mb,明显高于Canu版本。我们的测试结果及已发表的苜蓿基因组均表明,HiFi测序能够实现同源多倍体基因组的高质量组装。

图4 同源四倍体苜蓿基因组组装结果比较(注:Canu组装结果来自文献[15])



单倍型基因组—人

目前,已发表了多个高质量的人基因组序列,且已有多个利用HiFi组装人基因组的案例,利用HiFi Reads组装出人两套单倍型基因组也已经被报道。

我们利用HiFi Reads对人基因组的组装,同样获得了两套单倍型基因组。两套单倍型基因组大小分别为3.14和2.50 Gb,Contig N50分别为42.2和1.6 Mb。这一结果与已发表的利用HiFi数据组装的HG002和HG00733基因组相当。整个组装过程仅花费了2个小时。上述结果体现了HiFi测序在单倍型基因组组装中的优势。


表4 HiFi 数据组装人基因组结果
图5 人单倍型基因组组装结果比较(注:HG002和HG00733组装结果来自文献[4])

总结:HiFi组装,不只是快!

通过上述案例可以发现,HiFi测序在基因组组装中具有以下优势:

由于HiFi数据兼具长读长和高质量的特性,在基因组组装中无需纠错,可实现基因组的快速组装,让基因组组装进入“高铁”时代,这对于大型基因组的组装尤为重要。

适用于不同的基因组类型,在高重复基因组、大型复杂基因组、异源多倍体基因组甚至同源多倍体基因组组装中都能获得更高质量和连续性的基因组。

对于杂合型基因组,针对HiFi数据专门开发的组装软件可直接组装出两套单倍型基因组。



参考文献

1. Miga Karen H,Koren Sergey,Rhie Arang et al. Telomere-to-telomere assembly of a complete human X chromosome.[J] .Nature, 2020.

2. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome.[J] .Nat. Biotechnol., 2019, 37: 1155-1162.

3. Vollger Mitchell R, Logsdon Glennis A, Audano Peter A et al. Improved assembly and variant detection of a haploid human genome using single-molecule, high-fidelity long reads.[J] .Ann. Hum. Genet., 2020, 84: 125-140.

4. Sergey Nurk, Brian P. Walen, Arang Rhie et al. HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. [J]. bioRxiv, 2020.

5. Hon Ting, Mars Kristin, Young Greg, et al. Highly accurate long-read HiFi sequencing data for five complex genomes. [J]. bioRxiv, 2020.

6. Jiao Y, Peluso P, Shi J, et al. Improved maize reference genome with single-molecule technologies[J]. Nature, 2017, 546(7659):524.

7. Sun Silong,Zhou Yingsi,Chen Jian et al. Extensive intraspecific gene order and gene structural variations between Mo17 and other maize genomes.[J] .Nat. Genet., 2018, 50: 1289-1295.

8. Yang Ning,Liu Jie,Gao Qiang et al. Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement.[J] .Nat. Genet., 2019, 51: 1052-1059.

9. Li Changsheng,Xiang Xiaoli,Huang Yongcai et al. Long-read sequencing reveals genomic structural variations that underlie creation of quality protein maize.[J] .Nat Commu, 2020, 11: 17.

10. Ou Shujun,Liu Jianing,Chougule Kapeel M et al. Effect of sequence depth and length in long-read assembly of the maize inbred NC358.[J] .Nat Commu, 2020, 11: 2288.

11. Sun Yan-Bo,Xiong Zi-Jun,Xiang Xue-Yan et al. Whole-genome sequence of the Tibetan frog Nanorana parkeri and the comparative evolution of tetrapod genomes.[J] .Proc. Natl. Acad. Sci. U.S.A., 2015, 112: E1257-62.

12. Hammond S Austin,Warren René L,Vandervalk Benjamin P et al. The North American bullfrog draft genome provides insight into hormonal regulation of long noncoding RNA.[J] .Nat Commu, 2017, 8: 1433.

13. Hirakawa Hideki,Shirasawa Kenta,Kosugi Shunichi et al. Dissection of the octoploid strawberry genome by deep sequencing of the genomes of Fragaria species.[J] .DNA Res., 2014, 21: 169-81.

14. Edger Patrick P,Poorten Thomas J,VanBuren Robert et al. Origin and evolution of the octoploid strawberry genome.[J] .Nat. Genet., 2019, 51: 541-547.

15. Chen Haitao,Zeng Yan,Yang Yongzhi et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa.[J] .Nat Commu, 2020, 11: 2494.

你可能感兴趣的:(眼见为实:HiFi测序挑战不同类型基因组组装)