参考基因组新时代 — “单倍型”参考基因组

高杂合、多倍体一直是组装中的难点,以往的做法就是构建单倍体或双单倍材料(double-haploid )来进行组装,但同时也没有办法获得全面的基因信息。目前主流的组装算法倾向于将杂合 / 同源区域整合,得到的组装结果为 haploid consensus 或者 monoploid。为了深入研究的需要,更多的物种需要将来自父母的遗传信息都获得,因此参考基因 组就需要获得两个单倍体基因组,也就是“单倍型”参考基因组(Haplotype-resolved genome 或 Phased diploid genome)。如今近期多篇文章都用到“单倍型”参考基因组解决生物学问题,同时多倍体物种组装方法,与组装“单倍型”参考基因组在原理上也有着相互借鉴的地方。

案例一

Phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication

苹果(Malus domestica Borkh。)是一种受欢迎的温带水果,其驯化由不同野生物种的杂交和具有理想性状的基因型的无性繁殖组成。因此苹果具有高杂合的基因组特征,目前已有的苹果参考基因组,对于苹果育种工作,苹果驯化研究有一定局限性。

因此本文对M. domestica cv. GalaM. sieversiiM. sylvestris分别构建不同长度的Illumina paired-end和mate-pair文库、10x Genomics和PacBio HiFi文库。Illumina和10x Genomics文库测序数据,使用DeNovoMAGIC3 组装,产生一个定相二倍体组装和一个未定相的组装;PacBio HiFi文库测序数据,使用Hifiiasm和HiCanu组装;以上组装版本,结合 遗传图谱数据和已发表基因组的共线性信息,对 Scaffolds 进行挂载。

图1 “单倍型”苹果组装流程图

表1 “单倍型”苹果组装结果

从上述结果可以看出,研究者组装出单倍型基因组为 1.31-1.32 Gb,是不进行单倍型区分的基因组序列的两倍。尽管杂 合度很高,但所有样本的组装结果都有很高的连续性,单倍型组装结果的 contig N50 为 1.2-1.9 Mb,scaffold N50 为 3.3-4.2 Mb。同时可以发现,PacBio HiFi 数据在高杂合组装中对连续性有非常显著的提升。

案例二

Haplotype-resolved genome analyses of a heterozygous diploid potato

栽培马铃薯是同源四倍体,主要靠薯块进行无性繁殖。这些特点使得马铃薯的基因组高度杂合,有害等位基因隐藏在四套染色体中,而优良基因的聚合要依靠复杂的遗传重组,导致马铃薯品种改良周期漫长。

本篇文章研究者利用Illumina 测序、10x Genomics (10xG) linked-read 测序、ONT 测序、PacBio-CCS测序、Hi-C 技术、遗传图谱数据,相互整合最终得到杂合二倍体马铃薯的两套染色体的基因组序列,完成了单倍体组装。

图2 组装流程图

表2 组装结果

案例三

Assembly of whole-chromosome pseudomolecules for polyploid plant genomes using outbred mapping populations

本研究报道了一种新的软件:PolyGembler (polyploid genetic linkage assembler), 该方法是通过遗传连锁分析将contigs 分组和排序获得染色体序列(pseudomolecules) 的方法。同时本方法也可以来检测和修复组装中的错误。使用该方法,本文作者结合RAD-seq数据,对已发表的结缕草(Zoysia japonica )进行了多倍体拆分。此外,本研究还解决了已发表的二倍体甘薯(Ipomoea trifida)基因组组装的13个组装错误。

图3 PolyGembler 解决方案框架图

通过上文三个案例,可以发现“单倍型”参考基因组解决方案不再局限于利用不同平台/文库测序数据和组装软件算法,更多的是和重测序分析中的遗传图谱信息相结合,借用SNP信息反过给出scaffold定相信息或contig分组信息。

“单倍型”参考基因组在基因组进化,物种驯化育种,甚至性染色体研究中有着一定的必要性,也是获得更全面的基因组信息的必要条件。新时代来了,诺禾致源的科技服务一直在与时俱进,后续最新进展也会实时更新,敬请期待。

图4 “单倍型“组装常规思路(来自案例二)

你可能感兴趣的:(参考基因组新时代 — “单倍型”参考基因组)