Sun2020 苹果 Phased 2倍体基因组

Sun X, Jiao C, Schwaninger H, et al. Phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication. Nature Genetics, 2020, DOI: 10.1038/s41588-020-00723-9.
科学网—重磅推荐!康奈尔大学费章君团队揭示苹果驯化的遗传学历史 - 小柯生命的博文

分相的二倍体基因组组装和泛基因组提供了对苹果驯化遗传史的见解

摘要

苹果的驯化主要是由种间杂交驱动的。本研究报告了栽培的苹果(Malus domestica cv. Gala)和其两个主要野生祖先,M. sieversiiM. sylvestris的单倍型解析基因组。在每个基因组的两个单倍型之间鉴定出实质性的变异。基因组血统的推断可确定约有23%的Gala基因组来自杂种。对91份苹果种质进行了深测序,确定了栽培苹果的选择性清除,这些选择性清除起源于两个祖先中的任何一个,并且与重要的驯化性状有关。通过对苹果pan基因组的构建和分析,发现了数千个新基因,其中数百个是从其中一个祖先中筛选出来的,并且大部分固定在栽培苹果中,揭示了新基因/等位基因的导入是苹果通过杂交驯化的一个标志。最后,Gala果实在13个发育阶段的转录组图谱揭示了19%的等位基因特异性表达,包括许多与果实品质相关的基因。

正文

作物驯化对人类的人口增长和文明发展起着至关重要的作用。今天,人类严重依赖于数千年前被驯化的多种农作物1。通过技术创新加强了关键作物的遗传改良2,3,但由于驯化作物的遗传多样性狭窄而受到阻碍。作物野生近缘种是育种遗传物质的重要来源,而这些野生近缘种所需性状的潜在基因常常被用来改良驯化种质4,5。尽管基因信息很重要,但用于作物野生亲缘关系的基因组信息却很少6。
大多数作物基因组复杂,具有基因组大、杂合度高、多倍体等特点7。这种复杂性对植物基因组组装提出了挑战,为了获得高质量的基因组,通常需要在参考选择上付出更多的努力,而且在许多情况下,低倍性的纯合系更受青睐8,9。然而,许多植物在自然界中是自由授粉的,因此杂合基因组区域可能是表型变异的主要因素10。因此,对自然杂合系的直接测序可以提供对其遗传复杂性的深入见解11。另一方面,植物往往具有遗传结构,单一的参考基因组决不能代表整个群体。因此,除了线性参考基因组外,还可以生成一个复杂的种群多样性表示形式。这种表现形式的变体,包括基于基因的12,13或基于序列的14,15泛基因组,成功地捕获了隐藏的遗传多样性,并促进了重要性状16,17的遗传基础的发现。
苹果(Malus domestica Borkh.)是一种广受欢迎的温带水果,其驯化是通过不同野生种的杂交和优良性状基因型的克隆繁殖来实现的。在野生种中,M. sieversiiM. sylvestris是主要的祖先18,19,20。苹果基因组高度杂合,对早期的基因组组装21,22提出了重大挑战。目前,栽培苹果的参考质量基因组组合可用于双单倍体系GDDH13(参考文献9)、三单倍体HFTH1(参考文献23)和二倍体品种“Gala Galaxy”24;对于其野生近缘物种,只有M. baccata的基因组草图可用25。在本研究中,我们组装了栽培苹果Gala的参考级、相性二倍体基因组,这是一个生长在世界各地的顶级品种,以及两个主要的野生祖先M. sieversiiM. sylvestris。我们直接测序杂合系,揭示了基因组的二倍体状态。我们还构建了基于91份深度重测序的苹果属植物的泛基因组。这些高质量的参考基因组和泛基因组可以更好地了解苹果驯化的遗传基础,为今后苹果的研究和育种提供宝贵的资源。

结果

基因组组装与同源染色体构建

我们为这3份种质获得了623-780倍的Illumina和10x基因组序列的覆盖率,以及37-81倍的PacBio-HiFi序列覆盖率(补充表1)。对于每份种质,reads被组装成一个包含定相scaffold的二倍体基因组,以及一个传统的单倍体合并基因组(补充图1)。对于二倍体基因组,最终组装体的大小为1.31-1.32GB,对于单倍体合并基因组,大小为652-668 Mb(补充表2)。尽管杂合度较高(0.85-1.28%),但所有的组装都表现出很高的连续性,二倍体组合体的scaffold N50为3.3-4.3 Mb,单倍体合并基因组的scaffold N50为16.8-35.7 Mb(补充表2)。利用高密度的遗传图谱26,27和与已发表的基因组9,成功地锚定了96.7–97.8%的单倍体合并基因组scaffold。
二倍体组装的大小大约是单倍体基因组的两倍,这表明同源染色体在每个组装中都得到了很好的捕获,这进一步得到了k-mer谱分析的支持(扩展数据图1)。大约93.7-95.5%的定相scaffold被分成两个非冗余的集合(又称为haplomes),它们被进一步锚定在17个同源染色体上。每个haplome的累积大小为单倍体基因组的88.5–100.0%(补充表2),所有三份材料都显示出两个haplome之间的高度共线性(图1a)。使用多种方法的基因组评估证实了单倍体和二倍体组装的高质量(补充注释和扩展数据图2)。

图1:Gala,M. sieversiiM. sylvestris的基因组和进化。

图1

在二倍体组装中,总共预测了90147-90507个蛋白质编码基因,在单倍体组装中预测了45199-45352个蛋白质编码基因(补充表2)。核苷酸结合、富含亮氨酸的重复基因广泛参与抗病28,并且在苹果属植物中发现高度可变(补充说明、补充表3和补充图2)。
我们的组装显示出与已发表基因组的整体高共线性(补充图3),除了1号染色体上的5-Mb倒位,我们发现这可能是GDDH13和HFTH1基因组中的错误组装(扩展数据图3)。我们鉴定了单倍体之间的实质性差异,包括2387290、2591444和2929832个单核苷酸多态性(SNPs)、363464、364605和401893个插入/缺失,以及M.sieversii、M.sylvestris和Gala的202、343和330个倒位(补充表4和补充图4)。
大约58.7–59.4%的苹果基因组是重复序列,类似于GDDH13和HFTH1的基因组(补充表5和补充图5)。我们发现在苹果进化过程中发生了两次长末端重复转座子(LTR-RT)爆发,其中较老的一次发生在苹果和梨29的物种形成之前,最近的一次发生在M.sylvestris和M.sieversii分化为亚群之前(图1b、c和补充图)。6和7)。LTR-RTs在重复爆发后的进化可能创造了物种间丰富的遗传多样性。一个值得注意的例子是redTE逆转录转座子,它在一些苹果品种中转移到MYB1基因座上,导致了红色果皮23。我们发现redTE只存在M.sieversii和M.domestica中,它以短杂合子的形式存在于Gala中,可能导致MYB1等位基因的特异性表达,从而导致Gala的黄红果皮颜色(补充注释和扩展数据图4)。

栽培苹果的基因组起源

你可能感兴趣的:(Sun2020 苹果 Phased 2倍体基因组)