大致机器翻译+人工纠错,简单过了一下,供大家参考
Twenty years of plant genome sequencing: achievements and challenges - ScienceDirect
植物基因组测序二十年:成就与挑战
作者:孙彦清16尚联光26朱千浩3浪龙江14郭龙标5
引用 https://doi.org/10.1016/j.tplants.2021.10.006获取权利和内容
High Lights
在过去的20年中,已经发表了1000多个植物基因组的序列,代表了788个具有高度多样性的不同物种。使用新型支架策略的长读测序进一步彻底改变了基因组测序,使人们能够获得基因组复杂性和尺寸不断增加的植物物种的更多染色体尺度组装。拟南芥和水稻的第一批基因组论文的引用树说明了植物基因组学的实质性发展以及过去20年来植物生物学所有学科的植物基因组复兴。构建近乎完整的基因组,组装复杂的基因组以及构建参考泛基因组是未来植物基因组测序中最大的挑战之一。
2000年12月,第一个植物参考基因组拟南芥完整基因组序列的发表,预示着植物基因组时代的开始。在过去的20年中,已经为数百种植物物种生成了参考基因组,从非维管植物到开花植物。释放这些植物基因组极大地推进了植物生物学所有学科的研究。重要的是,已经为主要作物及其祖先生成了多个参考级基因组,从而能够创建泛基因组并探索现代作物育种可以采用的驯化历史和自然变异。本文总结了植物基因组测序的进展以及测序更复杂的植物基因组和生成泛基因组的挑战。
关键词 植物物种 参考基因组 组装 测序技术
已经20年了,还在继续
2020年12月是第一个植物基因组序列完成20周年,即拟南芥基因组序列(2000年12月14日发表在《自然》杂志上)[1]。在测序技术的进步下,近20年来,无数的植物基因组被测序。截至2020年底,已经创建了788种植物物种的草案或参考基因组。这些植物基因组序列的可用性,特别是高质量的植物基因组序列,促进了对各种植物物种的植物生物学研究,特别是在功能基因组学和群体遗传学方面。在本综述中,我们总结了过去20年中测序的植物基因组,并讨论了完成完整参考序列以进行未来植物基因组分析的剩余障碍。
从2000年至2020年测序的植物基因组
2000年,拟南芥基因组序列的发表[1]标志着一个激动人心的时代的开始,在这个时代,技术和方法的进步揭示了数百种植物物种的遗传蓝图。截至2020年底,已经测序并发表了788种不同植物物种(包括亚种)的1031个基因组,并且数量继续呈指数级增长(图1A;测序物种的详细信息在在线补充材料的表S1中给出)。在第一个十年(2000-2010年),基因组测序的主要目标是为模型植物和作物提供高质量的参考基因组。基因组测序和组装在当时仍然是一项重大任务,只有26个基因组发表在八个不同的期刊上,其中19个发表在《科学》和《自然》系列期刊上,包括《自然》、《自然遗传学》和《自然生物技术》。尽管基因组论文似乎是公式化的,并且遵循类似的基因组特征分析管道,但每个新的参考基因组都被认为是一个重大突破,因为它为后续研究提供了必要的基础和新见解[2]。在第二个十年(2011-2020年),测序植物基因组的数量增加了近50倍,高影响力的期刊对评估基因组对感兴趣植物生物学的影响越来越感兴趣,从而导致了许多基于基因组学的发现。
目前已测序的植物物种高度多样化,包括植物界(Viridiplantae)的主要分支(见词汇表)。在788个测序物种中,88%的基因组是被子植物,其中572个是真双子叶植物,110个是单子叶植物,还有13个裸子植物,3个蕨类植物,4个溶菌,12个苔藓植物,7个 charophytes,54个叶绿植物也完成测序(图2)。已发表的植物基因组的基因组大小相差达到三个数量级,中位数为575.5 Mb。在陆地植物和绿藻中测序的最小的植物基因组分别是64 Mb[3]的Genlisea aurea 和13 Mb [4]的Ostreococcus tauri金牛蔷球菌,而最大的是31 Gb [5]的Pinus lambertiana兰伯特松和4.73 Gb的[6]Penium margaritaceum半边莲。对于前三个家族,禾本科Poaceae,十字花科Brassicaceae和豆科Fabaceae,目前有50个或更多的已测序基因组可用(图1B),促进了跨属和科边界的系统基因组学研究。如果没有全球科学家的国际合作,植物基因组测序的这种快速扩展将是不可想象的。中国、美国、德国、日本和英国是致力于植物基因组测序的前五个国家,主持了72.0%的测序项目。此外,全球还启动了几个大型基因组测序项目,包括10KP(10,000种植物)[7]](https://www.sciencedirect.com/science/article/pii/S1360138521002818?via%3Dihub#bb0035)和Earth Biogenome Project(地球生物基因组项目)[8],旨在对进行测序、分类和认识生物多样性。
- 下载 :下载高分辨率图片 (257KB)
- 下载:下载全尺寸图片
(A)自2000年拟南芥基因组发表以来在染色体和非染色体水平上测序的植物基因组数量。
(B)被子植物基因组测序最多的前10个家族。
(C)在被子植物中测序的多倍体基因组的数量。该数目由BioRender(https://biorender.com/)创建。
- 下载 :下载高分辨率图片 (517KB)
- 下载:下载全尺寸图片
系统发育关系和分类:基于被子植物系统发育组IV(APG IV)和1000个植物转录组的系统发育推断[74]。显示了每个谱系的测序物种的数量及其估计的基因组大小多样性(Ceratophyllum demersum和Santalales除外)。
除了数量大幅增加外,参考基因组的质量也大大提高。53种植物物种的基因组至少被改进过一次,其中47种已经获得了染色体级别的组装。每次更新都是朝更完整的组装和更好的基因组注释迈出的步伐。例如,改进的黄瓜(Cucumis sativus)参考基因组(v3.0)鉴定出1078个新基因和~27.6 Mb的更多的重复序列[9];新的Theobroma cacao基因组序列纠正了原始Theobroma cacao草案基因组中的45个错误组装点和345个错误注释的基因[10];麦类(5-17 Gb)基因组也逐渐从草图发展为高质量参考基因组,并借助物理图谱和光学图谱[11];最近,拟南芥基因组也被重新组装,只剩余一个间隙[12]。
植物基因组测序的技术革命
推动植物基因组快速增长和大规模扩张的主要动力之一是测序技术的巨大进步。全基因组序列的原始测序和组装{即,拟南芥[1],水稻(L. ssp. indica; L.ssp. japonica)[13,14], 葡萄 (Vitis vinifera) [15], 和玉米 (Zea mays) [16]} 利用了细菌人工染色体 (BAC) 的minimum tiling path,该路径采用 Sanger 技术测序,既耗时又费力。下一代测序(NGS)技术,如罗氏454和Illumina平台,在2000年代初 提高了测序能力并降低了测序成本。尽管需要解决组装连续性的问题,在下游基因组组装中应用成熟且相对常规的生物信息学算法也显着促进了测序植物基因组数量的显着增加。迄今为止,基于NGS方案的613个植物基因组仍处于草图阶段,并包含许多未填充的GAP和数千个未放置和未定向的Scaffold(重叠群)。由于新Scaffold方法和第三代测序技术的出现,我们预计这些草图基因组中的大多数将很快完成。基于染色质物理邻近连接的染色体构象捕获技术(Hi-C)以及BioNano光学图谱,正在染色体水平上进行组装[17,18.,19]。
第三代测序技术克服了NGS的主要限制因素,即短读取长度,用于组装高质量的植物基因组。技术再次彻底改变了植物基因组测序和组装。Pacific Biosciences(PacBio)或Oxford Nanopore Technologies牛津纳米孔技术(ONT)生成的单个读取范围从10-100 kb甚至更长,可以覆盖短读取时非常容易失败的长重复区域[20]。为了解决容易出错的测序问题,PacBio最近更新了其平台,使用 the circular consensus sequencing(CCS)模式生成HiFi读取,其碱基分辨率超过99%[21,22]。六个物种的基因组(Solanum tuberosum* [23],Medicago sativa [24],Malus sieversii [25],M. sylvestris [25],M. × domestica [25]和Passiflora edulis [ 26])的基因组已经用HiFi读数测序,并表现出高质量和稳健性。
鉴于测序技术的进步,组装算法和软件也相应地发展起来。重叠布局共识(OLC)和de Bruijn图(DBG)是迄今为止的主流组装策略。虽然第一代测序数据的汇编器,包括Celera汇编器,Arachne,CAP3和Newbler,大多采用OLC算法,但DBG方法由于其低复杂性和高计算效率,已被广泛应用于汇编软件(例如Velvet,ABySS,AllPath-LG和SOAPdenovo)的开发,因为它对大量NGS读取具有低复杂性和高计算效率。随着第三代测序技术的发展,OLC策略因其在处理噪声长读数方面的优势而重新获得了算法开发人员的青睐。到目前为止,大多数嘈杂的长读汇编器,如Canu [27],Mecat2(支持PacBio数据)[28],NECAT(支持Nanopore数据)[29]和FALCON [30],都遵循OLC策略,而wtdbg2 [31]和Flye [32]引入了新的数据结构,称为模糊布鲁伊恩图(FBG)和重复图,以处理容易出错的读取。由于嘈杂读取的性质,wtdbg2和Flye表现出应对复杂基因组的能力较低,例如高度杂合的二倍体基因组和多倍体基因组。在高保真(HiFi)长读取的帮助下,Hifiasm [33]和HiCanu [34]促进了单倍型分辨的从头组装。Hifiasm忠实地表示分阶段组装图中的单倍型信息,并比其他现有组装器提供更好的单倍型分辨组装[33]。HiCanu利用HiFi读取来组装基因组。它可以应对复杂片段重复序列和着丝粒的组装,并且可以提高基因组的连续性和准确性以及单倍型的检测[34]。整合这些新兴技术和各种软件导致过去2年中染色体水平组装的比例显着增加,其复杂性和尺寸不断增加(图1A)。62个物种具有与重叠群N50 >5 Mb的组装,包括毛茛[35],蔷薇[36],柳树[37],Musa schizocarpa [38]和Setaria viridis[39,40](图3 ).最近一项使用PacBio和Nanopore测序技术以及基于光学图谱的流程对玉米基因组(B73-Ab10)的研究成功地在没有人工干预的情况下实现了染色体的无间隙组装。这是大型复杂基因组的任何染色体的第一个成功案例,通过将新的测序技术与组装算法相结合显示出巨大的潜力[41]。
- 下载 :下载高分辨率图片 (529KB)
- 下载:下载全尺寸图片
每个基因组的重叠群N50[占总基因组长度(组装大小)50%的最短重叠群的序列长度]是根据所使用的测序平台进行颜色编码的,按出版年份绘制。长读数测序技术推动了基因组连续性的大幅提高。
基因组操作和先进的测序技术还使我们能够访问更复杂的基因组,这些基因组通常具有高水平的重复性,杂合性和多倍性[42]。在被子植物中,迄今为止,已经对62种多倍体物种进行了测序,其中48种是四倍体,5种是六倍体,6种是八倍体(图1 C)。虽然重复性是构建多倍体完整染色体的重要障碍之一,但具有众多单核苷酸多态性和结构变异的杂合性也会极大地阻碍基因组组装算法[30]。解决重复性的常见方法是采用混合测序策略,将短读取、具有不同插入大小的长读取和其他提供进一步基因组信息的方法(如 10x、Hi-C 和 Strand-Seq)结合起来。使用综合方法已经产生了越来越多的多倍体和相分离单倍体的高质量基因组组装,例如Chenopodium quinoa藜麦[43],Eragrostis tef[44],cotton棉花[35,45]和peanut花生[46,47]。使用纯合子衍生物,如单倍体和近交系,以及流动分选的单个染色体可以减少基因组复杂性对基因组组装的影响。例如,选择通过花药培养产生的单倍体对作为章鱼种间杂交种的现代甘蔗进行测序[48]。双倍单倍体也被用来对Cucumis melo[49] Musa acuminata [50]和Daucus carota [51]进行测序。或者,对二倍体祖物种进行测序可以促进其后代多倍体的组装,例如来自四个二倍体祖物种的草莓(Fragaria × ananassa)[52]。
第一批植物基因组论文的树状引用情况
为了说明参考基因组的强大影响,我们从Web of Science中提取了5000多篇和2000多篇论文,这些论文分别在拟南芥和水稻(包括粳稻和籼稻)的基因组论文上建立了他们的工作,并构建了他们的引用树,灵感来自发表在《自然》杂志上的cocitation网络工作[53]. 尽管在使用引文来评估单篇论文的影响时需要谨慎,但它提供了一个总体趋势,即在20年的时间里,它极大地推动了植物基因组学研究的发展,并促进了大量植物基因组的测序。因此,它推动了植物生物学所有学科的范式转变,特别是在植物科学,分子生物学,生物技术,遗传学,农学和进化生物学领域,这反过来又相互加强(图4)。这两种引用树有许多共同点,尽管存在差异,因为在O. sativa树中观察到了另一个与农学相关的分支(图4)。显然,作为第一个作物基因组,水稻参考基因组促进和启发了对作物遗传/育种和适应机制复杂性的研究,导致更多与农学相关的论文。
- 下载 :下载高分辨率图像 (1MB)
- 下载:下载全尺寸图片 图 4.第一批基因组序列论文的引用树。
每篇引用2000年发表的拟南芥基因组和2002年发表的Oryza sativa(包括ssp. Japonica和indica)基因组(白点)的论文都由一个点表示,该点由Web of Science认可的学科着色。下图是从上面看到的上图。点大小和与白点的水平距离(距离越近表示引用次数越多)表示每篇论文的引用次数。垂直距离(顶部图像)表示从底部的 2000 年到顶部的 2020 年的年份。
事实上,有许多令人兴奋的发现的例子始于植物基因组。例如,植物基因组有助于阐明绿色植物从水生生态系统到陆地生态系统的漫长进化历史,并提高了我们对植物在其进化史上采取的关键创新的理解,包括植物的多细胞性以及气孔,维管组织,根,胚珠和种子以及花和果实的发生[54]。 55., 56., 57., 58., 59.]. 此外,植物基因组一直是探索特定生物学问题不可或缺的资源,并加速了与重要性状相关的基因和遗传变异的开发。对两个榕树基因组和一个黄蜂基因组的比较分析揭示了空中根系、单生体和双生体的成因,以及无花果和黄蜂的共同进化[60]。 小麦草(Thinopyrum elongatum)和其他植物基因组之间的另一项比较分析不仅促进了Fhb7的克隆,Fhb7是一种编码镰刀菌头枯病抗性的基因,破坏了全球小麦生产,但揭示了Fhb7是内生Epichloe物种水平基因转移的结果[61].此外,在许多情况下,在参考组装体可用后产生的全基因组重测序数据用于检测自然变异和标记的全面集合,为作物育种开辟了大量机会。例如,对 1143 个籼稻种质核心集合进行的全基因组 DNA 多态性调查揭示了 386 万个 SNP ,并确定了与症相关的位点[ 62 ] 对4种代表性柑橘属植物(papeda、mandarin、pummelo和citron)的比较分析以及100种原始、野生和栽培柑橘植物的测序数据,确定了一个包含11个与多胚胎相关的候选基因的80 kb区域,其中CitRWP是表达水平最高的基因,在启动子区域中含有倒置重复转座元素[63]。
挑战 Challenges ahead
生成无GAP参考基因组 Generating gapless reference genomes
无间隙基因组组装现在在智人[64],水稻[65,66]和玉米[41]中成为现实,这表明其他物种的完整基因组 - 从端粒到端粒 - 即将到来。近十年前,技术限制使数百个基因组处于低质量状态。在上述613个草案组件中,超过一半(371个)是仅使用NGS平台构建的,没有任何其他锚定策略。基因组草案不足以解决与物种形成、物种近期进化或将序列变异与表型准确联系起来相关的生物学问题。装配错误通常还会导致检测错误变化并影响下游分析。尽管模型植物物种、主要作物及其野生亲缘种的参考基因组已经通过使用不同的策略纠正错误而得到改进[67.,68.,69],但几乎所有的基因组仍然远非无间隙。 这些基因组中的大多数在低拷贝基因区域往往是完整和准确的,但在片段化和不完全化,特别是在富含转座元件(TE),串联阵列和核糖体基因簇的区域。重复序列与许多过程有关,包括染色体排列和重组,基因表达的调节和核型进化[59]。端粒和着丝粒区域通常包含重复序列的巨型碱基,是所有染色体中最突出的功能区域之一,但也是最差的分辨区域,即使是ONT产生的长达2 Mb的超长读取也经常无法跨越整个区域。此外,采用不同的排序技术和不同的装配工具可以导致具有可变质量的装配[70]。长读测序技术仍然成本过高,无法被广泛采用,因此,目前大多数长读组件通常只选择一个系统,无论是PacBio还是ONT平台,而不是两者,尽管同时使用两者的优点。然而,在结合不同装配工具并采用优化参数的研究中已经取得了有希望的装配结果[71]。就目前而言,也许在有限的预算下构建高质量基因组组装的最佳选择是使用最好的网络实验室实验设计和优化的计算组装算法。然而,从长远来看,要以相对较低的成本构建任何植物的无间隙参考基因组,将需要对测序技术和相应的计算算法进行重大改进,例如,生产和组装平均长度长达数十个具有可接受计算速度和内存使用量的读数。
有能力完成更复杂的基因组 Accessing more complex genomes
绿色植物(Viridiplantae)估计包括450 000至500 000种[72,73]。尽管最近在基因组测序和组装方面的努力已经解码了788个物种的遗传信息,但它们仅代表了绿色植物多样性的一小部分。植物的主要分支,如属于基础被子植物类群的 八角茴香目Austrobaileyales,以及来自核心真双子叶植物的洋二仙草目Gunnerales,仍然缺乏代表性的基因组。对于裸子植物,一个具有约1000个范围物种的大型群体,目前只有13个基因组被测序[74]。同时,植物基因组规模的规模是显著的,最大的基因组(Paris japonica)大到150 Gb[75],是A. thaliana基因组大小的1000多倍。然而,迄今为止测序的最大植物基因组是糖松(Pinus lambertiana),大小为31 Gb,重叠群N50仅为4.25 Kb[5]。
今天,获取任何植物物种的基因组仍然是一个挑战,因为大多数没有基因组的物种都具有较大的基因组尺寸和复杂的基因组特征,这些特征对当前的测序和组装技术尤其顽固。虽然有方法可用于简化复杂基因组和克服测序障碍,但这些参考基因组并不代表真正的复杂性。大多数组装者无法完全组装二倍体或多倍体基因组的实际单倍型,导致嵌合和碎片组装,甚至组装错误。当处理包含两对或更多对同源染色体的多倍体基因组时,事情变得更加复杂。多倍体组装类似于许多单倍型结构的总和[76]。n-倍体生物体是指n组相同或几乎相同的同源物和同源体,它们难以区分并分配给正确的亚基因组,特别是在自多倍体物种中。虽然已经为二倍体开发了一些相位管道,例如Falcon-Phase[30]和Trio分档[77],但对于多倍体,几乎没有类似的生物信息学工具。此外,每个物种都有其特异性,这意味着为特定物种开发的方法和标准组装管道对于其他复杂的植物基因组都是可重复和可扩展的。例如,ONT长读数,Illumina短读和Hi-C的组合能够成功地组装出Vanilla planifolia[78]的染色体水平分期二倍体参考基因组,但未能组装杂合二倍体马铃薯的两种单倍型RH89-039-16。单倍型分辨组装仅通过进一步整合通过对来自RH89-039-16的自有群体进行测序而产生的遗传信息来构建[23]。因此,采用一种综合策略,结合多种测序和支架方法,同时结合感兴趣物种的遗传连锁信息,以组装大型和复杂的植物基因组的方案值得大力提倡。
构建 参考泛基因组 Building reference pan-genomes
虽然来自给定物种的"典型"个体的单一参考基因组可以作为该物种在很长一段时间内的路线图,但科学家们很快意识到,单个参考基因组并不能获得物种的遗传多样性,并且不足以用于多重目的[79],从而导致泛基因组的概念,即物种中出现的所有DNA序列的集合。据报道,重要作物的泛基因组包括水稻[80.,81.,82],大豆[83,84],番茄[85],向日葵[86]和小麦[87,88]。植物泛基因组的产生和调查通过发现全面的结构变异谱(SV),包括存在 - 不存在变异(PAV),拷贝数变异和大规模染色体重排,彻底改变了我们对物种内部多样性的理解,并帮助我们破译了核心和可有可无的基因组。例如,泛基因组研究分享了一个主要发现,即核心基因相对保守,并且比可有可有的基因具有更慢的进化速率和更高的表达[89]。更重要的是,在泛基因组中检测到的广泛SV与以前的SNP数据互补,并且已经对表型变异做出了巨大贡献(例如,大豆[84]和红花蜀[90]的开花时间和种皮颜色)。
尽管取得了一些进展,但测序和构建植物泛基因组仍处于起步阶段,这带来新的挑战。植物泛基因组的金标准尚未确定。用于生成泛基因组组装的生物信息学工具目前相对来说是具有物种特异性的。从头开始组装提供了详细的基因组信息,但构建具有代表性的泛基因组所需的单基因组的数量很难规定,并且由于基因组大小和复杂性的广泛范围,不同物种将存在很大差异[89]。用于基因组结构和注释的可视化,存储和比较的分析方法仍处于开发的早期阶段,缺乏实际的可扩展性。图示化目前被认为是一种比线性参考更好用和可持续的方法[91]。基于graph-based algorithms图的泛基因组将允许几乎所有变异被更紧凑地表示并避免exponential blow-up(指数放大?),并且基于图的算法已经在vg [92],SevenBridges [93]和PaSGAL [94]中实现。然而,一些研究提出,即将来自多个基因组的reads比对到泛基因组,这可能会增加错配。Integrating both linear and graph-based reference genomes could be a solution for mitigating the issue of false-positive alignments to highly variable regions整合线性和基于图形的参考基因组可以成为缓解与高度可变区域的假阳性对齐问题的解决方案[95]。鉴于目前的测序技术和组装方法能够为大多数植物物种生产高质量的单参考基因组,构建泛基因组的主要挑战是建立可用的(计算和数据存储)和无差错的组装算法,并开发可视化和数据检索工具,供没有生物信息学背景的植物生物学家使用。
结束语
二十年来,测序技术取得了巨大的进步,为从非维管植物到开花植物的物种提供了>1000个基因组。在生产高质量的染色体规模基因组组装方面也取得了令人印象深刻的进步,特别是对于具有大基因组尺寸和复杂基因组特征的物种。参考基因组的指数级增长和最近的泛基因组研究加深了我们对植物多样性遗传基础的理解,并提供了前所未有的与重要性状和环境适应性相关的基因和变异的全面谱系,这些都推动了植物生物学所有学科的范式转变。然而,为任何植物物种生成无间隙的参考基因组仍然是一个挑战,两个主要障碍是多倍体和杂合性。使用泛基因组作为植物生物学研究的新参考具有许多优点,但要建立黄金标准的泛基因组需要克服许多障碍。尽管面临这些挑战,但我们相信植物基因组测序将继续成为未来几十年的主要主题之一,我们设想对植物基因组的研究,以及植物生物学的相关学科,将在未来20年内发生转变(见悬而未决的问题)。
Outstanding questions
到底存在什么障碍,阻止了我们对世间现存的植物界中,尚未具有代表性基因组的或目的基因组的植物进行测序?
我们有无能力开发出通用和实用的方法来进行植物的 端粒到端粒的基因组组装?
我们如何才能为生物实验为主实验室的研究者们开发出方便易用的工具,利用泛基因组去探索和捕获植物多样化的遗传多样性?
致谢
本研究由浙江省科技厅(2020C02002)、山东省农业精英品种项目(2019LZGC003)和江苏省现代作物生产协同创新中心共同支持。
利益声明
作者没有利益可声明。
补充信息
下载 :下载电子表格 (167KB)
补充表1。2000年至2020年测序植物基因组的详细信息