Grattapaglia D, Silva-Junior O B, Resende R T, et al. 2018. Quantitative Genetics and Genomics Converge to Accelerate Forest Tree Breeding. Frontiers in Plant Science, 9(1693): 10.
融合数量遗传学和基因组学加速林木育种
基于选择、交配和测试的循环周期,林木育种已经成功地提供了对于多种性状的遗传改良材料。然而,长期繁殖周期、晚开花、【这可是早起选择的依据啊】幼年 - 成熟相关性多变,新出现的病虫害,气候和市场变化都构成了巨大的挑战。遗传解剖方法,如数量性状作图和关联遗传学,对于有效推动森林树木中的操作标记辅助选择(MAS)没有结果,主要是因为大多数(如果不是全部)感兴趣的特征都具有复杂的多因子遗传。高通量基因组学和数量遗传学的融合已经建立了两种正在改变当代树木育种教条的新范例。基因组选择(GS)使用大量全基因组标记来预测复杂的表型。它有可能加速繁殖周期,提高选择强度,提高育种价值的准确性。另一方面,实现的基因组关系矩阵通过跟踪谱系中随机孟德尔分离引起的变异,提供遗传参数估计和育种方法的创新。鉴于最近有希望的实验结果,我们在这里简要回顾一下基因组学数据应用于树木育种的主要概念,分析工具和其余挑战。通过简单且高性价比的基因分型,我们现在处于树木育种中广泛采用GS的边缘。未来GS研究的领域包括优化更新预测模型的策略,添加经验证的功能基因组学数据以提高预测准确性,以及整合基因组和多环境数据,以预测未经测试的地点或不断变化的气候情景下遗传物质的表现。大规模育种群体中表型和全基因组数据的积累以及离散基因组特征的计算预测的进展也应该提供增强基因组学在树木育种中的应用的机会。
介绍
林木育种包括许多步骤以在目标群体中同时增加有益等位基因的频率。经常性的选择周期最终通过以最具成本效益的方式最大化每单位时间的遗传增益来导致基因改良的种植材料(Namkoong等,1988 ; White等,2007))。繁殖周期长,开花晚期和开花不良,幼年成熟相关性差,气候变化,市场需求和新出现的病虫害压力,这些都是一项艰巨的挑战。因此,树木育种计划的进步和最终产出高度取决于育种周期的长短。为了最大化每单位时间的遗传增益,在树木育种方面的广泛努力致力于两种基本手段,通过这两种手段可以减少育种周期的长度,即早期选择和加速育种。前者是基于对青少年成熟相关性的理解和青少年性状选择的实践(Williams,1988),后者涉及激素,应激处理和顶部嫁接的早期花诱导方法(Greenwood等,1991 ; Hasan和Reid,1995)。在80年代后期,DNA标记的出现和关于解剖数量性状的离散孟德尔因子的两篇开创性论文(Lander和Botstein,1989)和标记辅助选择(MAS)(Lande和Thompson,1990),作为克服树木繁殖时间挑战的有力工具(El-Kassaby,1982 ; Neale和Williams,1991 ; Grattapaglia等,1992 ; Williams和Neale,1992)。
在这里,我们将介绍使用基因组技术优化和加速树木育种的一般主题的科学现状。首先介绍QTL(数量性状基因座)和关联作图的路径的简要概述。它提供了一个快速的历史视角,了解我们如何以及为什么达到定量遗传学和基因组学之间的趋同点。此外,它还有助于证实还原论“遗传解剖”接近或试图使用单个候选基因或来自转录组学的扩散,间接信息,这一事实尚未证明对育种实践有用,因此不再进一步讨论。鉴于最近有希望的全基因组预测结果,我们关注影响因素以及将基因组数据完全整合到树木育种中所面临的挑战。尽管Niels Bohr和其他人曾经有趣地说,做出预测很难“特别是关于未来”,但我们试图在树木育种的不久的将来,当基因分型,全基因组测序和数千棵树的基因组特征的计算预测将不会是限制。我们预计未来通过常规基因组选择(GS)在多个大群体中实现的进步将为重新审视离散基因组元件的发现提供更强大的平台,这些元素可进一步增强全基因组表型预测并最终允许直接的离散干预在DNA序列水平。
从遗传解剖到基因组选择的途径
早期对森林树木的MAS前景进行了适当的质疑,将森林树种群的连锁平衡,与环境相互作用的QTL以及代际间等位基因频率的变化所导致的特定遗传背景的潜在价值限制在其中(Strauss等,1992)。尽管有这些合理的建议,但在近交作物和模型系统中QTL作图的有希望的结果鼓励了主要针叶树和桉树中的许多QTL作图实验。回想起来,考虑到在森林树木中进行双亲QTL作图研究的现实生命树育种的距离是多么惊人(Grattapaglia,2017)。激励假设是,有可能定位和估计每个种群和环境中复杂性状的大多数个体QTL的影响,并在树木育种实践中实施。报告了大量报告森林树木中数百个QTL的研究(综述于(Kirst等,2004 ; Grattapaglia等,2009 ; Neale和Kremer,2011)。)。虽然在那些早期研究中发现了几个据称是“主要影响”的QTL,但事实证明这些QTL的效应大小被高估并低估了数量。实际上,随后的多家庭实验和更大的样本量显示出更多的QTL,其相应的影响更小,并且在整个环境和遗传背景下表现不一致(Ukrainetz等,2008 ; Novaes等,2009 ; Thumma等, 2010 ; Gion等,2011)。
为了解决单映射家族中QTL检测的缺点,提出了关联遗传学作为一种提供适用于育种的群体范围标记 - 性状关联的方法(Neale和Savolainen,2004)。当时询问DNA多态性的方法的局限性仅允许候选基因方法(Thumma等人,2005 ; Gonzalez-Martinez等人,2007),然后在几个森林树种中进行全基因组关联作图(GWAS)(蟠龙等人,2011; Cumbie等人,2011; 卡帕等人,2013; 波思等人,2013; 。Mckown等人,2014)。但是,不论使用的标记密度、种群大小和改进的分析方法的,以考虑低频变体(Fahrenkrog等人,2017; Muller等人,2017,2018 ; 。勒森德等人,2017A),只有很少的多态性已经检测到非常适度的影响,在很大程度上仍缺乏独立验证,这是GWAS结果科学可信度的基石。实际上,经过25年的基于数量性状遗传解剖的原理和实验方法的研究工作,没有实现这种努力转化为业务树木育种(Grattapaglia等,2009 ; Grattapaglia,2014 ; Isik,2014))。
完全解剖复杂性状的无效性以及MAS的局限性并不仅限于森林树木,但也已在作物(Bernardo,2008)和家畜(Dekkers,2004)中得到认可。这种认识导致了植物和动物MAS的范式和技术方法的重大转变。这些领域现在已经从离散标记 - 性状关联的先验发现转移到DNA标记数据辅助的全基因组效应的捕获,与Fisher的无穷小模型预测的量化遗传学的多因子多基因性质相协调(Fisher, 1918年)。这种转变只有在开发出改进的和可获得的基因组技术之后才有可能,这些技术允许使用成本有效的平台询问数千个全基因组单核苷酸多态性(SNP)。使用“总等位基因”(Nejati-Javaremi等,1997)或“总基因组”(Haley和Visscher,1998)与标记数据的关系来推导育种值的估计后来被称为“基因组选择”(GS) )在Meuwissen等人(2001)开创性论文。它证明了“从标记中预测遗传值的选择可以大大提高动物和植物每单位时间遗传增益的速度,特别是如果结合缩短生成间隔的技术。”
GS使用全基因组标记物,通常是SNP(单核苷酸多态性),其对表型的影响在“训练”群体中估计。在森林树木中,这样的训练集通常是通过从几十个父母交配的后代试验中抽取一到几千个个体来构成目标精英种质。SNP用于构建预测模型,以便稍后应用于“选择候选物”,其中仅收集基因型并且通过基因组数据预测表型。预测模型针对“验证”群体进行交叉验证,“验证”群体是训练集的一组遗传相关个体,但不参与标记效应的估计。GS从根本上利用了训练群体和预期选择候选者之间的遗传关系,并且在较小程度上利用了标记数据和QTL效应之间的连锁不平衡(LD)。通过排除从严格显着性检验得出的先前离散标记选择,以及通过估计更大和育种代表性树种群中的标记效应,GS捕获了由QTL作图或GWAS所产生的大量基因组效应所贡献的遗传力的相当大比例,原则上,既不能也不打算捕获。
图1。森林树木的基因组选择。GS首先开发了感兴趣的特征预测模型(左图),然后在GS周期中使用(右图)并逐步更新。GS使用全基因组标记,其在不进行严格显着性检验的情况下在个体的大型且有代表性的“训练群体”中同时估计其对表型的影响。标记在预测模型中被保留作为表型的预测者,以便稍后应用于仅选择基因型的“选择候选者”。预测模型针对“验证群体”进行交叉验证,“验证群体”是相同参考群体的一组个体,其未用于标记效应的估计。一旦预测模型显示出足够的准确度,它就可以用于GS循环。一系列选拔候选人 - 充满了半兄弟家庭,他们来自于训练集的原始精英父母,或者在训练集中选择的精英个体 - 进行基因分型,并使用之前开发的模型估计其育种值(GEBV)和/或基因型值(GEGV;加性+非加性效应)。GEBV的顶级幼苗受到早期花诱导和相互交配以产生下一代育种。GEGV的顶级幼苗是克隆繁殖并在验证克隆试验中进行测试,其中最终选择优良克隆用于操作种植。另外,已经基因分型的选择候选物的所有或子集被种植在实验设计中并且在目标选择年龄进行表型分析,以提供GS模型更新的基因型和性状数据,因为GS代进展和气候变化。添加剂+非加性效应)使用之前开发的模型估算。GEBV的顶级幼苗受到早期花诱导和相互交配以产生下一代育种。GEGV的顶级幼苗是克隆繁殖并在验证克隆试验中进行测试,其中最终选择优良克隆用于操作种植。另外,已经基因分型的选择候选物的所有或子集被种植在实验设计中并且在目标选择年龄进行表型分析,以提供GS模型更新的基因型和性状数据,因为GS代进展和气候变化。添加剂+非加性效应)使用之前开发的模型估算。GEBV的顶级幼苗受到早期花诱导和相互交配以产生下一代育种。GEGV的顶级幼苗是克隆繁殖并在验证克隆试验中进行测试,其中最终选择优良克隆用于操作种植。另外,已经基因分型的选择候选物的所有或子集被种植在实验设计中并且在目标选择年龄进行表型分析,以提供GS模型更新的基因型和性状数据,因为GS代进展和气候变化。GEGV的顶级幼苗是克隆繁殖并在验证克隆试验中进行测试,其中最终选择优良克隆用于操作种植。另外,已经基因分型的选择候选物的所有或子集被种植在实验设计中并且在目标选择年龄进行表型分析,以提供GS模型更新的基因型和性状数据,因为GS代进展和气候变化。GEGV的顶级幼苗是克隆繁殖并在验证克隆试验中进行测试,其中最终选择优良克隆用于操作种植。另外,已经基因分型的选择候选物的所有或子集被种植在实验设计中并且在目标选择年龄进行表型分析,以提供GS模型更新的基因型和性状数据,因为GS代进展和气候变化。
树木育种中基因组选择的观点
GS可以对遗传增益率产生重大影响。让我们回忆一下Falconer的育种者方程()(Falconer,1989),其中,i是选择强度; r是原始Falconer表达式中选择或遗传力的准确性,对应于估计和真实育种值之间的相关性; σA是被检查的性状的加性遗传标准偏差; 和L是生成间隔。GS可以通过增加(i)来增加繁殖周期的遗传增益率因为与常规田间后代试验中可测试的树木数量相比,可以用标记数据预测苗圃中更大数量幼苗的表型。另外,使用基因组实现的关系与增加的准确度估计σA相关联和育种值(r) (Hayes等人,2009 ; 埃尔二烯等人,2018。 )。然而,在森林树木中,GS对遗传进展速度的潜在最大影响将来自减少(L)。可以在非常早的年龄预测选择候选物的表型,例如,当幼苗是几周龄时。GS不仅可以排除或至少提高后代测试的效率,而且还可以通过推进少量预先选择的树来优化克隆测试阶段,以便在多站点扩展克隆试验中进行评估(Resende等,2012a)(图1)。在针叶树中,GS与体细胞胚胎发生相结合,用于克隆繁殖优良基因型,可以根据其基因组价值选择优质合子胚,从而节省大量时间,并避免目前冷冻保存中的成本和不确定性(Resende等,2012b))。此外,GS将允许在大量个体中同时和早期选择多个性状,这是目前大部分采用串联选择的常规树育种中不可能完成的任务。因此,GS的最终影响将是树木育种计划的一般效率的显着改善,当然,前提是基因分型是廉价的并且GS模型是准确的。
是什么让GS与树木育种者迄今为止所做的不同的是,DNA数据不是唯一依赖于预期的谱系,而是经常容易出错,而是允许人们建立加性和非加性基因组关系矩阵,更准确地指定个体之间的关系。同时考虑到当代以及历史谱系。这个程序不仅可以纠正谱系的不准确性,而且可以捕捉由随机孟德尔分离项引起的家庭内部变异。因此,实现的遗传协方差现在基于基因组的实际部分,这些部分通过血统或个体之间的状态相同(Vanraden,2008))。森林树木的许多研究表明,基因组关系可以比单独的谱系产生更准确的预测(Munoz等,2014 ; El-Dien等,2015,2018 ; Bouvet等,2016 ; Cappa等,2017,2018 ; Tan等,2018)。此外,在一步分析中,一小部分后代测试群体已实现的基因组关系已经与大部分非基因型个体有效结合(Legarra et al,2009))。该方法被称为“HBLUP”,因为育种值的最佳线性无偏预测因子(BLUPs)是使用单一(H)遗传协方差矩阵导出的,该矩阵将基于谱系的平均分子关系矩阵(A)与基于标记的关系相结合。矩阵(G)。HBLUP提高了传统谱系产生的遗传参数的精确度,如最近的森林树木研究所示(Cappa等,2017,2018 ; Ratcliffe等,2017)。
GS:林木的进展与挑战
最近发布了一份全面的,有时间排列的森林树种经验性GS报告清单(Grattapaglia,2017),现在更新在表1中。预测准确度基本上非常好,与基于谱系的表型选择可获得的匹配或超越,与先前的模拟一致(Grattapaglia和Resende,2011 ; Iwata等,2011 ; Denis和Bouvet,2013)。然而,在考虑树木育种的实用性时,必须考虑影响GS前景的许多因素,包括培养种群的组成,分析方法,基因型x环境相互作用(G * E),年龄 - 年龄相关性,长期模型的性能和DNA标记数据的成本和质量。所有这些都是研究的主题,并在Grattapaglia(2017)的树木育种背景下进行了详细的评述,并在下面根据森林树木中报道的实验结果进行简要讨论。
表1。迄今为止发表的森林树种实验基因组选择研究的时间表摘要。
林木中的GS实验充分利用了育种群体的现有结构和多样性及其设计,这些因素考虑了培训与预期选择候选者之间的预期关系。从现有后代试验中抽取数百至数千个个体的培养种群,其有效种群大小与操作育种中使用的有效种群大小一致,在基本上所有研究和所有性状中提供了良好的预测。已经使用并比较了与推测的性状结构不同的分析方法。在所有研究中,岭回归最佳线性无偏预测(RR-BLUP),标记效应被视为随机的,正态分布,具有共同方差,非常有效。RR-BLUP相当于Genomic BLUP(GBLUP),Resende等,2012c ; Beaulieu等,2014b ; Ratcliffe等,2015 ; Isik等,2016 ; Müller等,2017 ; Tan et al。,2017 ; Chen等,2018)。尽管如此,仍然需要在该领域进行额外的研究,因为可能会出现影响稍大的基因组区域的先前功能信息,例如,对于预测火炬松中梭形锈病抗性所显示的抗病性状(Resende等,2012c) 。
自从森林树木的第一次实验性GS研究(Grattapaglia等,2011 ; Resende等,2012a,b)以来,很明显预测的准确性主要由训练集和验证集之间的遗传关系驱动,并且依赖于G * E和年龄相关性。预测将在同一年龄和预测模型训练的相同环境中最有效。针叶树的进一步研究(Zapata-Valenzuela等,2013 ; Beaulieu等,2014a,b ; El-Dien等,2015 ; Ratcliffe等,2015 ; Thistlethwaite等,2017 ; Chen等。 ,2018年)和桉树(Müller等,2017 ; Tan等,2017),证实了遗传关系的关键意义以及G * E和年龄 - 年龄相关性的影响,与家畜和作物植物的发现一致(Lin等人,2014 ; Van Eenennaam等人,2014)。虽然来自G * E或年龄相关性研究的数据将阐明对基因组预测的期望,但确保未来选择候选者的目标环境将等同于最初训练模型的目标环境对于GS来说是一个具有挑战性的问题(Heslot等,2015)。定期对GS模型进行再培训,将育种期间收集的表型纳入当前(Iwata et al,2011)预计将缓解这一问题,并且鉴于气候波动,这将是特别重要的。这一领域的研究工作非常需要,随着GS计划的推进,以及集成遥感,空间和地理信息系统的表型平台的创新(Dungey等,2018)。
尽管对预测能力进行了令人鼓舞的估计,但大多数森林树木的研究使用了当代培训和验证集,因此尚未能够在更大范围内充分评估GS在各代人中的实现绩效,但该主题的结果迫在眉睫。然而,鉴于亲本和后代之间的关系可以通过DNA标记数据准确捕获,并且环境应该在近代中相对稳定,预计性能将等同于当代集合中的当前估计。在Pinus pinaster中,通过同一组中父母和后代的训练模型报告了代际预测的初步有希望的结果(Isik等,2016)以及后来使用父母和祖父母预测后代,虽然有效人口规模有限(Bartholome等,2016)。然而,在Pseudotsuga menziesii(El-Kassaby,个人通信)的三代研究中未观察到这种结果。因此,模型更新策略对于抵消原始训练集和选择候选者之间的相关性和LD的衰退是至关重要的,如桉树育种的模拟所示(Denis和Bouvet,2013)。
在过去的两年中,已经报道了许多其他实验性GS研究(Cappa等,2017,2018 ; Duran等,2017 ; Lenz等,2017 ; Müller等,2017 ; Ratcliffe等,2017 ; Tan等人,2017。 ,2018 ; 西斯尔思韦等人,2017。 )(表1 ; 。勒森德等人,2017b ; Chen等人,2018 ; 内容De Moraes的等人,2018 ; 埃尔二烯等al,2018 ; Kainer et al,2018 ; Suontama et al,2018)。他们中的许多人在物种中Eucalyptus可用于DArT(Sansaloni等,2010)和SNP(Silva-Junior等,2015)的公共高通量基因分型平台。获取这些桉树资源也可以提高遗传参数估计,谱系重建和近亲繁殖研究的准确性(Telfer等,2015 ; Klápště等,2017 ; Müller等,2017 ;)。这清楚地表明,基因组学在育种中的研究和操作采用的进步在很大程度上取决于公共,稳健,成本可获得和便携式SNP基因分型平台的可用性。GS或任何其他基于基因组的育种方法的成功将依赖于高数据质量,因为必须能够对具有高重现性和可忽略的缺失数据的几代SNP进行基因分型。虽然浅全基因组测序(Kainer等,2018),测序基因分型(GbS)(El-Dien等,2015)和序列捕获(Thistlethwaite等,2017 ; Chen等,2018 ; De Moraes等,2018)也被用于树木中的GS,目前固定的SNP阵列提供了样品批次和实验室的数据再现性的金标准。此外,SNP阵列数据是繁殖者友好的,可从多个服务提供商处获得,易于管理和存储,无需序列数据传输,存储和分析的成本和后勤。这和最近显着的阵列成本下降,使它们像基于序列的方法一样具有成本效益,促使国际上大量努力为所有主要种植的针叶树开发SNP阵列(F. Isik pers.comm。),以及第二个生成,更高密度优化的SNP阵列用于桉树和Corymbia物种(OB Silva-Junior和D. Grattapaglia pers.comm。)。在不同组织的育种计划中使用共同的SNP基因分型阵列将是提供必要的规模经济以将基因组学整合到育种中的关键问题。
展望近期
由于可以轻松获得SNP基因分型并在基本上所有主要森林树木中取得积极成果,我们现在处于广泛采用基因组预测数据的边缘,从而实现了MAS在林木育种中的早期承诺。除了上面讨论的突出的研究挑战之外,增加基因组数据价值的一个有希望的领域还包括在GS模型中包含环境共变量,如作物中已经显示的那样(Jarquin等,2014 ; Saint Pierre等。 ,2016年)。多环境试验数据的整合对于预测未观测环境中的性能,确定评估或部署遗传材料的适当场所以及预测气候变化情景具有战略意义。虽然在了解基因组相关性时预测未经检测的克隆或家族的表现是准确的,但相应地,如果有关于桉树克隆推荐的那些环境的数据,可以预测尚未观察到的或未来环境中的表现(Marcatti et al。,2017)。ClimateNA(Wang et al。,2016)和NASA POWER项目(Stackhouse,2014)等资源)提供大量历史和预测的未来环境数据。由于定义生长条件之间相关性的环境变量具有特征性特征,因此对那些最适合纳入基因组预测模型的研究至关重要。
需要研究的另一个领域来自于从稀疏SNP数据转变为GS序列数据的测序技术的发展。除了在育种计划框架中管理大量个体的大量下一代测序数据集的挑战和成本之外,理论上,如果使用序列数据而不是密集的SNP,准确性应该增加,因为罕见的因果等位基因将更好地捕获预测模型。然而,到目前为止,家畜的模拟和实验研究表明,当LD具有缓慢的衰变模式时,全基因组序列数据不会提高准确性(Macleod等,2014 ; Forneris等,2017 ; Vanraden等。 ,2017年),除非存在对特定SNP功能的非常精确的先前估计(Perez-Enciso等,2015)。因此,有必要提高特定基因组区域功能数据的可用性和质量。
全基因组预测的成功和解剖方法在鉴定功能性数量性状核苷酸方面的不良结果,为复杂性状变异的研究提供了令人兴奋的新视角。在一年生植物中出现了一种清晰的模式,表明大样本中常见变异体的关联信号虽然遍布整个基因组,但却高度集中在由脱氧核糖核酸酶过敏位点标记的开放染色质中的调控DNA中(Sullivan等,2014 ; Rodgers-Melnick等,2016 ; Swinnen等,2016)。在这些植物中,与开放染色质相关的顺式调节元件(CRE)如调节基因表达的启动子和增强子可能含有影响性状的所有变体的近一半。随着GS实施的进展以及收集无关群体中数千棵树的大型数据集,联合和元GWAS将出现机会,如最近在Eucalyptus中所述(Müller等,2018)。同时,报告了Eucalyptus(Hussey等,2017)和Populus(Zinkgraf等,2017)的染色质可及性和基因网络数据。)将变得越来越可用,结合来自高功率SNP-性状关联研究的数据,应该为基因组中关键调控元件的计算预测发现提供新途径。因此,基于大基因型和表型数据集的这种综合方法的进展可能导致了解离散基因组元件和连续表型性状变异之间的复杂连接和相互作用的额外线索,最终增强树木育种实践。