Munoz2014 用现实关系矩阵矫正系谱错误

Munoz PR, Resende MFR, Huber DA, et al (2014) Genomic relationship matrix for correcting pedigree errors in breeding populations: Impact on genetic parameters and genomic selection accuracy. Crop Sci 54:1115–1123. doi: 10.2135/cropsci2012.12.0673

摘要

定量遗传分析旨在估计遗传参数和育种值以选择优良的亲本,家系和个体。对于这些估计,从谱系中导出的关系矩阵通常用于混合模型框架。然而,育种是一个复杂的多步骤过程,谱系中的错误很常见。因为错误会降低遗传参数估计的准确性并影响遗传增益,所以纠正这些错误很重要。在这里我们表明,基于关系系数的正态性,从单核苷酸多态性标记得到的实现关系矩阵(RRM)可用于校正谱系错误。对于火炬松(Pinus taeda L.)繁殖种群,可以检测出系谱中的错误并用RRM进行校正。对于校正后的谱系,最佳线性无偏预测器(BLUP)模型适用于评估的15个性状中的14个显着更好的数据,并且使用岭回归BLUP的基因组选择模型的预测能力增加13个性状。基于关系系数正态性的校正谱系提高了传统估计遗传力和育种值以及基因组选择预测的准确性。随着更多的育种计划开始使用基因组选择,我们建议首先使用密集的标记组来修正系谱错误,然后使用改进的信息来开发基因组选择预测模型

遗传测试旨在提供遗传参数估计的表型信息,如方差分量,遗传力,遗传相关性和育种值。在育种过程中,这些信息被用于选择精英父母,家庭和个人进行商业生产以及后续的遗传改良。对于复杂遗传性状,通常使用最佳线性无偏预测(BLUP)估计育种值(BV),并用于对种群进行选择(Piepho等,2008)。最好的线性无偏预测是基于遗传因素引起的亲缘相似理论(Lynch和Walsh,1998),这些理论几乎总是来源于谱系(Mrode,2005)。因此,当谱系信息准确时,可以获得更好的遗传参数估计。不幸的是,谱系错误在育种中很常见,在动物和树木育种群体中平均占10%(Banos et al。,2001; Visscher et al。,2002; Doerksen and Herbinger,2010)。这种误差的存在会导致对加性方差的不正确估计,导致BLUP-BV预测精度的降低(Ericsson,1999; Banos等,2001; Sanders等,2006)。在传统的基于BLUP的筛选中,据报道,BV准确性降低可将遗传增益降低4.3%至17%(Geldermann等,1986; Israel and Weller,2000)。
为了纠正谱系中的错误,可以使用分子标记。大多数策略依赖父母遗传基因分型数据(Bennewitz et al。,2002; Wiggans et al。,2010)或最近在实现关系矩阵(RRM)的对角线上(Simeone et al。,2011)。当密集的分子标记可用时,它们可以用于根据经验估计亲属之间的实际关系(Powell et al。,2010),并提供个体间共享基因组比例的精确估计。如果一个密集的标记组用于繁殖具有复杂谱系的种群,则个体间RRM值通常分布在给定类别的期望值附近(即期望值[不相关] = 0.0)(Yang等,2010; Simeone等人,2011)。因此,当前子代种群RRM对角线和非对角元素可用于校正谱系错误。这个校正的谱系应该会提高BLUP-BV预测的准确性并增加遗传增益。

提高BLUP-BV的准确性不仅可以提高传统表型选择的收益,还可以提高基因组选择模型的准确性。开发基因组选择(GS)模型以仅使用来自估计的标记效应的信息来预测BV(Meuwissen等,2001)。理想情况下,GS模型应适合可用的最佳表型值,并对已知的环境影响进行校正,因此结果值与总附加值(TAV)非常相似。这是因为GS的目标是由于标记效应将TAV分成片段,然后将它们在不同的基因型配置下(例如,在验证群体或后代中)求和以估计基因组BV。为了纠正这种环境影响,通常需要适合包含固定和随机效应的真实模型。该模型将表型值分解为遗传(随机)和环境影响。同时,由于使用了繁殖种群,在个体相关的情况下,该模型需要用正确的谱系关系矩阵(可加性分子关系矩阵[A]矩阵)对这种已知的共变进行校正。这种方法适当地纠正了任何已知的环境影响,并根据假设无限小模型(A矩阵)的预期关系值生成回归估计的BV(BLUP-BV)。通常在GS预测模型中,在用标记数据回归之前,BLUP-BVs被去回归(Garrick等,2009),这与VanRaden(2008)和Misztal等人提出的单步方法学相当。 (2009年)。然后在验证群体中测试模型以获得GS预测的BV(GS-BV)并估计基因组预测的准确性(Goddard等,2009)。 GS在植物和动物育种中的效用取决于开发用于预测BV的GS模型的准确性(Goddard和Hayes,2009; Habier等,2010; Jannink等,2010; Grattapaglia和Resende,2011; Heffner等2010)。最近,已经开发了许多分析方法(Gianola等,2006; de los Campos等,2009; Habier等,2011)以研究有助于GS准确性的因素(Habier等,2009, 2010; Iwata和Jannink,2011),并提高相对于Meuwissen等人提出的原始方法的GS准确度。 (2001年)。预计BLUP-BVs中更高的准确性和更少的偏差预计会提高所有GS模型的准确性。然而,修正用于开发GS-BV预测模型的BLUP-BVs上的谱系错误的影响尚未被评估。
在这里,我们报告火炬松(Pinus taeda L.)育种群体基于来自密集的单核苷酸多态性(SNP)标记的RRM构建的家系校正的效果。原始和校正的谱系被用于使用岭回归BLUP生成BLUP-BV和后向GS模型。比较BLUP-BV和GS-BV未校正和校正的家系的准确性。

实现的关系矩阵和谱系改正

基于使用BeadStudio 3.1.3.0软件(Illumina,Inc。)的所谓基因型的质量和可靠性以及多态性频率,在之前的研究中预先选择分子标记(Quesada等,2010; Quesada,2010)产生一组2182个SNP标记的基因型。 SNP的这个子集的次要等位基因频率(MAF)> 0.12,类似于Zhong等人在大麦(Hordeum vulgare L.)研究中成功使用的0.10。 (2009年)。将每对个体的实现关系计算为两个个体之间的SNP系数乘以SNP杂合度的总和,如Powell等人所述(2010年)根据Yang等人的建议,对相关性估计值进行了抽样误差调整并缩小到预期值以减少误差(2010年)。使用在RRM中估计的关系,基于围绕其期望值的关系系数的分布的正态性(即全同胞为0.5)对血统进行校正。

  1. 首先,RRM与来自谱系(A)的分子关系矩阵配对。
  2. 其次,确定了重复的个体(不同的标记但是相同的基因型),并保留了缺失值较少的个体。
  3. 第三,全班和半同班同学的关系系数限制是根据每个班级所有关系的正态分布来定义的。
  4. 第四,确定了不符合预期模式的个人或群体。
  5. 第五,通过在数据集中搜索父母或家庭的所有关系来重新分配冲突个体,其中这些个体符合期望。
  6. 最后,只有当冲突个体与所定义边界给出的期望符合来自新父母或家庭的所有个人时,才将个人重新分配给新父母或家庭。一旦确定了新的父母或家人,这些个人就会被重新贴上标签,生成更正的血统。

这个过程是迭代的,因为每次修正个体的谱系时,关系类分布在整个数据库中改变并且被重新计算。

因为材料的特殊性(全同胞+克隆+2种处理),用到的模型也比较复杂


Munoz2014 用现实关系矩阵矫正系谱错误_第1张图片

d应该是不同遗传组分与处理的互作。
DIAG与单位矩阵不同。

讨论

树木的遗传改良在后勤上是复杂的,耗时且昂贵的。 在过去的40年中,林木育种者减少了育种周期,并提高了大多数性状的遗传力估计,这导致了每个周期更大的收益(White等,2007)。 大多数育种人员通过田间试验获得的表型信息计算BLUP-BVs,以及来自系谱繁殖种群的后代,以便为亲本和后代进行选择。 尽管取得了这些进步,但仍然至关重要的一点是减少育种周期并增加每个周期的收益

每个周期的增益受BLUP-BV精度的影响。家谱中的错误可能导致BLUP-BV预测偏差,估计平均为10%(Banos等,2001; Visscher等,2002; Doerksen和Herbinger,2010),尽管这些差异因程序而异。修正谱系错误应改善BLUP-BV预测并改善遗传估计。谱系错误通常通过基因分型(例如,简单序列重复指纹分析)父母和后代或RRM的对角线来检测外来人群(Simeone等人,2011)。在这里,我们建议使用不同关系类的常态属性来纠正谱系中的错误。基因分型方法的最新进展使得密集的分子标记组迅速发展,正如我们所显示的那样,它可以用来纠正谱系中携带的历史错误。使用一组密集的标记具有作为GS目标的副产品的优点。【到这里还不是讨论】
为了纠正错误,RRM(鲍威尔等人,2010)是为繁殖种群构建的。使用MAF> 0.12的标记构建关系矩阵不应该影响矩阵的性质;正如Chen等人所指出的那样。 (2011年),使用当前频率的情况下,使用MAF选择0至0.20之间的标记不会影响矩阵参数或预测准确性【讨论第一点】。在关系矩阵中,由于孟德尔抽样(Simeone et al。,2011),预计每个关系类别(即不相关,半同胞或全职)的正态对称和单峰分布。这已经在3925个人中用294,831个SNPs标记物观察到,其标准偏差在0.004和0.005之间(Yang等人,2010)。随着更多标记的添加,将获得更精确的孟德尔抽样估计,因此观察到更小的标准偏差(Hayes等,2009)。在我们的例子中,我们发现了一个bimodal不对称的半同胞分布【第二点】,表明记录的谱系存在问题,并显示了平均关系的偏差(见图1)。在以零为中心的分布中观察到的另外的峰值表明无关个体被错误分类为半同胞。在重新分配个体并修正谱系之后,观察到预期的正态分布以及标准偏差的显着下降。全族同胞关系和其他人群中的关系类别也是如此。尽管获得了标准误差的大幅下降,但我们的估计仍然高【第三点】于杨等人获得的估计。 (2010)或Simeone等人。 (2011),可能是由于在较小的群体(大约860个个体)上基因分型的SNP标记的数量减少(大约2300),具有来源于圆形交配设计的许多不同的关系类别(即无关,半同胞,全同胞等)。预计会有更好的估计,因为在未来的研究中会增加更多的标记和个体。

【第4点,系谱错误的原因,2点】松树(Pinus spp。)繁殖周期的延长长度及其繁殖生物学有助于发现系谱错误的高可能性。松树是风力授粉的,外来基因型的花粉普遍存在于受控授粉期间。同样,育种周期的长度意味着记录保存容易包含错误,因为很多人都参与了很长一段时间(White et al。,2007)。尽管增加新父母的必要性表明花粉污染(Adams et al。,1988),但大多数错误可以通过重新指定存在于已知谱系中的个体,父母或家庭来纠正。在我们的案例中,有三个人因进一步分析而失败,因为他们之间的关系不一致。这三个个体之间的不一致关系是由于大量缺失的SNP数据,表明基因分型问题。
正如先前报道的松树和奶牛(Bos taurus)(爱立信,1999;班诺斯等人,2001;桑德斯(Sanders)),我们的结果显示家谱错误降低了BLUP-BV预测的准确性等人,2006)。除了提高BLUPBV的准确性之外,使用校正而不是原始谱系显着增加了数据的拟合性(表4),并且表明在8个性状中遗传力略高估,在原始谱系中低估了7个(表4)。【第5点】校正谱系对BLUP分析的影响不仅取决于错误的数量,还取决于个体表型值与个体错误分配的家族平均值之间存在多大差异。发生这种情况是因为传统的BLUP分析将单个记录收缩到A矩阵中定义的家族平均值当错误标记的个体的表型类似于该个体被错误分配的家族平均值时,估计的BV将比在表型值与家族平均值之间的差异大的情况下偏差更小。然而,即使在这些偏倚较小的情况下,关于近亲繁殖和选择也有一些实际考虑。如果表现最好的个体被错误标记,则可能无意中选择相关个体,或者相反,可以避免选择优先无关的个体,因为它们被标记为相同的家族。这两种情况都会影响潜在的遗传获益,第一次通过近亲繁殖抑郁症,第二次会失去选择最佳个体之一的机会。另外,正如Goddard等人所指出的那样。 (2011)和Meuwissen等人(2011),即使使用Misztal等人提出的RRM,仍需要谱系派生的关系矩阵。 (2009年),提供无偏见的预测

基因组选择提供了通过消除在某些阶段需要田间测试来选择优良个体来显着加速树木遗传改良的可能性。此外,精英个体的选择可能比传统的表型选择更精确(Resende等,2012a)。已经提出了许多不同的方法来构建GS预测模型,目的是提高它们的准确性。然而,对于大多数数量性状,任何提出的预测方法都没有明显的优势(Heslot等,2012; Resende等,2012b)。尽管如此,还存在其他机会来提高GS预测模型的准确性。在这项研究中,我们采用了改进BLUP-BV的方法,通过纠正谱系中的错误来构建GS模型
当从校正谱系中得到的BVs被去回归并用于构建GS模型时,这些模型的准确性在15个性状中有13个增加。这包括以前在BLUP分析中遗传力下降的八个特征中的七个。这表明当使用正确谱系估计BLUP-BV时,GS模型更有效地捕获标记与数量性状基因座之间的关联。性状BA_6和CWAC_6表现出新的谱系对GS预测能力的降低;然而,这些性状显示BLUP-BV预测的准确度稍低或相等,并且数据拟合(AIC)的高度增加表明原始谱系高估了这两种情况下的GS预测能力。
总之,系谱错误是育种者普遍关心的问题,因为它们对参数估计有不利影响,并且减少了短期和长期遗传增益。在这项工作中,使用P. taeda繁殖种群作为模型,我们证明谱系错误会削弱传统估计(即BLUP)和基因组选择预测的准确性。由于育种群体中的错误是累积的,因为错误的个体可能被用作下一代的父母,这可能会危及长期育种策略。此外,我们表明,可以使用基因组关系矩阵的估计来基于不同关系系数的正态性来校正这样的错误。虽然所有个体在RRM中都是相互关联的,但只使用复杂谱系矩阵(本例中为全同胞和半同胞)中最常见的关系将确保包括所有个体和关系在内的全人类谱系校正。此外,这种方法的优点是不需要来自父母的分子标记,并且是所需信息的副产品(即,密集的标记组)以执行基因组选择。由于许多育种计划(年度和多年生)开始测试基因组选择,我们的方法可以很容易地应用于这些新的谱系。所提出的方法的效用需要在更深的谱系(即几代)下进行研究,其中基因型之间的较高水平的关系产生连续的关系系数,可能难以将一个关系类别与另一个关系类别分开。随着更多的育种计划开始使用基因组选择,我们建议首先使用密集的标记组来纠正系谱错误。修正后的谱系和标记只能用于开发基因组选择预测模型,从而进一步利用进行基因组选择所需的基因分型投资。

你可能感兴趣的:(Munoz2014 用现实关系矩阵矫正系谱错误)