Genomic selection :A paradigm shift in animal breeding

基因组选择:动物育种中范式的转变

文章来源:[https://academic.oup.com/af/article/6/1/6/4638797?tdsourcetag=s_pcqq_aiomsg]
阅读者:刘绵宇

摘要

传统的标记辅助选择(MAS)并未使DNA信息在动物育种中的广泛使用。主要原因是畜牧生产中感兴趣的性状比预期的要复杂得多:它们由数千种对表型影响微小的基因决定。这些影响通常太小而没有统计显著(事物得以相互区别的能力),因此被忽略。

基因组选择(GS)假定所有标记都可能与影响该性状的基因相关联,并专注于估计其作用而不是测试其重要性。三项技术突破导致当前DNA信息在动物育种中得到广泛使用:基因组选择技术的发展,大量遗传标记(单核苷酸多态性;SNP)的发现以及高通量技术以低成本的方式对动物(几十万)的snp进行基因分型。

本文回顾了GS的当前方法,包括它们如何处理基因型大量缺失的实际数据。预期了全基因组序列数据的使用,并描述其优缺点。阐述了GS对奶牛和肉牛,猪以及家禽育种的当前和未来的影响。文末讨论了GS的未来发展方向。

预计未来的gs应用可能是:在品种内(wbgs),通过保持庞大的近交参考种群获得准确度;或在品种间(abgs),通过跨品种参考种群和高密度gs方法(专注于致病基因组区域)获得准确度。我们认为,未来的GS应用将越来越多地转向abGS。

前言

动物育种,即对重要经济性状的选择育种,在传统是以表型记录数据为基础的。最佳线性无偏预测(BLUP)将个体表型记录和系谱信息结合起来估计育种值(EBV)。自1990年起,分子遗传学的进展使人们相信,在DNA水平上信息的利用将比仅仅使用表型数据带来更多的遗传改良。这导致了对MAS的研究,包括两个步骤:(1)检测和(精确)定位感兴趣性状的基因,即所谓的数量性状位点(QTL)(2)将QTL信息包括在BLUP-EBV中。

QTL定位步骤(1)中大多数检测基因的定位研究是有意义的,但是定位研究的重复性较低,即在QTL的位置在不同的研究中可能会发生改变或消失,其中的一个原因是大多数QTL的效应很小,当这与测试中的大量标记结合时,存在明显的“Beavis效应”,其中明显标记的估计效应被高估(Beavis,1994)。比如,如果我们使用0.01的P值测试100个标记的统计显著性,则即使所有真正的标记效应都为零,我们也期望得到一个(假)显著结果。相反,如果所有标记都具有非常小的影响,则少数(随机选取的)标记将达到更高的显著性水平,并且大多数标记将达不到阈值并被判断为不显著。在全基因组关联研究(GWAS)中,测试的数量等于基因型独立SNP的数量,通常在家畜中有数千个,在人类遗传学中有数十万个。由于SNP的数量如此之多,多重测试问题变得越来越重要,以至于在人类遗传学中,P值应小于5×10-8。此外,人类遗传学期刊还要求在独立的数据集种确认QTL。

这些非常严格的测试结果只发现了最显著的QTL。对于一些性状来说就检测到了这样的QTL,例如影响牛奶中脂肪含量的DGA T1(Grisart等,2001)和影响大西洋鲑鱼传染性胰腺坏死病毒(IPNV)抗性的CDH1(Moen等,2015)。然而,对于许多的其他性状来说,没有发现可靠的QTL,并且QTL解释了不到10%的总体育种目标的变异,即所有重要经济性状的组合。甚至对于进行了很多强力QTL定位研究的奶牛来说也是如此,QTL解释的育种目标的遗传方差不到10%,意味着家畜之间90%以上的遗传差异必须通过传统选择来处理。因此,直到2005年MAS在家畜育种中的应用也非常有限。在人类遗传学中,非常庞大的GW AS研究(例如,160,000个个体对500,000个SNPs进行基因分型)只解释了总遗传变异中(非常)有限的一部分,这一结果被称为缺失遗传力悖论(Manolio等,2009),即这些庞大的gwas研究没有解释大部分遗传变异。

关于遗漏遗传力问题的许多解释已经发表(Manolio等人,2009)。其中最有可能的解释似乎是因为非常严格的统计检验和许多影响性状的小效应基因两方面结合的原因,即,尽管有大量的基因型个体,但基因效应太小而不能通过严格的统计检验。所有这些小基因共同解释了大多数性状的绝大多数遗传变异(Yang等,2010)。2001年,Hayes和Goddard(2001)预测50-100个基因影响乳品性状,这在当时被认为是一个很高的估计。而基于目前的GWAS和基因组选择结果,我们认为乳品性状受2,000-10,000个基因的影响。因此,被认为影响复杂性状(如乳品性状)的基因数量在过去15年中增加了100倍,即复杂性状比一二十年前的预期要复杂得多。太多影响性状的基因意味着单个基因的影响很小,这限制了MAS方法的效率。

三个突破导致目前DNA信息的广泛应用:1)GS方法学(Meuwissen等,2001),2)数千个SNP标记的鉴定,3)SNP芯片基因分型技术,使所有这些SNP的基因分型的成本降低。在MAS中,使用了少量有意义的标记,其余的被视为零效应。在GS中,所有这些SNP的影响都是在不进行任何显著性检验的情况下同时进行估计的。如果有大约10,000个基因影响一个性状,那么基因组上到处都是基因,这可能与分布在整个基因组中的数千个SNP有关。因此,所有SNP都有效应的假设可能是有价值的,我们应该将我们的重点从显著性测试转移到估计所有标记的影响。(第二代)测序工作使许多家畜物种基因组序列的发现,同时揭示了数千个SNP标记。在牛中,1,000头公牛的测序项目已经揭示了3000万个SNP标记(Daetwyler等,2014)。SNP芯片基因分型技术主要由Illumina和Affymetrix开发,第一代SNP芯片包含大多数家畜物种的典型约50,000个SNP。

在基因组选择中,对参考群体进行基因分型并记录性状来估计SNP效应,接下来,对候选群体进行基因分型,并通过将其基因型与估计的效应相结合来估计候选群体的基因组估计育种值(GEBV),我们可以注意到GS方法并不需要系谱信息,而系谱信息在传统的BLUP-EBV中是必须的,并且选优家畜(候选群体)不一定要具有表型信息,在传统育种中,选优育种的家畜要尽可能准确地记录表型性状和系谱信息。这种将精准记录与选优育种群体分开的潜力使得完全重设育种方案成为可能,因此GS导致了动物育种的范式转变。我们的目的是为非遗传学家的读者更详细地描述GS方法。此外,我们还将描述当前和预测未来GS对奶牛和肉牛、猪和家禽养殖的影响。

基因组选择方法

在参考群体中同时估算所有SNP效应,使用统计模型对它们的基因型和表型进行分析(假设有50,000个SNP)

公式1

yi是动物i的表型; μ是总体平均值; X1i是标记i的动物i的基因型; ei是残差。通常我们有<50,000只的参考群体,如果使用传统的统计方法,将50,000个SNP效应视为固定效应则无法估算它们的效应。在GS中,通过将SNP效应看作从已知分布中得出的随机效应,可以解决此问题。这可以看作是一种贝叶斯方法,其中添加了有关SNP效应的先验信息以使所有效应都可估计。一个常用的先验假设是SNP效应呈正态分布,均值为0,且具有恒定的方差(即总遗传方差除以50,000)。实际上,此方法使用BLUP来估计SNP的效应,有时称为SNP-BLUP。
候选群体j的基因组育种值预测为:
公式2

其中1是对SNP1效应的估计;X1j是SNP1的动物j的基因型。

GBLUP方法

在传统BLUP中,EBV使用表型和亲缘关系进行估算,这些基于动物的系谱。在GBLUP中,GEBV使用表型和基因组关系进行估算,这些表型和基因组关系基于全基因组范围内的密集标记数据。动物1和2之间的基因组关系被计算为它们的SNP基因型xj1和xj2在所有j的SNP之间的相关性。因此,GBLUP方法与传统的BLUP非常相似,除了谱系关系被基因组关系代替。 GBLUP方法的一个实际优势是,所有传统的BLUP方法和软件仍然可以使用:我们只需要用基因组关系替换谱系即可。

两个全同胞之间的系谱关系是0.5,这意味着两个全同胞个体预期具有50%等位基因相同。然而,在现实生活中,两个全同胞可能共享60%或40%的等位基因,并且这种与基于系谱的50%的期望的偏差将通过密集标记基因分型来检测到。因此,GBLUP比传统的BLUP更准确,因为基因组关系比基于谱系的关系更准确。前者需要基于足够大数量的SNP进行基因组关系估计。对于一个品种中的牲畜和亲缘关系,50000个SNP分布在整个基因组中似乎就足够了(Goddard等人,2011)。品种间的亲缘关系越小需要的SNP数量越多。
GBLUP方法的统计模型为:

公式3

ui是动物i的育种值。如果我们将ui定义为如下式子,则GBLUP和SNP-BLUP育种值是等效的。

公式4

ui的定义对两个动物ui和uj之间的协方差有影响,其变为:


公式5

假设总遗传方差为1(为简单起见),每个SNP的方差为Sb 2 = 1/50000。如果我们对基因型Xki进行标准化,以使其在每个SNP k中均值为0,标准差为1,则上述公式将计算SNP基因型之间的相关性,即动物i和j之间的基因组关系。 (此处不需要对相关系数计算中的均值和标准差进行通常的校正,因为对SNP基因型进行了缩放,以使其均值为0而标准差为1。)以这种方式进行参数化时,SNP-BLUP和GBLUP模型暗示动物之间具有相同的协方差,因此也具有相同的动物遗传价值记录回归系数。后者意味着,当仔细调整参数时,SNP-BLUP和GBLUP产生相同的GEBV,即方法被认为是等效的。 GBLUP和SNP-BLUP等效性的更正式推论可以在文献中找到(Habier等,2007; VanRaden,2008; Goddard,2009)。

GBLUP和SNP-BLUP的计算要求可能有很大的不同。 SNP-BLUP需要估计50,000个SNP效果,因此需要求解50,000个方程组,而GBLUP需要估计N个GEBV和求解N个方程,其中N是动物的数量。由于通常基因型动物的数量少于50,000,因此(在计算上)首选GBLUP方法。将来,基因型动物的数量预计会急剧增加,因此SNP-BLUP方法很可能成为首选方法。但是,其他非BLUP方法也可能会变得流行起来,如以下各节所示。

基因组选择的非线性方法

SNP-BLUP(以及隐含的GBLUP)中的先验信息假定每个SNP的SNP效应均以相同的方差分布。该假设导致对SNP效应的BLUP估计是所有观察到的表型的线性组合。从生物学上讲,我们可能希望某些接近基因的SNP起作用,而另一些则没有效果。已经开发出许多方法,这些方法结合了先验信息,这些信息假定SNP的分数π有作用,而分数(1-π)根本没有作用。这些方法使用的模型是:

公式6

其中Ij是指示变量,其值为0或1,指示SNP j是否有效。 BayesC假定具有影响的SNP正态分布具有恒定的方差(Habier等,2011),因此最接近SNP-BLUP。 BayesB使用先验效应的SNP的t分布,这使得某些SNP具有非常大的效应(Meuwissen等,2001)。 BayesR假设有效SNP的正态分布是混合的,这也允许一些SNP具有非常大的效应,即那些从具有最大方差的分布中提取的SNP(Erbe等人,2012)。这些方法估计的SNP效应不再是表型的线性组合。其他非线性估计方法是BayesA(Meuwissen等,2001),LASSO,Bayesian Lasso和弹性网(Hastie等,2009)。 (非线性方法有时被称为“贝叶斯”方法,因为它们使用SNP效果的先验分布,但是SNP-BLUP也使用先验分布,假定为正态分布。)

非线性方法使用的SNP效应的先验分布在生物学上比假设所有SNP都具有效应且所有效应都非常小要有意义。在计算机仿真研究中,非线性方法明显优于GBLUP(Meuwissen和Goddard,2010年),但在实际数据中,非线性方法在某些特征上优于某些特征,但不是全部特征(Erbe等人,2012年)。这可能由以下解释:(1) 有许多基因影响着重要的经济性状,因此假设所有SNP均具有作用是近似正确的。 (2) 连锁不平衡(两个基因座之间的非随机关联)延伸到牲畜种群中较大的基因组距离,从而使许多SNP与一个基因相关联; (3) SNP密度不够高,以至于每个QTL可以用一个SNP来解释,因此需要许多SNP来共同解释QTL的作用。所以,当将50k SNP芯片替换为高密度777k SNP芯片并且数据包含多个品种时,非线性方法相对于GBLUP的优势更加明显(Brøndum等人,2015)。(1)和(2)的组合,即有许多基因与连锁不平衡的程度有关,主要解释了GBLUP在品种内的良好表现。

序列数据

基于SNP芯片基因型的基因组选择取决于QTL与SNP之间的连锁不平衡(LD),即SNP与QTL之间的关联。增加SNP的密度会增加任何QTL具有与其完美结合的SNP的可能性。最终密度是用全基因组序列(WGS)数据代替SNP基因型。在后一种情况下,预期致病突变会出现在序列数据中,但是,GS可以直接作用于致病突变,而不必依赖标记和致病突变之间的LD。然而,这些突变隐藏在数百万个SNP中,没有任何作用。由此预期和模拟研究表明(Meuwissen和Goddard,2010年),在使用WGS数据时,假设许多SNP没有效应的非线性GS方法的准确度要比GBLUP高得多。

最近,Brøndum等人。 (2015年)证明了具有序列数据的GEBV的准确性小幅增长(2-5%)。当前的WGS数据不会大大改善GEBV的准确性的原因可以解释如下。首先,当从777k数据转换为WGS数据时,GBLUP方法预期不会产生什么改进,因为用777k数据准确估计了基因组关系,而WGS几乎不会提高关系的准确性,因此也无法提高GEBV。但是,非线性GS方法试图识别因果SNP,并有望从WGS数据中受益。第二,当前的WGS数据不是很准确,可能是由于不完善的基因型调用,对SNP归因的广泛依赖(请参阅下一节)或结构基因组变异(很难通过短读序列进行评估)。WGS数据中的不准确之处可能会抵消更高的SNP密度带来的好处。第三,远距离LD在参考种群动物中可能广泛存在,导致大的染色体片段或单倍型很常见。因此,将有许多SNP组合来解释单倍型以及因果变体的作用。每种统计方法都会选择最适合其先前假设的SNP效果组合,而它们都可能对单倍型效果给出相同的预测。但是,如果减小LD的范围(例如,通过使用不那么紧密相关的参考群体),则专注于因果变体的非线性方法可能会比GBLUP(后者同样使用所有序列变体)的准确性更高。另一个问题是,当今的计算机很难存储和处理这些海量数据,特别是如果要在许多动物身上采集WGS的情况下。尽管有效利用WGS数据存在当前问题,但可以预期WGS数据将成为未来的基因型数据,因为如果测序成本继续下降,WGS可能会成为最有效的基因分型方法(Gorjanc等人,2015年)。

基因型缺失的归因

SNP芯片基因分型后,一些基因型将丢失。这种缺失可以通过称为基因型插补的过程来解决。根据动物的已知基因型,可以识别在其他动物中也可以观察到的相同单倍型。因此,可以从这些具有相同单倍型的其他动物的基因型中读取缺失的基因型。用于插补的软件包括Beagle(Browning and Browning,2007),Fimpute(Sargolzaei等人,2014)和Alphaimpute(Hickey等人,2012)。

插补方法也可以与稀疏但便宜的SNP芯片结合使用。对关键祖先进行基因分型,用致密但昂贵的芯片鉴定群体中的单倍型。接下来,使用稀疏的廉价SNP芯片对大量后代进行基因分型。稀疏芯片具有足够的SNP以识别动物携带哪种单倍型。由于已经用高密度芯片鉴定出了单倍型,可以推断缺失的基因型。

采用相同的策略来获取许多动物的WGS数据:1,000个公牛基因组项目收集了不同品种的一组测序公牛,用于鉴定牛单倍型及其序列。接下来,用SNP芯片对许多动物进行基因分型,识别它们携带的牛单倍型,并估算其WGS数据。另一个选择是在低覆盖范围内对后代进行排序。在这种情况下,低覆盖率序列应足以识别单体型。1,000个公牛基因组计划证明,对于具有较高次要等位基因频率的SNP(和其他变体),序列基因型的准确估算是可能的。然而,对于次要等位基因频率较低的SNP,估算的准确性较差。Druet等在模拟中证明,如果对大量祖先进行了测序,覆盖率相对较低(四到六倍),则这些稀有SNP的估算基因型的准确性就会提高。van Binsbergen等。(2014年)清楚地证明,与直接将50K基因型插值到序列相比,先将50K基因型插值到800K,然后再进行测序,可以提高插补的准确性。

非基因型动物

在基因组选择中,许多(可能大多数)动物没有基因型,但我们需要在育种价值估算中包括它们的表型信息。至少,传统选择将使用此类信息。一种方法是通过多步骤GS:在步骤1中,为基因型动物计算假表型,其中动物i的假表型包括有关其非基因型家系的信息;在步骤2中,使用伪记录和基因型进行基因组预测。第3步,将传统的EBV和GEBV合并为一个总EBV(例如VanRaden,2008年)。这里可以用公牛子代的平均产奶量作为一个伪记录的实例,公牛是基因型而不是表型,而他的女儿是表型而不是基因型。由于数据要分多个步骤处理,该方法并不是最佳选择。但实际上,使用此方法已达到良好的GS精度。

在单步GBLUP(ssGBLUP)中,所有数据都在单个估算步骤中核算(请参见Legarra等,2014)。当从传统的BLUP迁移到GBLUP时,我们用基因组关系替换整个系谱关系矩阵(见上文)。一个很好的想法是当能用基因组关系替换谱系时替换,不能时则保留谱系关系。然而,当基因分型显示基于系谱的不同家系中的某些动物比预期的关联性要高,那么这些家系中的其他未分型动物可能也比预期的关联性更高。可以通过从基因型动物开始然后使用系谱来计算涉及这些基因型动物的非基因型后代的关系来获得正确的关系矩阵,即沿着谱系向下并考虑该谱系祖先基于标记的关系。同样的想法也可以用于系谱,即当祖先是非基因型时,尽管在这种情况下它不是最佳的想法(Meuwissen等人,2011)。在奶牛中,ssGBLUP产生的准确度比多步方法高出0-2%(Legarra等人,2014),但对于不太受父系支配的其他物种(即,在这些物种中子代平均数不能汇总家族信息),ssGBLUP和多步方法之间的精度差异可能更大。单步方法的一个缺点是:虽然文献中已经提出了单步非线性估计的一些解决方案,但是目前它仍不适用于非线性估计(Liu等人,2014;Legarra和Ducrocq,2012)。

在大多数研究中,相对于纯基因组模型,由单一步骤而增加的可靠性很小(Koivula等人,2012年)。单步模型的一个更重要的特征是它可以对年轻基因型公牛进行预选,使得GEBV较为准确(Vitezica等,2011)。直到最近,必须直接反转G矩阵的要求限制了ssBLUP可以应用到的数据集的大小。先祖,成熟,公牛算法(APY)使用递归直接构建G -1矩阵的较大组成部分,克服了这一限制,并将ssBLUP的应用扩展到了数百万的基因型动物(Fragomeni等人,2015年),但以G -1的一些近似值为代价。对于未来,显然需要一种在序列级数据上使用非线性统计方法的单步方法。

畜牧业中基因组选择的实施

奶牛的基因组选择

奶牛的基因组预测准确性在生产性状上超过0.8,在生育力,寿命,体细胞计数和其他性状上超过0.7(例如Wiggans等,2011;Lund等,2011)。这些高准确性反映了每个品种的大量参考种群,这些种群已经被组装以能够进行基因组预测,以及,参考种群中的许多个体都是经过后代测试的公牛,其子代表现高度准确的表型。此外,GEBV通常用于预测参考种群中动物的近亲。奶牛基因组预测的一个特点是,各国之间进行合作以组装这些大型参考集,并建立了三个财团(欧洲财团,包括荷兰,德国,法国,北欧国家,西班牙和波兰;北美财团,包括美国,加拿大,意大利和英国;以及“世界其他国家”财团,由许多其他国家组成)。

基因组预测的高精度和通过低密度基因分型后进行插补获得基因组预测的相对较低成本的方法已导致对大量选择候选者进行基因分型。为了基因组预测,目前在全球范围内已对约200万头奶牛进行了基因分型。仅在美国,就已经对934780只荷斯坦牛,120439只泽西牛,19,588瑞士褐牛和4767只Aryshire牛进行了基因分型。其他国家对相似数量的动物进行了基因分型,其中仅法国就有360,000种(Boichard,个人交流)。

在奶牛中进行基因组选择提高了遗传增益,已通过许多国家的遗传趋势分析得到证明。例如,在加拿大从引入基因组选择以来遗传获得率大约增加了一倍。但一些人认为,基因组选择增加了每年的近交率(Schenkel,2012)。因此,在限制近交率的同时,最大限度地提高基因组选择的遗传增益将成为未来研究的重要课题。

有趣的是,许多国家中大多数基因型动物现在都是小母牛。虽然对小公牛犊进行基因分型可带来最大的遗传收益,但现在进行基因分型已经足够便宜,以至于为了选择保留在牛群中的小母牛而对小牛犊进行基因分型是有利的(Pryce and Hayes 2012 ; Weigel等,2012)。当选择与公牛配对的公牛时,也可以使用小母牛的基因型,这样可以最大程度地减少小牛的近亲繁殖。

当选定的小母牛进入牛群并具有牛群记录数据时,它们可以在参考种群中用于基因组预测(Wiggans等,2011)。当目的是增加参考种群的大小以提高基因组预测的准确性时,对具有良好表型记录的成熟母牛进行基因分型是有必要的。有报道说,将10,000和5,000头母牛添加到用于评估Holstein和Jersey牛的参考集上,根据性状的不同,其准确性提高了5–8%。与上述某些种群相比,这一相对较大的增长可能反映了较小的公牛参考集(分别为Holsteins和Jersey的4,000和1,000)。

肉牛的基因组选择

现在在一些牛肉品种中,基因组选择已得到大规模应用。例如,在美国现在已经对超过52,000只安格斯牛进行了基因分型以进行GEBV评估(Loureco 等,2015)。但是,一般来说肉牛的基因组预测准确性低于奶牛。例如,Van Eenennaam等在他们的评论中。(2014年)报告的准确度范围为0.3到0.7。较低的准确性是因为奶牛的参考种群质量较高。在肉牛中,参考种群一个品种中的个体较少且这些个体尚未经过后代测试。另外,与奶牛相比,肉牛的目标种群和验证动物与参考种群的联系可能不太紧密。

为了补偿一个品种中少量的参考动物,使用多品种参考种群是常见的方法。Bolormaa等人发现,使用种方法准确性略有提高(从0.33到0.38),但幅度不及来自相同品种的相同数量的动物。当Akanno等人使用美国几个纯种的参考种群来预测加拿大的杂种种群,其准确性较低。如果目标种群不包括在参考种群中,则准确性非常低。

这些跨品种预测的失望结果使人并不意外。De Roos等人。(2009年)发现除了在短的基因组距离(如,<10kb),LD的阶段不会在所有品种中持续存在。因此,当使用50k SNP面板时,来自其他品种的信息不会提高准确性。即使使用高密度SNP,来自另一个品种的信息远没有来自目标品种的信息有用,因为不同品种的动物比相同品种的动物共享更小的染色体片段。当使用BLUP预测育种值时,假定染色体区段的方差与其长度(或SNP的数量)成正比,小区段的方差较低,估计的准确性不如大区段。通过使用贝叶斯方法可以稍微改善这种情况,该方法允许某些SNP(以及某些段)的影响大于其他SNP。使得在预测种可以更好地利用具有QTL的高LD中的SNP,并且该信息可能会在各个品种之间转换(Bolormaa等,2013b; Khansefid等,2014)。

在参考种群中组合品种的价值在一定程度上取决于多个品种中QTL的分离。Bolormaa等。(2014年)报道了QTL在多个品种的相似位置,这表明QTL确实存在于多个Bos taurus品种中。但是,Bolormaa等人得出结论,QTL很少在B. taurus和B. indi-cus内分离,并且存在已知的例外,例如PLAG1和CAST。

基因组选择没有像奶牛育种那样广泛地用于牛肉中。部分原因是因为精度较低,而且还因为经济优势不那么好。基因组选择最适合传统上难以选择的性状。它在牛肉中的优势不如奶牛,因为这些性状不需要对子代进行后代测试,这些诸如生长率之类的性状可以在年轻候选者身上进行测量。但是,很难选择肉牛的几个重要特性,例如饲料转化效率和牛肉质量。记录这些特征很昂贵,因此建立大量的训练种群是昂贵的,并且没有大型公司可以为自己的育种计划证明这笔费用是合理的。对于这些特征,基于高密度SNP或基因组序列数据的多品种训练种群和非线性分析可能是最好的方法。

尽管存在这些困难,但在肉牛中已经进行了基因组选择。例如,澳大利亚和美国的安格斯EBV使用DNA信息进行计算。有两种方法可以完成此操作。一种,可以将基因型提供给计算EBV的组织,然后由该组织计算预测方程。另一种,诸如Zoetis或GeneSeek之类的商业组织可以提供DNA测试服务,并使用其自己的预测方程式生成“标记育种值”,然后将其传输到遗传评估服务中以并入EBV。两种方法都在运行。

猪育种中的基因组选择

在生猪育种中,最重要的选择步骤是在核心群中选择优良公猪(如果是合作养猪的话,这可能是在公猪试验站进行的。)公猪试验记录通常是在选择精英公猪之前进行的,因此,由于世代间隔的减少是有限的,额外收益有限,但通过引入GS,世代间隔仍可能减少约25%(Bjarne Nielsen,2015)。因此,gs在猪育种中的应用主要是针对屠宰品质、母猪不能记录的性状和纯种动物不能记录的杂交性能等主要针对性状

在母猪性状方面,试验公猪的雌性同胞是在核心群中饲养的,但母猪性状记录是在公猪选种后获得,母猪性状的GS可以基于测试野猪的阿姨。对于母性性状的选择,可以达到约50%的公猪选择准确率(Lillehammer等人,2011年)。母猪性状的选择与生长速度、饲料转化效率等生产性状的选择竞争,导致母猪性状遗传增益大幅度增加,同时生产性状的增益略有降低总功绩收益率适度提高,但收益率的方向与育种目标指示的方向更为接近。母本性状的显著提高,从而导致更平衡和可持续的选择。

就屠宰性状而言,在选择试验猪之前,试验猪的同胞可被屠宰并记录这些性状。因此,gs可以基于非常接近选择候选者的参考总体,从而可以实现高的选择精度。此外,在这里,额外的收益将在一定程度上以牺牲传统生产性状的收益为代价,但遗传变化的方向将更接近育种目标,因此可以在未来更长的时间内持续下去。

猪肉是由杂交猪生产的,但是精英育种核心个体是在有利的环境(例如核心群)中进行纯种繁殖的。在非常好的环境中进行纯种生产与在不太有利的环境中进行杂交表现之间的关系在0.4到0.7之间变化(Esfandyari等人,2015)。这意味着,只有40-70%的核心内实现的遗传改良将在实践中提高性能,例如,如果核心猪由于遗传改良而生长速度加快100克/天,那么商业猪每天只增加40-70克。通过对杂交猪进行基因分型并记录其在商业环境中的表现,gs可用于改善纯种核心动物在商业环境下的杂交表现。这需要跨品种和杂交的基因组选择,这一点尚未得到证实。

因此,需要开发最佳的跨品种/纯种基因组选择方法。目前,养猪公司正致力于在实际条件下,通过这种方法直接提高杂交猪的遗传性能。同样的方法可用于选择与出口市场相关但未在国内市场记录的性状(例如,对某些疾病的抗性)该方法将需要一个基础设施,收集(跨国家)实用动物的性能数据和基因型,转移到育种价值评估中心,并用于核心选择。

家禽基因组选择

在蛋鸡中,实际上已经进行了一项试验,以测试基因组选择是否可以比传统选择更快地获得收益。在Wolc等。(2015年),将一个蛋鸡群体分成两个亚系,一个提交常规表型选择,另一个根据基因组预测进行选择。实验历时3年,共进行了4个基因组选择周期和2个表型选择周期。在为期3年的试验结束时,对这两个亚系的多个与商品蛋生产相关的性能性状进行了比较。在用于选择的索引中包含的16个性状中,基因组选择系的表现优于表型选择系。尽管这两个计划旨在实现相同的近交率每年,沃尔克等(2015)发现从系谱评估的每年实现的近交在基因组选择系中比在常规选择系中高。

在肉鸡或肉禽中,gs的情况不如在蛋鸡中明显,因为大多数性状都可以在幼年时记录在两性身上。不过,育种公司正在积极调查GS的使用情况可能的用途是选择在商业环境中提高杂交后代的表现,以及用于不能记录在细胞核中的性状,如疾病挑战试验。

未来发展方向

DNA检测的成本在许多情况下阻碍了其使用。如果这种成本继续下降,DNA检测的用途将会扩大。这将有助于产生更大和最新的参考种群。难以记录的性状可能使得单步评估方法成为常态。因为它们提供了更准确的EBV,并且因为更便宜的DNA测试将导致被测试动物比例更高。

将来可以使用两种方法来计算基因组EBV。评估在品种内(在GS内; wbGS内)。在这种情况下,中密度或低密度SNP就足够了,可以使用G或SNP-BLUP来计算预测方程。或者,训练种群可能包括多个品种,甚至可能是杂交种(abGS)。在这种情况下,如果使用密集的SNP并使用非线性方法来计算预测方程,则EBV会更加准确。对于wbGS,除了获得更大的参考人群外,似乎几乎没有机会改善预测。对于abGS,有许多改进的途径。基因组序列数据可比高密度SNP产生的EBV更准确,因为数据中包含因果变异,我们不必依赖LD。关于基因组每个位点突变影响的生物学知识的增加,可被用于发现这些因果变体。

如果wbGS产生足够准确的EBV(例如> 0.9),则无需探索abGS。但是,将来,GS将用于越来越多的性状,其中一些将很难大规模记录(例如,甲烷排放),并且这减少了wbGS的大量内部参考种群的机会。因此,从长远来看,我们相信abGS可以为整个育种目标带来更准确的EBV,对于随时间和空间变化的种群来说是更稳定的。如果GS的未来仅限于wbGS,则品种和品系中的数量将减少,因为只有最大的品系才会有足够大的训练种群来产生准确的EBV。

基因组选择提供了两个机会,迄今尚未充分利用。首先,GS与生殖技术相结合可以大大缩短世代长度,并结合多次排卵和胚胎移植(MOET),GS可以用来挑选最佳胚胎来生产下一代动物(而不是随机胚胎)第二,我们可以创造商业动物的预测方程,而不是针对商业相关性状进行测量的种畜。例如,商业动物通常是杂交的,在比纯种种畜更严酷的环境下饲养。此外,我们还可以收集未在种畜水平上测量的性状信息,如肉质和抗病性(例如,如果传染病的爆发是罕见的事件)。这意味着由于较少的表型和系谱记录以及生成参考数据集的成本增加,在种畜水平上的成本降低随着基因分型和实际性状记录的成本不断下降(例如,在自动挤奶系统中使用传感器),这一变化也可能是意料之中的为这一变化提供资金的商业机制尚不明显。

动物育种中的GS范式转变似乎最终会导致基因改良产业的结构变化,但现在提出这些变化可能是什么还为时过早,还有一种可能性是,养牛、羊和猪的企业数量将减少,正如家禽中已经发生的那样。

你可能感兴趣的:(Genomic selection :A paradigm shift in animal breeding)