大西洋鲑鱼基因组选择的低成本基因分型和填充策略优化

来源:https://www.g3journal.org/content/10/2/581.abstract
阅读人:刘绵宇

摘要

基因组选择使关键生产性状(如抗病性)的遗传进展得以累积,在水产养殖生产的经济和环境可持续性中发挥着重要作用。然而,它需要大量群体的全基因组遗传标记数据,这可能会非常昂贵。基因填充是获得高密度基因型的一种成本效益高的方法,但其在以全同胞大家系为特征的水产养殖项目中的价值尚未得到充分评估。本研究的目的是优化低密度基因型的使用,并评估基因型插补策略,以进行经济有效的基因组预测。对来自苏格兰大西洋鲑鱼繁殖计划(Landcatch,UK)的610个个体进行了海虱(鲑疮痂鱼虱),获得了610个个体的表型和基因型(78362个SNPs)的检测。使用GBLUP方法计算基因组选择的基因组预测准确性,并在有填充或无填充的情况下,对不同组合和不同密度的SNP面板进行了对比。对双亲基因分型以获得最佳SNP面板,对子代分型以获得一系列的低密度填充面板,来进行填充测试。降低SNP密度对预测准确性几乎没有影星,直至5000个SNP,低于5000时精确度开始下降,填充的准确度随着填充面板的密度增加而增加。当后代的基因型只有200个snp,而父母只有5000个snp时,基因组预测的准确率为0.53。这一准确度与全高密度和最佳密度数据集相似,明显高于使用200个不加填充的snp。这些结果表明,在大西洋鲑鱼育种计划中,从极低密度到中等密度的插补是一种经济有效的基因组选择工具。

背景

基因组选择越来越多地应用于水产养殖育种中,以加快关键生产和抗病性状的遗传增益(Zenger等人。2019年)。基因组选择利用了家系间和家系内部的遗传信息,因此比传统的基于系谱的方法能更准确地预测个体的育种价值。然而,常规和有效的基因组选择在育种计划中的应用依赖于大量的表型和基因型的训练数据集,这可能是昂贵的。在畜牧和植物育种中,通过基因型插补,可以非常经济高效地获得大种群的基因组信息。填充利用了相关个体之间共享的单倍型的存在(Li等,2009),因此可以从低密度(LD)SNP面板中获得高密度(HD)估算的基因型。这有助于大幅度降低基因分型的成本,因为HD的直接基因分型只需要一部分个体,即参考小组。然而,基因型填充在水产养殖育种中的应用还处于形成阶段,需要确定最佳策略。

在典型的水产养殖育种计划中,可以使用较大的全同胞家庭,通常对选择候选的全同胞个体进行性能测试,与其他饲养动物所需的SNP密度相比,全同胞家系共享大的基因组片段,从而具有使用较低密度SNP密度达到较高预测准确性的可能。此外,已经为大西洋鲑鱼开发了高密度SNP阵列(Houston等,2014),并且高质量的参考基因组汇编可用于绘制这些SNP并确定其顺序(Lien等,2016)。因此,鉴于典型水产养殖环境中的家庭结构,第一步是确定实现最大基因组预测精度所需的最小SNP面板密度。此外,需要探索优化这些SNP面板的组成,以评估对预测准确度的影响。之前基因型填充研究强调了利用亲本的中密度或高密度分型和后代的低密度分型来降低基因组预测成本的潜力。在这些研究中,发现使用推算(填充)为HD的LD基因型可实现的基因组预测准确性与在大西洋鲑鱼中使用全HD面板以及在虹鳟的模拟数据中可获得的基因组预测准确性相当。然而,还没有对低密度和高密度面板的最佳组合以及SNP面板组成的影响(即为降低密度面板选择哪些SNP)进行系统分析。

鲑鱼遗传改良最重要的目标性状之一是宿主对海虱等传染病的抗性。海虱是海虱科的寄生性海洋桡足类,在所有主要的鲑鱼生产国都有流行(欧洲和北美的鲑鱼和智利的卡里格斯),对全球鲑鱼业来说,这是成本最高的疾病相关问题(2006年,控制海虱的总成本估计为3.05亿欧元(Costello,2009年))。海虱感染对鲑鱼的健康和生产造成严重的负面影响,处理成本的增加,相关劳动力成本以及由于感染或继发的细菌和真菌感染引起的发病率和死亡率增加,造成大量的经济损失。此外,海虱对常用疗法的敏感性表现出变异性,在一些情况下,它们对常用的治疗药物表现出高度的抗药性。但令人振奋的是,寄主对海虱的抗性表现出0.22-0.33的显著遗传力。另一个经济上重要的生产性状是体重,它反映了生长性能。据报道,体重的遗传力在0.5-0.6之间。此外,海虱的抗药性和体重都具有多基因遗传结构。因此,这些特性可以通过基因组选择方法来改善,采用基因型插补的经济有效的基因分型方法可能推广其在商业上应用。这项研究的目的是系统评估和开发大西洋鲑鱼育种计划的最佳基因型估算策略。利用一个典型的商业育种项目的数据,来测试基因组选择几种基因型填充策略,步骤由以下完成(a)识别具有最佳密度和组成的高密度SNP面板(b)当父母在高密度下进行基因分型时,子代在一系列低密度下进行基因分型时,来测试插补的准确性(c)比较每个数据集的基因组预测精度,以及(d)通过量化给定密度下基因分型成本与基因组预测精度提高之间的权衡,评估基因组预测插补的成本效益。

材料和方法

表型和数据转换

用于测试基因型填充和基因组预测的数据来自大西洋鲑鱼商业种群,简而言之,这些数据包括520条成年后子代鲑鱼的表型和基因型(267条雄性和253条雌性)和29条父本和57条母本。每个父本与两个母本交配(除了一个父本与一个母本交配),因此后代是全同胞/父系半同胞,来自于57个核心家系,每个家系有4-14个后代。

2007年,作为海洋环境研究实验室(英国马奇哈尼什)进行的一项试验的一部分,该种群受到了海虱(鲑疮痂鱼虱)的侵染,如(Tsai等人)所述。 收集所有子代的海虱数量表型记录(SLC)。SLC在每只动物1至81只虱子之间,呈正偏态分布,平均值为25.5,中位数为23.5(补充信息1)。对SLC进行对数变换,在所有后续分析中使用loge(SLC),平均值为3.11,中位数为3.16(补充信息1)。子代体重在52~203g之间,平均111.8 g,体重数据呈正态分布,无需变换。

用Affymetrix Axiom 132K大西洋鲑鱼SNP芯片对所有样品进行基因型分析,使得所有动物都可以获得78,362个高质量、定位和有序的SNP标记的基因型。使用Plink / 1.90-beta4.1排除了5%的家系和孟德尔误差为10%的个体。使用R / 3.1.2上的GenABEL软件包对后代进行进一步的质量控制,并遵循以下标准:排除了具有次要等位基因频率(MAF)小于5%,检测率小于95%或Hardy-Weinberg平衡P值小于10的-5次方的SNP 。缺失基因型百分比为3%的个体也被排除在外。总共有76,488个SNP(以下简称HD SNP面板)和520个后代通过了所有标准,并用于计算每个SNP面板的基因组关系矩阵。

计算基因组关系

统计分析

在整个分析过程中使用的SNP面板的定义如下:“HD SNP面板”是在质量控制后包含76,488个SNP的完整高密度面板;“降低的SNP面板”是从HD SNP面板产生的低密度面板,用于在较低的SNP密度下测试基因组预测;“最佳SNP面板”(中等密度)是选定的5K SNP面板(参见“最佳SNP面板的鉴定”一节);“填充SNP面板”是假定在子代中进行基因分型的低密度SNP面板,是从最佳SNP面板中选择以测试填充的。

分析包括三个主要部分:a)在密度和SNP组成方面确定最佳SNP面板;b)当a)确当SNP面板后,评估一系列低密度SNP面板的填充精度;c)估算填充数据集的基因组预测准确性,并与不进行填充数据集的基因组预测准确性进行比较。所有分析都是通过定制管道进行的,该管道集成了以下功能:(i)PLINK /1.90-beta4.1、R/3.1.2和Shell,用于选择SNP面板以及计算基因组关系矩阵; (ii)FImpute / 2.2基因型填充; (iii)ASReml / 3.0,用于评估育种值。可以在GitHub(https://github.com/SmaragdaT/CVrep)上访问用于SNP面板构建和多重交叉验证过程的代码,并且可以作为R包(CVrepGPAcalc v1.0 / R版本)使用。 3.1.2)根据GNU通用公共许可证v3.0(Tsairidou 2019; CVrepGPAcalc v1.0)。

确定最佳SNP面板:

以前的研究已经表明,当SNP面板密度从132K降低到大约5K时,基因组预测的准确性几乎没有下降(Tsai等人。2016)。选择最优SNP面板的重点是确定一个近似的最小SNP浓度,该浓度可被认为是预测精度的渐近线。根据HD SNP面板SNP,使用可作为R/3.1.2软件包提供的内部构建软件(Tsairidou 2019;CVrepGPAcalc v1.0),在100个SNP密度间隔下,针对60,000、10,000、5,000、2,000的密度生成减少的面板,并从1,000降至200 SNP。使用了两种不同的方法来选择SNPs:(i)在整个基因组中随机采样SNPs,没有替换;(ii)在每条染色体内随机采样SNPs,没有替换,并且从每条染色体上采样的SNPs数量与使用Salmo Salar参考基因组组合(Lien等人)计算的染色体实际长度成正比。2016Genbank加入Gca_000233375.4)。对于方法(Ii),在某些情况下,由于舍入,跨基因组选择的SNP总数被允许略高于目标密度。此外,对于较高的密度,某些染色体上可用的SNP数量可能少于所需的数量,因此整个基因组中选择的SNP总数可以小于预期的密度(补充信息2;表S1)。
这个过程被重复了10次,对于每个密度,产生了10个SNP面板,这些面板被偶然地允许部分重叠(图1)。对于每个密度和每个重复,使用通过质量控制的snp计算后代的基因组关系矩阵。
试验了一种用于SNP选择的附加方法,即根据均匀的物理距离间隔选择SNP,但结果与上述两种随机选择方法相似,并在补充信息3中报告(图s3)。简单地说,选择snp是为了使它们在每条染色体上平均间隔相等,它们之间的“步长”为0.5、1、3、5、7、9和11mbp。每个染色体上的第一个和最后一个snp总是被选中的。如果给定后续SNP的“步长”和物理位置,相同的SNP碰巧被选择了两次,那么将下一个SNP包含在面板中。“步长”越大,密度越低(补充信息3;表S3)。

交叉验证以测试基因组预测准确性

通过交叉验证对后代的基因组预测准确性进行评估。后代被随机分成五组大小相等的组,每次都掩盖其中一组的表型(验证集,nv=104)。随后,利用其余四个组(训练集nt=416)的表型和基因组关系矩阵,预测每个验证集的育种值(BVs)符合ASReml/3.0中的以下混合模型:



式中,y为响应变量(loge(SLC)或者体重);m为总平均值,b为与关联矩阵X相关的固定效应向量(loge(SLC)模型为性别和体重,体重模型为性别);a是随机动物效应向量a~ MVN(0,Gsa2)与关联矩阵Z相关联,其中sa2是加性遗传方差;e是e~MVN(0,Ise2)的残差。计算5个验证集预测的BVs(ŷ)和表型(y)之间的平均相关性。
为了评估随机抽样对预测精度的影响(Tsairidou等人。2014年),交叉验证过程被复制了50次,每次复制都会对个体进行新的随机分组。对于每个高密度SNP面板,在50次重复中获得了总体平均相关性和标准差(图1)。

对于每个SNP面板和每个重复样本的Log e(SLC)和重量,预测准确性的计算方法是平均相关性除以遗传力的平方根

。这一遗传力是根据全部520个子代的整个数据集计算的,所有SNP标记在质量控制后用与上述相同的标准(76,488个SNPs)计算G,并使用模型(1)。然后,对于每个SNP密度,在10个SNP面板重复上获得平均准确度(和标准偏差)。

填充SNP面板和填充精度评估

构建了一系列的填充SNP面板,作为(A)中确定的最佳SNP面板的子集(即,最低密度的SNP面板,使两个性状的基因组预测精度与HD SNP面板获得的相似)。对于填充芯片,在每条染色体中随机选择snp(如前所述,与染色体长度成比例)。由于四舍五入,所选SNP的总数可能略大于预期密度(补充信息2;表S2)。假设所有亲本(n=86)的最优SNP面板都进行了基因分型,并且假设所有子代(n=520)都对不同密度的插补SNP面板进行了基因分型,以便将后代填充到最佳SNP面板密度(父母的基因型)。使用FICOMPUTE/2.2进行插补(Sargolzaei等人。2014年)。插补精度是根据后代的插补基因型和观察到的基因型之间的相关性来计算的(Yoshida等人。2018年)。计算每个低密度SNP面板的个体平均插补精度。

填充数据集的基因组预测准确度

估计育种在ASReml/3.0中,使用模型(1)估算loge(SLC)和体重的值,以及交叉验证的预测精度,不同之处在于,G矩阵是根据后代的直接基因型和填充的SNP基因型计算的。对填充基因型重复进行“基因型和质量控制”一节中描述的质量控制分析。如上所述使用多重交叉验证过程,并且对于每个估算的数据集,计算超过50次重复的平均预测精度。

使用估算数据进行成本效益分析

进行了成本效益分析,以评估在较低密度下对候选基因进行基因分型并考虑获得的基因组预测准确性进行基因型估算的经济效益。测试的场景是(i)以5K SNP面板中等密度对所有动物(父母和后代)进行基因分型,并且(ii)以5K基因分型对父母和200 SNPs的后代进行填充,推算为5K。每年进行基因分型的费用估计如下:对于一个有300个父母和10,000个后代的鲑鱼繁殖计划,情况(i)假设每个人15美元;对于方案(ii),假设在300个以5K进行基因分型的亲本中每个SNP阵列的成本为30美元(每个阵列的价格随着样品量的减少而增加),并且在10,000个以200个SNP进行基因型中的基因型则每个个体以5美元的基因型对SNP进行基因分型。

结果

遗传参数和低密度面板基因组预测准确性测试

使用HD SNP面板,海虱抗性的基因组遗传力为0.19(SE=0.07),体重的遗传力为0.57(SE=0.07),这与早期研究的结果基本一致,无论是基于相同的研究结果或不同的群体。
对降低密度程度不同的SNP面板进行交叉验证,其表型和BV之间的相关性反映了随着密度增加而增加的信息。将SNP面板密度从HD SNP面板(76,488个SNP)降低到200个SNP导致海虱抗性的基因组预测准确率下降14.5%,体重下降27.9%(图2:在染色体内随机选择的SNPs)。在所有的SNP密度中,体重的预测精度高于对海虱抗性的预测精度。与抗海虱相比,使用更高的SNP密度对体重的预测似乎更有利(图2),这可能反映出体重可能是一个比海虱抗性更具多基因的性状。两种选择SNP来构建减少SNP面板的方法(在整个基因组中或在每条染色体内随机选择)在基因组预测准确性方面表现出相似的趋势。
无论是什么特征,预测准确性都开始在2,000和5,000个SNP之间下降,因此,将中等SNP密度5,000作为插补分析的最佳SNP面板进行了测试。使用这种中等SNP密度而不是HD SNP面板,是因为假定在大多数情况下5K SNP面板在基因型上更便宜。


HD和填充SNP板对海虱抗性和体重的预测精度,(i)为在整个基因组中随机取样,(ii)为在颜色体中由染色体长度比例决定随机取样,垂直条代表10个SNP面板复制的标准差

交叉验证预测准确性的差异

虽然随着SNP密度的降低,基因组预测精度的降低是适度的,但在这些较低的密度下,标准差(图2)和方差(图3)却大得多。
换言之,在较低密度下,SNP面板复制之间的准确性存在显著差异,这意味着准确性取决于面板上包含的SNP。相比之下,SNP面板复制品的变异性随着SNP密度的增大而减小。这种现象在抗海虱方面比体重方面更为明显(图3)。
基因组预测准确度变化的另一个原因是将个体随机抽样到交叉验证组中,这在一定程度上取决于样本量。有趣的是,来自一个交叉验证的单一预测精度可能是对预测精度的主要高估或低估。例如,对于一个中等密度5000 SNP面板,在50个交叉验证重复中,对海虱抗性的预测精度在0.40到0.62之间,平均值为0.52(图4)。同样,对于同一个5000snp面板,预测精度在0.55到0.64之间,平均值为0.59(图4)。因此,在本研究中,遵循多重交叉验证程序,将个体重新分配到5个交叉验证组中50次。期望较大的样本量可以使预测精度的分布变窄,并使随机抽样效应最小化。这可能是今后水产养殖基因组选择研究中避免抽样偏差的一个很好的实践。

(i)为在整个基因组中随机取样,(ii)为在颜色体中由染色体长度比例决定随机取样,减少的SNP面板对海虱抗性和体重的预测精度的方差。

基因组预测精度变化的另一个来源是个体随机抽样进入交叉验证组,这在一定程度上取决于样本大小。有趣的是,来自一次交叉验证的单个预测精度可能是对预测精度的严重高估或低估。例如,对于中等密度的5000个SNP板中的一个,在50个交叉验证重复中,对海虱抵抗力的预测精度在0.40到0.62之间,平均为0.52(图4)。同样,对于重量和相同5000个SNP的面板,预测精度在0.55到0.64之间,平均值为0.59(图4)。因此,在本研究中,遵循多重交叉验证程序,其中将个人重新分配给5个交叉验证组50次。可以预期,较大的抽样规模将使预测准确度的分布更窄,并使随机抽样效应最小化。对于将来在水产养殖育种中进行基因组选择的研究,以避免采样偏差,这可能是一个好习惯。


200和5000个SNP面板的50次交叉验证重复的预测准确性,包括海虱抵抗力和体重

插补精度

插补精度随插补SNP面板密度的增加而增加(图5),如先前研究所示。对于5000个SNPs,精确度从200个SNPs的0.72(SD=0.03)到包含1000个SNPs的0.94(SD=0.02),对于700个或更多的SNP达到90%以上的精确度,对于更高密度的填充面板,个体间的填充精度标准差减小,(对于200个SNP,SD = 0.034;对于1000个SNP,SD = 0.016;图5)


插补到最佳SNP面板时,插补SNP面板的插补精度。竖线表示520个后代的标准差

填充数据集的基因组预测准确性

尽管较高密度的插值SNP面板具有较高的插值精度(图5),但增加抗海虱抗性的填充SNP面板的密度只会使填充基因型获得的基因组预测精度仅略有提高(图6)。例如,200个SNP填充到5000个SNP的预测精度为0.53,而1000个SNP填充到5000个SNP的预测精度为0.56,5000个真实基因型的预测精度为0.54。对于体重,当使用更高的SNP面板密度时,使用推定为5000的SNP进行基因组预测的准确性略高(图6)。
但对于体重,当使用较高的填充SNP面板密度时,使用填充5000的SNP面板进行基因组预测准确性会略高。


海虱抗性和体重的填充SNP面板的预测精度,(i)插补200至1,000 SNP的插补SNP面板密度至最佳5,000 SNP面板(Imputed_5000),(ii)填充SNP面板密度为不带填充的单独SNP的范围为200到1,000个SNP(仅LD_),以及(iii)不带插补的直接基因分型的最佳5,000个SNP面板(HD_5000)。

尽管填充面板的SNP密度对基因组预测准确性的影响可能很小,但插补与仅使用低密度SNP面板(不插补)相比,插补的收益会根据SNP密度而变化。一般来说,使用填充至中等密度5,000个SNP最优面板的基因型进行基因组预测的准确性与使用相同密度的真实基因型的基因组预测精度非常接近(图2和6)。在SNP面板密度最低的情况下,插补的效益最高。例如,使用200个SNPs进行基因组预测的准确率为0.45(图2和图6),而使用5000个SNPs进行的基因组预测准确率为0.53,相当于增加了17.5%(图6)。相比之下,对于700个SNP的密度,插补与不插补的效益约为6.83%,而在1000个SNP时,其效益可忽略不计。总之,使用低密度插补SNP面板(例如,200个SNP)并将其插补到中等密度(5000个SNP)上,其预测精度与在所有动物上使用最佳SNP面板(5000个SNP)相当,并且显著优于未进行插补的低密度面板。

成本效益分析

在情景(i)中,所有动物(父母和后代)都使用中等密度的SNP面板(5000个SNP)进行基因分型,基因分型的总成本估计为154500美元。然而,在方案(ii)中,只有父母的基因型为中等密度,而后代为200个snp基因型,估计成本将降低到59000美元。这相当于方案(i)和(ii)之间的成本降低了62%,几乎没有损失所测量性状的基因组预测精度。

讨论

这项研究探索开发水产养殖中经济有效的基因组选择的最佳方法,重点放在大西洋鲑鱼同胞测试育种计划上。在这项研究中,遗传关系是通过基因组关系矩阵结合起来的,基因组关系矩阵是根据SNP基因型数据计算的,并获取状态同源。虽然使用表型和家系的基于家族的选择只能捕捉到家系间的变异,而使用遗传标记的基因组选择也可以捕捉到家系内的变异。这允许通过预测和利用孟德尔分离项来区分全同胞的遗传优点。以前的研究表明,与基于血统的预测相比,使用基因组关系可以提高BV的预测能力。与基于系谱的选择相比,基因组选择表现出更多的优势,因为不仅仅是挑选家系,从而有助于对近交率的控制。

使用低密度SNP面板进行基因组预测

本文提供的结果证实了早期水产养殖物种基因组选择研究的发现,其中发现相对较低密度的SNP面板与完全高密度面板在预测育种值方面一样有效。水产养殖环境通常以全同胞测试方案为特征,全兄弟姐妹共享长的基因组片段,可以用更少的SNP充分捕获。因此,训练和验证动物之间存在紧密的关系很可能是为什么较少的SNP足以捕获个体之间的关系并提供接近最大的预测准确性的原因。但是,当前的研究强调了密度较低的SNP面板在预测准确性方面的高可变性,反映了在选择SNP面板时采样效果的重要性。相反,对于密度而言。5K时,由于信息较少的SNP标记的机会纳入而失去准确性的风险降低。基于影响感兴趣性状的因果变体的认识,非随机的SNP选择有望提高基因组预测的准确性,特别是有助于跨群体预测(Edwards等人,2016年)。这样的认识将允许包括致病变体本身,而不是依赖于QTL和SNP标记之间的连锁不平衡,并将功能SNPs优先用于基因组预测。

应该注意的是,使用相对适中的SNP标记密度的高预测精度可能仅限于兄弟姐妹测试方案或类似方案。在训练群体和验证群体之间的关系更远的情况下(例如使用一个群体作为训练集,使用另一个群体作为验证集),预测精度可能会低得多,而更高的SNP标记密度可能更有利。这是因为SNP标记和QTL之间的连锁不平衡模式在不同群体之间的差异影响了跨群体预测的准确性。因此,本研究的结果可能在一定程度上具有群体和性状特异性。另一个可能影响预测精度的因素是次要等位基因频率,然而,较罕见的等位基因对于捕捉特定家系的单倍型可能是重要的。去除微小等位基因频率低于0.3的SNP并不能降低通过SNP面板重复获得的预测准确值的变异性(补充信息6)

就基因组预测准确性而言,在整个基因组中随机选择SNP或在每个染色体内随机选择SNP的方法相似。最优SNP组合的选择首选每条染色体内的随机抽样方法,因为这种方法确保了SNP在整个基因组中的分布更加均匀,并确保了来自所有染色体的SNP都包括在基因组关系矩阵的计算中。在本研究中,在每条染色体内随机选择SNP,SNP的数量与染色体的物理长度相对应。SNP面板也是通过选择基于每条染色体内均匀物理距离的SNP来构建的(补充信息3)。尚未测试基于遗传距离选择SNP的可能性,由于鲑鱼基因组中重组率的重大变化,尤其是雄性,可能会影响预测准确性。但是,鉴于将SNP密度从最高密度降低到最佳密度面板并不会降低预测准确性,因此遗传距离或高重组区域不太可能产生重大影响。

遗传力估计和预测精度

使用较低密度的SNP面板(其中减少的SNP面板用于计算G矩阵)估算的遗传力被发现是不可靠的,具有较大的标准偏差,通常大于估计值。因此,虽然预测的BV和表型之间的相关性在低密度时如预期的那样降低,但使用低密度SNP面板的遗传力估计计算的准确性似乎仍然很高(初步分析;结果没有显示),这是人为的虚假遗传力估计。使用减少的面板来估计h2,这在降低标记密度的基因组预测精度的研究中可能很常见,h2估计是从表型到EBV之间的相关性到精确值转换的基础。因此,在计算精度时,使用了从HD-SNP面板计算出的遗传力,随着更多的遗传变异H D SNP标记,预计这将更接近人群的真实遗传力。使用HD SNP面板估算的遗传力与使用相同群体系谱数据估算的遗传力一致(海虱抗性的基于谱系的遗传力为0.23(SE = 0.08))。

基因组预测精度受训练和测试群体之间的遗传距离的影响,在鲑鱼和鲤鱼中都观察到训练和测试集没有亲缘关系时准确率的迅速下降;交叉验证重复观察到的准确率的变化是由于随机抽样构建训练和验证集;训练和验证集之间的遗传距离是随机变化的,影响了预测精度。因此,在本研究中,报告了超过50个交叉验证重复的平均预测精度,其中在每个重复中,在训练和测试集中重新分配个体。因此,在可能的情况下,在水产养殖育种计划中,应将与选择候选者的近亲(如全同胞)包括在参考群体中,以达到高精度的基因组预测水平。

估算和成本效益分析

利用估算基因型进行基因组预测的估算和成本效益分析结果与以前的研究结果一致,作者观察到,利用估算基因型进行基因组预测的精度与真实基因型非常接近。对于很低的估算SNP面板密度(如200个SNP),虽然估算精度较低,但是利用填充基因型进行基因组预测的准确性并没有明显降低。在这项研究中观察到的高填充准确性可以通过将近亲纳入参照组来解释。观察到在基因分型成本和预测准确性损失之间存在权衡,但使用低密度的归因板和中等密度的归因板似乎是一个高精度、高性价比的选择。预测精度的降低意味着遗传增益的降低,这会带来成本上的影响。然而,这一成本很难量化,因为它将特定于性状、育种目标和公司。此外,目前还不清楚这笔费用将在哪里发生,例如给育种公司或生产者。此外,应该指出的是,这是一个小规模的试验,其填充和基因组预测性能在较大的商业运营中是存在的,因此需要针对不同的种群和性状进行测试。

你可能感兴趣的:(大西洋鲑鱼基因组选择的低成本基因分型和填充策略优化)