利用虹鳟后代表型数据对细菌性冷水病抗性能力的基因组选择评估:基因分型方式和基因组预测方法的分析

文章题目:Evaluation of Genome-Enabled Selection for Bacterial Cold Water Disease Resistance Using Progeny Performance Data in Rainbow Trout: Insights on Genotyping Methods and Genomic Prediction Models
文章来源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4883007/
阅读者:刘绵宇

前言

细菌性冷水病(BCWD)在鲑鱼水产养殖中造成严重的死亡和经济损失,控制暴发的方法有限。
在先前的报道中,有一个基于家系的选择性育种,目的在于提高虹鳟对BCWD致病因子的抗性,同时有攻毒实验表明抗性是中度遗传力的,在虹鳟鱼选择性育种群体中鉴别出了几个主要抗性 QLT可以用于标记辅助选择,但是BCWB抗性的复杂遗传结构和高遗传变异,让我们相信全基因组选择将是提高虹鳟对BCWD遗传抗性的更有效方法。
基因组选择(GS)是一种相对较新的策略(Meuwissen等人,2001),它正在彻底改变动植物育种。该方法利用覆盖整个基因组的高密度标记基因型数据,结合表型记录,计算所有基因型个体的基因组估计育种值(gebv)。GS方法主要适用于无法直接记录在潜在育种家或选择候选人身上的性状,包括易感病性、胴体和性别限制性状,并且在乳牛产业中被证明是高效的。对于像鲑鱼这样的水产养殖物种,其关键好处是能够预测没有表型数据个体的GEBV,从而利用家系间遗传变异。除了提高选择的准确性外,GS预测还会降低每代的近交率,它能够在家系内更好地分化,并降低同胞的共选(Daetwyler等人,2007;Dekkers,2007)。
对于农业家畜物种,单核苷酸多态性(SNP)阵列或芯片已经成为有至少50K 个SNP全基因组基因分型的首选平台,包括最近开发的虹鳟鱼57 K SNP芯片,作为育种者可用的新工具,然而,已开发出能够在许多个体中同时发现标记和进行基因分型测序方法,并且用于遗传/基因组分析(Davey等人,2011)中。一种技术是不需要先验标记发现或参考基因组序列的限制位点相关DNA(RAD)测序。近年来,RAD测序方法被广泛用于鲑科物种的SNP发现和其他遗传/基因组分析。
GS的最佳计算方法是不确定的。GBLUP方法假设性状由多基因控制,并在估计基因组关系G矩阵时使用所有标记数据;反之,贝叶斯变量选择方法假设遗传的差异可以由具有小中或大效应标记的减少来解释。基于这一假设,当性状不是多基因而是由几个中到大效应QTL控制时,GBLUP的表现不如贝叶斯变量选择模型。GBLUP方法被进一步调整为ssGBLUP方法,将系谱(A)和基因组关联(G)组合成联合关系矩阵(H),以及通过多元回归模型中拟合来模拟贝叶斯变量选择模型的wssGBLUP方法,通过这种方法选择了占遗传方差中或大部分的SNP。
GEBV预测的准确性取决于几个关键参数,包括(1)标记位点与QTL之间的连锁不平衡(LD)水平;(2)训练群体中具有表型和基因型记录的个体数;(3)训练和测试/验证动物之间的关系程度;(4)训练个体之间关系的紧密;(5)性状的遗传力,或育种值的可靠性(如果使用去回归的育种值); (6)QTL效应的分布。性状的遗传结构与是否合适的GS模型也可能对基因组预测的准确性产生重大影响。
因此,在评估新种群或物种的新性状时,比较基于ssGBLUP方法的GS模型和贝叶斯变量选择模型的GEBV预测的准确性是很重要的。
本研究旨在探讨GS改良虹鳟BCWD抗性的可行性,并与传统的家系选择育种进行比较。本研究的目的是:(1)利用第一代NCCCWA抗病育种系10个家系的一个子集对BCWD的抗性进行基因组预测;(2)比较经典的基于家系的ebv和来自4种不同GS模型的GEBV的预测能力;(3)比较SNP芯片和RAD基因分型平台对GEBVs的PA(predictive ability)的影响。

材料与方法

鱼类饲养与攻毒实验

所有鱼类工作都是按照国家和国际准则进行的。本研究的方案由美国农业部的机构动物保护和使用委员会(IACUC)、农业研究服务、国家冷水水产养殖中心特别批准。所有工作都是为了确保鱼类权益和尽量减少痛苦。

关于鱼类饲养条件和腹腔注射BCWD致病因子F.colrophilum(FP)后21天存活研究的细节在别处已有报道。在攻毒中的数据记录程序在别处也有报道(Palti等人,2015b);简单地说,每天移除死鱼并记录并剪下鳍;在研究期间每天监测鱼的健康,没有观察到意外死亡;对死鱼进行定期采样以进行细菌培养并确认死鱼中FP的存在可能是死亡的原因;在感染后第21天将存活的鱼在200 mg L−1的甲基磺酸三卡因,MS222(Sigma)中至少5分钟安乐死,然后对它们的鳍片进行采样。从所有鱼类(死亡者和幸存者)收集到的鳍片单独保存在95%乙醇中,直到提取DNA(Palti等人,2006)。

训练群体和验证群体

训练群体由从NCCCWA BCWD抗性系2005年(YC)的71个家系中随机抽样的10个全同胞(FS)家系组成(Silverstein等人,2009年;Leeds等人,2010年)。

YC-2005家系代表了该育种系的基代,因此之前没有BCWD抗性家系。

每个家系有39-80条鱼在实验室BCWD攻毒中进行评估,每个家系有一个或两个鱼缸,最初每个鱼缸放养40条鱼。具有基因型和表型的训练鱼总数为583条。之所以选择10个FS家族作为训练群体,是因为这些家族中未感染的兄弟姐妹被用作下一代的父母本(验证鱼),每个家族中的训练和验证组的DNA档案可用于基因分型。

验证样本包括10个训练家系中未染病后代的53个亲本(父亲和母亲);每个家系贡献了2-11个亲本。亲本或验证鱼具有基于家系关与存活天数(DAYS)和生存状态(STATUS)的EBV,该EBV利用其全同胞个体和71个FS家系(N = 4492条具有BCWD抗性表型的鱼类)中任何亲属的BCWD抗性记录进行估算。

另外,来自验证样本的31YC2007 FS子代测试家族(N = 1913,具有BCWD抗性表型)与父母双方的表型被用于计算每个FS子代测试家族(PTF)的平均子代表型(MPP)。
本次GS研究通过设计确保了训练群体和验证群体之间的高度联系。
表1总结了本GS研究中BCWD抗性的实验变量


表1

BCWD抗性表型

BCWD抗性表型天数,即攻毒后死亡的天数,在攻毒后21天被记录,幸存者被赋值为21。
每条鱼也有一个二进制生存状态记录。BCWD抗性表型状态有两类:1=鱼在挑战后评估期间21天内死亡;2=鱼在挑战后第21天存活。
在GS分析中,首先使用训练鱼的天数和状态记录来创建GS模型并估计标记效应,然后,使用对训练鱼的估计标记效应来估计每个验证鱼的GEBV的天数和状态。

SNP基因分型平台

训练和验证鱼类及其相应的亲本(YC 2002和2003 FISH)用最近开发的Rainbow Trout AxiomR 57K SNP阵列(Chip)进行基因分型,如我们先前所描述的(Palti等,2015a);样品由商业服务提供商(GeneSeek,Inc.,Lincoln,NE)按照阵列制造商(Affymetrix)要求的Axiom基因分型程序进行基因分型。对于最终的基因分型调用和质量控制分析,我们使用了如先前所述的Affymetrix Power Tools和SNPolisher软件应用程序(Palti等人,2015a)。
每个家系具有48,646至48,899个基因分型的SNP。质量控制(QC)管道滤除了每个FS家庭中预期孟德尔分离的明显偏离的SNP(Bonferroni调整为P <0.05),并去除了两条与系谱中给出的亲本不具有匹配基因型的训练鱼(即未通过系谱检查)。在对基因型数据进行QC后,原始芯片基因型数据集中总共包含49,468个SNP

按照我们实验室中已建立的程序,还对训练和验证鱼进行了约24 K SNP的基因分型,这些SNP是通过RAD标签文库测序而产生的,用限制性内切酶SbfI分解来自后代和父母(YC 2005 10 FS家族)的基因组DNA,并按照其他地方的描述制作RAD测序文库(Palti等人,2014)。在HiSeq 2000的单个通道上对具有30个索引样品的每个RAD文库进行测序(单端100bp读取),每个样品具有用于每个样品的唯一六核苷酸条形码;原始序列已提交给GenBank的简短阅读档案,项目登记号PRJNA295850(Samples: SAMN04090427–SAMN04091127; SRA Accession:SRP063932)在序列比对之前,我们在每个读取的序列的5‘末端修剪6个碱基条形码和在3’末端修剪最后5个碱基,并过滤出89bp读取中累积测序错误概率大于20%的读取,如在别处描述的(Palti等,2014)。
我们分析了剩余的修剪后的读取,以使用NovoAlign和Perl脚本识别SNP,如前所述(Liu等人,2015a)。为了确保双亲中有足够的序列读取覆盖率,每个双亲都进行了两次排序。使用SNP发现和基因型调用的生物信息学管道从父母那里获得的基因型别数据;并且对于子代基因型分型,RAD序列被映射到NovoAlign中需要精确匹配的每个SNP的亲代等位基因,如上所述,每个亲本的平均过滤读数为7.8M,范围在5.7到12.6M之间;对于来自训练样本的后代(即具有表型的鱼),平均3.0M,每个后代的范围在790K到10.0M之间;对于来自验证样本的后代(即具有基于兄弟姐妹和后代测试性能的EBV的鱼),平均为3.9M,每个后代的范围在2.0到9.5M之间。

如其他地方所述(Palti et al。,2015b),对于每个后代,我们至少需要四个相同的序列读数才能将其称为特定SNP纯合子;对于杂合子基因型调用,我们要求该基因座(例如,两个等位基因)的读数总数应为≥4,并且次等位基因序列读数的频率(MAF)≥10%。如果后代样品中同时存在两个等位基因,且MAF≤10%,则我们没有在那个特定后代中将该SNP称为基因型,并记录为缺失数据。从最终基因型数据中删除SNP位点和数据≥30%的样本(SNP /样本检出率≥70%)。

此外,用卡方拟合优度检验检查每个SNP的基因型分离率(1:1或1:2:1),并从最终的基因型数据集中剔除具有显著的Bonferroni校正分离失真(P<1e-5)的SNP。在该基因型数据QC后,原始RAD基因型数据集中共有24465rad单核苷酸多态性。
在拟合GS训练模型之前,使用在计算机程序BLUPF90中实施的QC算法进一步对所有基因型SNP进行QC过滤(Misztal等人,2015)。在此最终原始数据集质量控制之后,对于芯片SNP,GS分析仅包括那些SNP和基因型检出率≥0.90的样品,最终有效数量为40,710个SNP。同样,对于RAD SNP,GS分析中仅包括那些呼叫率≥0.70的SNP和样品,最终有效数量为10,052个SNP

对于验证鱼,我们使用了基于谱系的经典(没有基因组学或标记基因型数据的)模型(PED)估算了BCWD抗性表型(DAYS和STATUS)的EBV。基于家系的EBV是使用BCWD记录估计的,这些记录测量了验证鱼(YC2005families)和任何旁系家系。该表型数据集包括来自71个FS家族(14个父系半同胞族,10个母系半同胞族和27个未嵌套在同胞半族的家庭)的4492条鱼类的DAYS和STATUS记录,谱系包括4659条记录。

在进行PED数据分析之前,为了识别重要的DAYS和STATUS预测因子,我们使用混合线性模型执行多变量回归分析,其中包括随机家系效应,池号和年份固定效应,以及协变量体重(BW),使用SAS软件(SAS,2007)的程序REG进行逐步模型选择。然后,使用SAS软件(SAS,2007)中的混合程序评估对天数和状态有显着影响实验变量(包括在PED模型中的潜在变量)的家系效应。执行后一项测试是为了避免对具有显著家庭效应的固定和协变量效应的响应变量进行错误的调整。

在使用一代BCWD记录(YC 2005家系)进行STEPWISE模型选择时,我们发现BW和tank对天数和状态的预测能力有显著的贡献。由于幼鱼疾病挑战性研究的实际限制,我们疾病挑战性实验的实验设计混淆了鱼缸和家系效应,所以我们决定在分析模型中不考虑鱼缸效应。接下来,我们发现家系对BW的影响不显著(测试模型:BW=mean+family+error),这表明协变量BW可以包含在模型中。基于这些结果,我们认为估计EBV的线性模型应该包括种群平均效应、随机动物效应、连续协变量BW和随机误差效应。BCWD天数和状态记录分别使用计算机应用程序BLUPF90拟合到PED线性模型和阈值模型中。

用贝叶斯变量选择模型估计GEBV。

来自训练群体(YC2005家系)的芯片或RAD SNP基因型数据及其相应的BCWD表型记录,用于创建预测模型并使用GENSEL软件中BayesB和BayesC方法估计标记效应。(Fernando和Garrick,2013;Garrick和Fernando,2013)。
在进行GS分析之前,我们首先使用BLUFF90软件中的AIREML和GENSEL中的BayesC进行方差分量分析,以估计BCWD抗性表型的遗传和残余方差;这些方差组分的估计在贝叶斯分析中用作先验。我们用以下混合线性模型进行了DAYS的GS分析


其中y是表型记录的n×1向量;μ是总体平均值;Z是k个SNP标记的基因型协变量(编码为-10、0或10)的n×k矩阵,α是k个SNP(加性标记效应)随机偏回归系数的k x 1向量,e是残差向量。

如前一部分所述,我们还使用贝叶斯方法对GS分析中使用的训练样本进行了STEPWISE模型选择,该样本仅包括同时具有表型和基因型记录(n = 583)的鱼,以确定是否应将家系,鱼池和体重变量包括在模型中。我们观察到tank,BW和家系对DAYS和STATUS记录有显著影响;尽管如此,我们决定不在模型中包含tank效应,因为tank在我们的疾病挑战研究设计中与家系混淆。

使用SNP Chip基因型数据用软件BLUPF90(Misztal等人,2015)估算的前两个主要因素(家系和鱼池)的散点图提示了种群结构。有代表家系群体的九个集群;我们使用了10个FS家庭,其中两个家庭共享同一个鱼池的亲本(母系半同胞家系)。我们决定不通过对家庭或两个第一主成分建模来考虑这种明显的结构,因为它是由GS分析中估计的家庭遗传效应引起的。接下来,我们发现家庭对BW有显着影响,这表明BW协变量不应包含在混合线性模型中。使用GENSEL中的类别分析选项对STATUS的二进制数据进行GS分析

在BayesB和BayesC分析中,混合参数π指定具有零效应的基因座比例。因此,给定p个有效数量的SNP,将被采样为具有非零影响的k =(1-π)p个标记同时拟合到贝叶斯多元回归模型中。假设混合参数π是已知的,并且定义为满足条件k≤n;用贝叶斯方法进行GS分析,我们利用SNP Chip数据评估了π值分别为0.98、0.99和0.995。 RAD数据的π值分别为0.975、0.98、0.99和0.995。

在贝叶斯变量选择模型BayesB和BayesC中,对于非遗传固定效应的向量β,我们使用平坦先验,对于残差向量,使用条件方差σ2e,一个具有零均值和协方差矩阵Rσ2e的正态分布,其中R是对角矩阵。此外,将σ2e作为一个具有标度逆卡方先验的未知参数。在BayesB中,前提假设是标记效应具有相同且独立的混合分布,每个标记的点质量为零,概率为π,单变量t分布的概率为1-π,均值为零,比例参数S2α,和Vα自由度;并且BayesB中的t分布等效于具有未知零均值和特定于轨迹的方差的单变量正态分布。

在BayesC中,先验的假设是标记效应具有相同且独立的混合分布,其中每个点的质量为零,概率为π,单变量正态分布的概率为1-π,均值为零,方差为σ2α,其缩放比例为卡方先于。 S2α标度参数和vα自由度。另外,在BayesC中,假设了一个特定于基因座的方差,该方差是通过使用来自先验数据和实际数据的信息计算得出的。

计算机应用GENSEL在其所有的贝叶斯变量方法中均使用Gibbs抽样方式,使用50,000个蒙特卡洛(MCMC)迭代分析BCWD抗性表型,删除其中最初的10000个用作burn-in的样本,从剩余的40000个样本中,我们每十个样本中保存了一个,并使用R包CODA评估了MCMC迭代的正确混合和收敛,以此来保证从全条件后验分布中提取MCMC样本。

用ssGBLUP估计GEBV

使用来自训练鱼和验证鱼的Chip或RAD SNP基因型数据(来自10个NCCCWA 2005 FS家系的后代)和在训练中测量的BCWD记录以及本次GS研究中包括的所有鱼类(没有受到疾病侵染的全同胞)的系谱信息来确认鱼的GEBV,用以下两种方式:ssGBLUP和wssGBLUP。

在wssGBLUP中,第一次迭代中每个SNP的权重均为1,这意味着所有SNP都具有相同的权重(即标准ssGBLUP)。对于下一次迭代(第二,第三等),权重是在上一次迭代中估计的SNP效应的个体方差。与贝叶斯变量选择模型相比,分析中包括的ssGBLUP方法数据也来自YC 2005家族的后代,这些家族只有BCWD抗性表型记录而没有标记基因型数据包括: 训练鱼的全同胞(10个FS家系)和与提供训练和验证鱼的10个FS家庭有血统关系的另外61个FS家庭(n = 4492;表1)。

在使用ssGBLUP和wssGBLUP方法执行GS分析之前,为了进行质量检查并获得遗传参数的估计以用作二进制STATUS贝叶斯分析的先验值,我们使用AIREMLF90对DAYS进行了方差成分分析,该分析在BLUPF90中实现。STATUS的方差成分分析和GS分析是通过在BLUPF90中的THRGIBBS1F90进行的。

在贝叶斯框架下,使用阈值模型将二进制状态数据作为分类数据进行分析。 MCMC Gibbs采样方案总共进行了70,000次迭代。最初的10,000次迭代已作为burn-in迭代被舍弃;然后从剩余的60,000个样本中每20个样本保存一个进行分析。此Gibbs抽样方案收集了3000个独立样本进行分析。也使用R包CODA评估了这些MCMC迭代的正确混合和收敛。

线性和阈值模型分别用于估计DAYS和STATUS的GEBV,包括总体平均效应,动物随机效应,连续协变量BW和随机误差效应。DAYS的混合线性模型和二进制STATUS的阈值模型使用在软件BLUPF90中的系列应用程序进行拟合。

EBV和GEBV的预测能力及偏差

EBV和GEBV都是加性遗传效应的预测能力,基于以下假设进行估计的:FS-PTF的MPP之间的相关性是预测育种值准确性的最佳无偏估计,在我们的验证样本中,将嵌套在8个父亲半同胞(HS)组中的17个FS家庭和不嵌套在HS家族中的14个FS家庭的混合。我们没有将验证亲本与来自共同遗传基础的大量随机鱼样本交配,而是将它们彼此配对,所以我们使用中亲BV来说明他们的遗传净产值。因此,本研究以EBV和GEBV的PA作为预测精度的估计量。为了估算每个PTF的平均STATUS和平均DAYS表型(MPP),我们计算了每个挑战池的平均值,并计算了一个家系中挑战池的均值。
在这项研究中,我们首先估算了= 53个验证样本鱼(补充材料中的DataSheet1)中的每一个的EBV和GEBV。然后我们计算了来自YC 2007的31个FS子代测试家系的中亲EBV和GEBV(补充材料中的数据表2)。
EBV的PA(PAEBV)估算为每个PTF中中亲EBV与MPP的皮尔逊相关系数,PAEBV = CORR(EBV,MPP)。据我们所知,这是首次在虹鳟鱼中进行的GS研究中使用后代测试数据来验证基因组预测的准确性。
MPP对预测中亲EBV的回归系数,作为EBV的偏差。
同样,将GEBV的PA(PAGEBV)估计为中亲GEBV与来自每个PTF中的MPP相关系数。
PAGEBV= CORR(GEBV, MPP)。MPP对预测中亲GEBV的回归系数,作为GEBV的偏差。回归系数为1.0表示,估计的EBV或者GEBV是真实育种值(MPP)的无偏估计。与1.0的偏差可以解释为预测偏差.

结果

为了排除ssGBLUP方法和使用的统计模型中的潜在错误,(1)我们使用当前的统计模型(表型=均值+动物+体重+误差)执行GBLUP分析,以确保ssGBLUP没什么问题算法; (2)使用替代统计模型(表型=鱼池+动物+体重+误差)进行ssGBLUP分析,以评估固定效果鱼池对ssGBLUP预测准确性的影响。和预想的一样,在当前的统计模型中,GBLUP(DAYS = 0.41; STATUS = 0.31)的准确性低于ssGBLUP(DAYS = 0.49; STATUS = 0.46)的准确性,这表明ssGBLUP方法没有任何问题。接下来,我们发现当前模型ssGBLUP的准确性显着高于替代模型ssGBLUP的准确性(DAYS = 0.32; STATUS = 0.25),这突显了将坦克效应纳入统计模型的不利影响。此外,与当前模型ssGBLUP(h2DAYS= 0.24;h2STATUS= 0.45)相比,替代模型ssGBLUP(h2DAYS= 0.11;h2STATUS= 0.33)估计的遗传变异和遗传力降低了约100%,替代模型ssGBLUP降低了遗传变异,遗传力和预测准确性,是由于在我们的疾病挑战性实验设计中,鱼池与家庭效应混杂在一起。因此,通过将鱼池效应纳入替代模型时家庭效应被错误地解释了两次,并消除了遗传变异。也因如此,我们在GS分析中使用的统计模型是正确的。

EBV和GEBV对BCWD抗性的预测

对于BCWD抗性表型DAYS和STATUS,附加文件S1中提供了基于谱系的EBV和使用Chip和RAD基因分型平台从四个GS模型得出的GEBV预测。

GS模型估计的GEBV之间的相关性

利用两个基因分型平台的数据,用四个GS模型估计的BCWD抗性的GEBVs之间的相关性如补充材料中的表1所示。 GEBV高度相关(0.81-0.99)。如预期中,用BayesB和BayesC估计的GEBV相关性最高(0.97-0.99),其次是用ssGBLUP和wssGBLUP估计的GEBV(0.91-0.93)。

BCWD抗性的遗传力

使用没有基因组学数据的PED模型,天数和状态的遗传力分别为0.31和0.48(表2)。


表2

EBV的预测能力和偏差

DAYS的EBV的PA(PAEBV = 0.50)高于STATUS的EBV的PA(PAEBV = 0.41)(表2)。 DAYS的EBV偏差(βMPP.EBV= 1.10)低于STATUS的EBV偏差(βMPP.EBV= 0.33),或者DAYS的偏离1.0小于STATUS。这些结果表明,与STATUS的EBV相比,DAYS的EBV估计值具有更高的PA和更低的偏差。

GEBV的预测能力和偏差

对于DAYS,在GS模型和SNP基因分型平台上,由标记物解释的遗传变异比例为h2 M = 0.26- 0.33(表3)。


表3

DAYS的GEBV的PA范围为PAGEBV = 0.37-0.49。 DAYS的GEBV的偏差范围为βEBV2.EBV= 0.32-0.69,这表明DAYS的GEBV向上偏移。
对于STATUS,在GS模型和SNP基因分型平台上,由标记物解释的遗传变异比例为h2 M = 0.43-0.54(表4)。


表4

STATUS的GEBV的PA范围为PAGEBV = 0.26-0.46。 STATUS的GEBV的偏差范围为βEBV2.EBV= 0.13-0.24,这也表明STATUS的GEBV向上偏移。
总体而言,在GS模型和基因分型平台上,DAYS GEBV的PA高于STATUS估计的PA,而DAYS的偏差值则较小。

讨论

用PED模型估算的遗传力和用GS模型估算的标记解释的DAYS遗传变异比例与先前报道的该物种的BCWD生存STATUS的遗传力相近。然而,用PED模型估计的遗传力和用GS模型估计的标记解释的STATUS遗传变异的比例要高于我们先前用生存分析模型得出的估计。here the binary data STATUS was analyzed with a threshold model in the underlying scale of disease liability.

用四个GS模型和跨基因分型平台估算的BCWD抗性的GEBV高度相关(0.81-0.99)。BayesB和BayesC之间的相关性最高(0.97-0.99),其次是ssGBLUP和wssGBLUP之间的相关性(0.91-0.94)。这些结果突出表明,在这个群体中,亲本在GS模型中对BCWD抗性的排名非常相似。

另一方面,基于系谱的模型EBV和GEBV之间的相关性仅中度 (0.60;数据未显示),这表明EBV和GEBV不是该群体中该性状的动物遗传价值的相似预测因子。因此,鉴于EBV和GEBV之间的中度相关性,两种预测方法对亲本的排名是不同的,具有最高PA和最小偏差的方法预计将产生更好的性能。

GEBV天数的PAS(PAGEBV=0.37−0.49)高于状态估计的PAS(PAGEBV=0.26−0.46),反映离散数据DAYS对混合线性模型的拟合比二元数据STATUS与阈值模型的拟合更好。在这项研究中,BCWD抗性基因组预测的准确性在0.26-0.49(表3,4)的范围内,这接近于用PED模型估计的精度(0.41-0.50;表2);然而,在遗传力为0.30的情况下,它们与PED模型所能预期的0.55最大实现精度相比仍然较低。

考虑到这里使用的训练样本量(n=583)和BCWD抗性的遗传力为0.30,我们使用确定性表达式(Daetwyler等人,2008年)计算出,如果至少有500个独立位点影响BCWD抗性,则预期基因组预测的精确度为0.51;这接近于本研究中GEBV的最佳PA。因此,假设至少有500个影响BCWD抗性的独立位点,并赋予该疾病株的遗传力为0.30,训练样本为3000条和10,000条鱼,我们预计预测GEBV的准确度分别为0.80和0.93;这比PED模型EBV的预期实现精度高46和69%。

EBV与GEBV的比较

用四个GS模型和两个基因分型平台估计的EBV天数的PA(PAEBV=0.50)(表2)高于GEBV的天数的PA(PAGEBV=0.37−0.49)(表3,图1A)。而相反,EBV STATUS的PA(PAEBV=0.41)低于在两个基因型平台上用ssGBLUP估计的GEBV STATUS的PA(PAGEBV=0.42−0.46)(表4,图1B)。


图1

EBV对DAYS的偏差(βmpp.EBV=1.10)(表2)低于GEBV DAYS的偏差(βmpp.GEBV=0.32−0.69)从GS模型和基因分型平台中(表3)。同样,EBV对状态的偏差(βmpp.EBV=0.33)(表2)低于GEBV对状态(βmpp)的偏差。GEBV=0.13−0.24)跨GS模型和基因分型平台(表4)。

基于系谱的EBV的PA和BIAS与的基于基因组的GEBV的最好PA和BIAS相近,这个GEBV使用ssGBLUP模型进行估计 (图1,表2-4)。

总体而言,我们使用的样本量太小,无法评估在这个虹鳟鱼种群中GS对BCWD抗性的全部潜力。在这项研究中,验证样本中的训练鱼的数量和经过后代测试的FS家系的数量相当有限。因此,增加训练和验证群体的样本量有望提高虹鳟鳟鱼的BCWD抗性的PA和GEBV预测的准确性

GS模型之间的比较

在基因分型平台上,用ssGBLUP(PA GEBV = 0.48-0.49)估算的DAYS的GEBV的PA高于使用BayesB(PA GEBV = 0.39-0.47)和BayesC(PA GEBV = 0.44-0.46)估算的;使用RADs(PAGEBV=0.37)的wssGBLUP表现了DAYS的最差精度,这可归因于使用相对较小的训练样本时的随机波动(表3)。


表3

类似地,用ssGBLUP(PAGEBV=0.42-0.46)和wssGBLUP(PAGEBV=0.40GEBV=0.43)估计的STATUS GEBV的PA高于在基因分型平台估计的贝叶斯B(PAGEBV=0.26−0.40)和贝叶斯C(PAGEBV=0.31−0.35) (表4)。


表4

总体而言,在BCWD表型和基因型平台上,使用ssGBLUP估计的GEBV具有最高的PAGEBV。使用BayesC估计的GEBV具有最低的PAGEBV(表3,4,图1)。显然,用ssGBLUP估计的GEBV比用wssGBLUP估计的GEBV有更高的PAGEBV。方法BayesB的性能略高于BayesC约0.06个PAGEBV单位(图1)。

在BCWD表型和基因分型平台上,用ssGLBUP计算的GEBV偏差最小或偏离1.0最小(表3,4)。相比之下,用wssGBLUP估计的GEBV是最有偏差的,或者偏离1.0最大。用BayesB和BayesC估计的GEBV对ssGBLUP和wssGBLUP的偏差相似。在贝叶斯方法之间,贝叶斯B的偏差比贝叶斯C小。

最准确的ssGBLUP GEBV(DAYS with Chip)的PA为0.49,仅略好于PA分别为0.47和0.46的BayesB和BayesC估计量。有趣的是,在芯片基因分型平台上,GBLUP模型的准确性更高,而在RAD平台上,贝叶斯模型的准确性更好。ssGBLUP在所有表型和基因分型平台上都优于wssGBLUP。对于STATUS表型,wssGBLUP准确性比贝叶斯模型稍好,但是对于DAYS表型,wssGBLUP准确性较差。在RAD基因分型平台上,BayesB的准确性优于BayesC,但是在Chip平台上,BayesC的准确性更高。

先前我们已经证明,在虹鳟种群中,BCWD抗性的遗传结构是由少数中效大效QTL和多个基因/位点的寡基因遗传控制的,每个基因/位点的效应都很小(V allejo等人,2010,2014a;Liu等人,2015b;Palti等人,2015b)。因此,考虑到遗传结构,似乎在单步GS分析中使用谱系和表型记录以及标记基因型数据的GS模型(Aguilar等,2010; Legarra等,2014)可以产生更高准确性的GEBV比基于收缩或变量选择模型的方法要高(Garrick和Fernando,2013年)这种选择模型符合贝叶斯多元回归模型标记,且具有中度到大型效果。
但是,本研究中ssGBLUP相对于贝叶斯变量选择模型的优势非常小,因此应使用较大的训练和验证样本进行验证。

芯片平台与RAD平台的比较

当使用ssGBLUP和wssGBLUP时,芯片基因型平台具有比RAD基因型平台具有更高PAGEBV的GEBV(表3,4,图1)。然而,当使用贝叶斯方法时,RAD具有比芯片基因分型平台更高PA的GEBV。
总体而言,在BCWD表型和GS模型中,芯片平台产生的GEBV偏差低于使用RAD估计的GEBV(表3,4)。对于这两种BCWD表型,仅当使用BayesB时,RAD平台的GEBV偏差要比Chip估计的偏差低。

芯片和RAD基因分型平台的基因型数据QC之后有效SNP数分别约为40K和10K。因此,在基因组预测的准确性方面,RAD平台(PA GEBV = 0.35-0.48)与芯片平台(PA GEBV = 0.26-0.49)效果一致。
另一项研究还报告说,当对大量标记物进行基因分型并且每个个体的读取深度≥1x时,使用RAD和SNP标记物基因型数据的GEBV的准确性是相似的(Gorjanc等人,2015)。
RAD或类似的通过测序的基因型方法为基因组资源不发达,难以负担得起的高密度SNP芯片的物种提供了有吸引力的选择。然而,SNP芯片的容量高于RAD平台,并且RAD测序SNP更具家系和群体特异性,这不利于产生具有跨家族和群体信息的普遍SNP的高密度面板。这些SNP可以为整个家庭和种群提供信息。此外,用于SNP芯片的生物信息学流水线更加健全且易于实施,因此,芯片平台对于大规模基因组基因分型研究更实用。

我们假定相对较低的标记密度RAD与SNP芯片一样有效,由于虹鳟抗病性系中的大范围连锁不平衡。这种大范围连锁不平衡可能是因为高度杂交而产生,在这个群体中,有四个不同的驯化品系(Johnson等,2007; Silverstein等,2009)。); 这种杂交同时还减少了种群的小范围的连锁不平衡。这些群体遗传行为可能会降低高密度SNP数据的相对优势,因为即使是稀疏的标记板也可以捕获到相当大一部分的现有LD,这可能解释了RAD在比SNP芯片标记密度底的情况下具有良好性能。 在养殖鲑鱼种群中也报道了类似的现象,即高度杂交引起的大范围LD,可以在相对较低的标记密度下实现有效的GS(Ødegård等,2014)。)。在本研究中可能有助于RAD平台相对成功的另一个因素是,许多RAD SNP都是家族特异性的,因此,因此,通过RAD基因型数据可以更好地在某些家族中代表某些QTL的基因组区域。

你可能感兴趣的:(利用虹鳟后代表型数据对细菌性冷水病抗性能力的基因组选择评估:基因分型方式和基因组预测方法的分析)