Wray2019 复杂性状预测 综述

Wray NR, Kemper KE, Hayes BJ, et al. Complex Trait Prediction from Genome Data: Contrasting EBV in Livestock to PRS in Humans. Genetics, 2019, 211(4): 1131–1141. DOI: 10.1534/genetics.119.301859.

摘要

在这篇综述中,我们重点讨论了家畜估计育种值(EBVs)和人类多基因风险评分(PRS)预测的基本概念的相似性【比较】。我们的研究跨越了这两个领域,因此我们认识到一些因素对一个领域的人来说非常明显,但对另一个领域的人来说则不那么明显。物种间的家系大小差异是推动不同观点和方法的楔子。非人类物种可达到的大家族规模伴随着选择产生了较小的有效群体规模、增加的连锁不平衡以及群体内个体间较高的平均遗传关系。在人类遗传分析中,我们选择经典意义上无关的个体(关系系数<0.05)来估计共有snp所捕获的遗传力。在家畜数据中,一个品种内的所有动物在某种程度上都是“相关的”,因此不可能选择不相关的个体并保留足够大的数据集进行分析。这些差异直接或间接影响数据分析的方式。在家畜中,通过对家系内亲本基因组的取样而暴露的遗传分离变异是可以直接观察到的,并且被认为是理所当然的。在人类中,这种基因组变异因其对常见疾病多基因风险变异的贡献而被低估,无论是有或没有家族病史的人。我们探索了用PRS解释的预测期望方差比例的方程,并量化了GWAS样本量是如何最大化人类和牲畜预测准确性的关键因素。最后,我们将讨论的概念集合起来,以解决一些常见问题。

在这篇综述中,我们对比了人类遗传学中使用的多基因风险评分(PRS)(Wray等人,2007年;Evans等人,2009年;Purcell等人,2009年;Chatterjee等人,2016年;Torkamani等人,2018年)与家畜遗传学中使用的估计育种值(EBV)(Henderson 1975;Meuwissen等人,2001年;Brotherstone和Goddard 2005年;de los Campos等人,2010年)。我们的目标受众是来自这两个领域的研究人员,我们试图提供关键信息,根据我们的经验,在这两个领域的专家之间架起了桥梁。我们的畜牧业重点是奶牛,但饲养的点大多是跨物种转移的。了解种间连锁不平衡的差异(LD,基因组内的局部相关结构)是区分的基本点,这是由有效种群大小的差异驱动的,而有效种群大小又反映了家系大小的差异。我们提供了PRS和EBV方法的简史,并比较了估计SNP效应大小的方法的差异。其次,我们考虑PRS样本外预测的准确性,我们发现理论上对PRS预测精度的期望值还没有得到实践的认可。最后,我们讨论了家系内变异的概念,尽管家系内变异是Fisher(1918)以来多基因性状概念化的一个基本特征,尽管是作物和牲畜选择范式的关键力量,在我们看来,人类遗传学并没有充分认识到作为世代间多基因变异的驱动力。传统上,家畜的遗传信息数据集比人类的数据集更大,但这种情况正在开始改变。综合我们的观点,我们将讨论四个常见问题(FAQ)。

PRS与基因组EBV研究简史

个体对某一特定性状的育种值(BV)是其加性遗传值的总和,个体平均将其中的一半遗传给其后代(“一半”,因为后代只随机获得父母DNA补体的确切一半;“平均而言”,因为遗传值与遗传基因相关DNA可能偏离基于分离取样的平均值)。理论上,这可以通过个体在所有影响性状的位点上的基因型来计算,利用这些位点上每个等位基因的平均效应。也就是说,它是基因型(x=0,1,2个性状增加等位基因)乘以每个等位基因(b)的性状增加效应的平均效应的线性函数,即:。
实际上我们不知道影响性状的基因座,也不知道它们的影响大小,所以我们必须估计每个个体的育种价值。在家畜遗传学中,传统上这是通过使用个体的表型及其亲属的表型来完成的。现在SNP芯片数据的基因组数据的信息已经可用于这些补充系谱ebv,生成基因组EBVs(GEBVs)。GEBV可以计算为SNP基因型的线性函数,加权每个基因型对性状的明显影响。SNP芯片检测到的多态性并没有导致性状的变异,而是假设它们与未知的因果变异相关(在LD中)。
PRS和GEBV是一样的,也就是说,它是SNP基因型(或其他DNA变体)的线性函数,每个基因型都由SNP的明显效应加权。对人类来说,兴趣主要集中在疾病特征上,因此产生了“风险”范式。每个DNA变体的明显效果可以通过个体的发现样本中的关联分析来估计,这些样本已经过DNA变异分析和表型记录。由于我们希望PRS能反映尽可能多的遗传变异,SNP效应大小在全基因组关联研究(GWAS)中被估计出来。
人类和家畜的预测目的有一个根本的区别:人类的目的是预测个体未来的表型,而家畜的目的是(通常)预测动物遗传物质对后代的平均值。因此,从本质上讲,对EBV或GEBV的理解集中在群体的平均水平上,即个体后代的平均水平。EBV/GEBVs的单位是性状的单位,例如,与来自基础群体或参考群体的后代相比,后代的预期乳量偏差。PRS可以用性状单位来表示,但大多数是用未选择或对照样本的SD单位来表示。在人类遗传学中,虽然PRS的目标是预测表型,但对个体的预测准确率很低(见下文);因此,PRS的价值与家畜遗传学一样,在群体水平上得到最好的解释。受试者-操作者特征曲线下面积(AUC)是用来评价PRS对疾病的准确性的一种统计方法【GS能用吗?】。AUC的范围从0.5(随机预测)到1(完美预测),可以解释为随机选择的疾病影响个体的等级高于随机选择的未受影响个体的概率。例如,基于PRS的冠心病(CAD)AUC估计为0.81[95%置信区间(CI)0.80–0.81],基于PRS的前10%的风险是其他人群平均风险的2.89倍(Khera等人,2018年)。值得注意的是,这些结果还包括年龄、性别、基因分型阵列和四个祖先信息主成分(PCs)。另一项研究也基于类似的GWAS汇总统计数据生成了CAD的PRS,并且与Khera等人(2018年)的研究一样,使用英国生物银行队列(但子集略有不同)来评估疗效(Inouye等人,2018年)。他们将AUC量化为0.79,比包括性别、基线年龄、基因分型阵列和10个基因型的基线模型增加了2.8%。
支撑我们现在所说的PRS和GEBV的概念发表在两篇具有里程碑意义的遗传学论文上。Russell-Lande和Robin-Thompson(Lande和Thompson,1990)认识到,测量的DNA变异(标记)和影响个体间变异的基因座(数量性状基因座或QTL)之间的全基因组LD可用于选择。他们引入了“分子分数”的概念,即与标记相关的性状(即GEBV或PRS)的相加效应总和。当时,可测量的DNA变体是限制性片段长度多态性(RFLPs),然而作者引入了GWAS的概念,随后选择了最相关的标记。他们讨论了对效应大小进行无偏估计的必要性(因为在人类遗传学中被称为赢家诅咒或家畜遗传学中的Beavis效应,最显著相关基因座的GWAS估计总是被高估了)。Lande和Thompson估计了当LD由漂移产生时(由于有效种群规模有限),需要多少个标记来代表基因组的变异,这为人类(500000-1000000)与牛(50000)SNP芯片阵列上包含的SNP数量非常不同提供了理论依据。在牛中,杂交预测需要更密集的SNP阵列。
十年后,Meuwissen等人(2001)发表了第二篇里程碑式的论文,该论文提供了额外的理论,并预测了密集SNP阵列的到来及其使用意义。他们考虑了估计SNP效应的方法,承认了赢家诅咒的问题和可估计性的问题,因为标记的数量通常大于个体的数量。他们考虑了最小二乘法(无P值阈值)、最佳线性无偏预测(BLUP)和贝叶斯方法来估计标记效应,并在模拟场景中考虑了不同的遗传结构。
Illumina牛SNP50芯片于2008年上市。乳品业对所谓基因组选择的吸收率令人震惊,到2015年,超过100万头荷斯坦牛(黑白)已被基因分型,到2018年,这一数字超过220万头(https://queries.uscdcb.com/Genotype/counts.html). 对美国7年来实施的基因组育种值的评估发现,产奶性状的年度遗传改良率为100%,低遗传力生育性状的年度遗传改良率为300–400%(García-Ruiz et al.2016)。这些变化反映了通过使用DNA变异体在1岁公牛之间进行选择的能力,在它们生下可以评估产奶量的女儿之前,可以根据GEBVs在1岁公牛之间进行选择,从而缩短了世代间隔(例如,公公牛从7年到<2.5年)。也就是说,GEBV可以准确地预测哪些儿子从父母那里获得了最佳的DNA变异组合。
在人类遗传学方面,2007年发表的Wellcome Trust病例对照联合研究(Wellcome Trust Case Control Consortium 2007)以GWAS时代为基准。在发表之前的几个月里,人们对这项研究的成果充满了兴奋和期待;每种疾病2000个病例和3000个对照组的样本规模是前所未有的。此时,我们(基于我们对非人类物种多基因特征的理解)对GWAS在个体变异发现方面的作用缺乏信心,但对PRS在社区卫生疾病预防计划中的价值进行了假设(Wray等人,2007年、2008年)。我们进行了一项模拟研究(Wray等人,2007年)来调查PRS在常见疾病预测中的应用,结论是“我们的研究表明,预测遗传风险是可能的,即使有数百个风险变异,每个变异的影响都很小。”并且“这些预测性SNP的价值可以在确定每一个促成变异的因果机制之前很久获得。”其他人(Collins et al.2003;Bell 2004;Khoury et al.2006;Kathiresan et al.2008;Pharoah et al.2008)已经引入了多SNP遗传图谱的概念,但之前唯一考虑到这一点的研究全基因组分析(Janssens et al.2006)在模拟中假设所有风险位点都已知,因此风险预测有效性的关键决定因素缺失(即需要估计效应大小)。考虑到基因组中DNA变异的数量,PRS的准确性取决于估计效应大小的准确性,以及区分真阳性和假阳性的程度

DNA变异表观效应的估计方法

GEBV就像一个多元回归方程,有大量的预测因子(即snp或其他DNA变体),目前通常大于发现数据集中的个体数。这些效应可以通过对它们进行联合拟合来估计,但要将这些效应视为从某些特定分布中提取的随机变量。如果假设所有效应大小均来自同一正态分布,则该方法为BLUP。其他常用的分布是正态分布的混合,包括零效应的比例。这些混合模型通常包含在通过马尔可夫链蒙特卡罗方法实现的贝叶斯模型中(Habier et al.2011)。
相比之下,PRS的效应大小通常通过一次拟合一个SNP来估计,而忽略所有其他SNP。当我们进行2007年的模拟研究(Wray等人,2007年)时,我们做出了我们知道不是最优的决策,但我们的方法与当时的想法截然不同。一个决定是使用一个相当严格的关联P值阈值来选择用于PRS计算的snp。然而,当第一次有机会将该方法应用于实际GWAS数据时(Purcell et al.2009),我们研究了更宽松的P值阈值来生成PRS。我们(由Shaun-Purcell领导)(Purcell et al.2009)通过模拟表明,施加在发现样本上的最佳P值阈值取决于其样本量和性状的遗传结构(参见Purcell et al.2009的图S8)。现在的“标准”PRS方法遵循了最初的应用,并基于基于LD修剪/聚集和P值阈值的GWAS分析选择snp。然而,聚集和阈值化步骤都有一定的随意性,在单个队列中报告最大化样本外预测的P值阈值的结果是赢家诅咒的一种形式。理想情况下,样本外预测结果应报告许多队列的平均结果,例如(精神病基因组学联盟精神分裂症工作组2014;Wray等人,2018)。2007年,我们知道[根据Meuwissen等人(2001年)的结果]标准的人类GWAS一次一个SNP回归不是用于预测的估计SNP效应的最佳方法。在人类遗传学中使用一次一个SNP回归的原因是因为GWAS的主要目标是识别性状SNP关联,以便更好地理解性状的潜在生物学;彼此高度相关的SNP都具有相似的效应大小。在BLUP中,如果在高LD中有许多SNP彼此之间和因果变异,单个SNP效应估计可能很小,因为因果变异的效应在相关变异中是“共享的”。研究了其他估算减贫战略的方法,如GEBV常用的方法(de los Campos等人,2013年;Abraham等人,2014年;Golan and Rosset2014年;Moser等人,2015年;Vilhjálmsson等人,2015年)。在真实和模拟的人类和家畜数据中,同时拟合所有SNP的方法通常比一次拟合一个SNP的方法产生更准确的样本外预测,而贝叶斯混合模型通常比BLUP更好。然而,准确度的提高有时很小,除非性状有一些更大的变异。通过从较大样本量的相关GWA中“借用”样本量来增加发现样本量的方法也可以提高准确性(Li et al.2014;Maier et al.2015、2018;Turley et al.2018)。几十年来,多变量方法一直用于家畜研究,特别是在基于预测经济重要性的许多性状指数的选择方面(Hazel 1943)。

样本外预测的准确性

有或没有表型记录的个体,最终是谁没有表型记录的机会。PRS的疗效是通过一组未被纳入发现数据集但有表型记录的个体来评估的。PRS的有效性从理论上得到了很好的理解(Daetwyler et al.2008;Visscher et al.2010;Wray et al.2013;Dudbridge 2013;Pasaniuc and Price 2017),然而,与家畜遗传学相比,在人类遗传学应用中,了解样本外预测中解释的方差比例的预期增加似乎不太被认可。在这里被定义为表型y和表型的预测因子之间的平方相关,即PRS,

已经证明(Daetwyler et al.2008;Visscher et al.2010;Wray et al.2013;Pasaniuc and Price 2017),期望,,取决于样本量(N)、估计效应大小的独立SNPs数量(M)以及与这些SNPs相关的表型变异比例,

让我们详细探讨一下这种关系。首先,随着N增加趋向0,趋近,为提供了一个上限;因此,PRS不是完全准确的诊断MÞ趋于零,因此,PRS不能完全准确地预测个体的诊断(因为它们只能预测SNPs捕获的表型成分)。如果预测因子是由全基因组的SNPs构建的,那么M是独立SNPs的数量(或SNPs的有效数量)。M可以被估计为SNPs的总数除以SNPs的平均LD得分(Yang等人2011b),其中SNP的LD得分被定义为与其他SNPs(包括其自身)的LD 之和(通常在定义的基因组距离窗口)。假设SNP的频率>1%,那么人类M�50,000(相比牛的只有~5000)。是基于SNP的遗传力。基于SNP的遗传力是SNP与影响表型的原因突变在LD中捕获的表型变异的比例(如下所述,这在家畜中是一个比在人类遗传学中更困难的概念,因为基因组中的高LD)。因此,遗传力是遗传预测因子的理论上限,而基于SNP的遗传力是基于普通SNP的PRS的上限。即使基于SNP的遗传率很高,样本外预测也很低,除非发现样本量很大。如使用LD评分法(Bulik Sullivan et al.2015)估计基于SNP的遗传力的推导所示,基于SNP的遗传力可以近似估计为关联检验统计数据和每个SNP的LD评分之间的回归。这个回归系数可以用很高的精确度来估计,因为有太多的SNP有助于单个统计量的估计。然而,对于样本外预测,需要准确估计单个SNP效应。我们需要估计所有SNP的效应大小,包括那些真正相关的(即因果变异和与因果变异相关的SNP)和那些不相关的。例如,当=0.3且发现样本大小为N=50000时,则样本外预测中的预期仅为∼7%。将discovery样本大小加倍到100000,将增加到11%(图1)。为了获得接近的,需要非常大的样本量,因为基因组中的大量SNPs必须估计其影响大小,即M。P值阈值法,或者试图利用遗传结构来减少用于产生PRS的SNPs数量的统计方法,例如,LDpred(Vilhjálmsson et al.2015)可以解释为减少M的方法。然而,在这种方法中,SNP标记的一些真实信号将丢失,因此也会减少。因此,这些方法可以解释为试图找到最大化的M与的组合。一个常见的陷阱是将SNP因果数的估计代入方程1,但这忽略了实际数据分析中的关键困难,即准确估计真正相关和真正不相关变体的SNP效应大小。
全基因组序列(WGS)数据的生成成本将变得更低。因此,我们预期的估计值将随着SNP包含的次要等位基因频率阈值的降低而增加,但伴随着对其有贡献的M的更大增加。我们可以做出一个明智的猜测(基于未发表的分析),WGS数据在人类群体中可能意味着M高达500000,也就是说,与普通SNP阵列数据相比增加了10倍。这种增加的基因组变异表现可能增加了相关的遗传变异捕获,这样可能接近遗传估计从家庭表型记录。所以在我们上面的SNP数组数据示例中,我们使用=0.3,对于WGS数据,它可能是=0.6。然后,对于100000人的样本量,使用公式1,我们期望从使用SNP阵列到WGS数据的11%减少到6%!这些计算是在无穷小模型下进行的。因此,为了利用WGS捕获的增加的,我们将需要在保持高的同时减少估计效应大小的变体数量的方法,即减少M,例如,使用基因组注释,例如,LD pred funct(Marquez-Luna et al.2018)。
对于病例对照研究,方程1是一个很好的近似值,使用等效于病例和对照数量相等的有效样本量,即(其中NTOT是病例和对照数量之和,P是病例比例)(Yang等人,2010b),但更精确的方程已经存在已导出(Lee和Wray 2013)。方程1的预测结果与观测结果吻合得很好。例如,对于高度:N=700,00,=0.246,M=50000,预期为0.19,观察到的样本外为0.19,(报告为R=0.44)(Yengo等人,2018)。同样,对于精神分裂症:36989例和113075例对照组,NTOT=111487,=0.23(精神病基因组学联合会交叉疾病组等,2013),M=50000,预期为0.08,观察到的样本外责任=0.07(精神病基因组学联盟精神分裂症工作组2014)。
在人类遗传学应用中,在评估PRS的有效性时,重要的是检查测试样本是否独立于用于GWAS发现的样本,因为样本重叠(直接或通过亲属)会扩大样本外预测中解释的方差。然而,当在表型未知的样本外预测中应用PRS时,在发现样本中有亲属是可取的,因为这将改善对个体的预测【好还是不好?】(Lee等人,2017)。事实上,对于疾病特征,疾病家族史可以作为一个额外的预测因素,因为这可能包含PRS未捕获的遗传和非遗传因素(Do等人,2012年;Inouye等人,2018年)。在家畜数据集中,由于有效种群规模较小,目标样本通常不可能独立于发现样本。在家畜GEBV评估中,没有表型的个体包括在混合模型方程中,通过描述育种/遗传值之间的方差-协方差结构的基因组关系矩阵与那些有表型的个体相连。在人类遗传学应用中,这种方法不太可能被采用,因为最大的疾病发现样本只能作为GWAS摘要统计数据提供。

近期有效人口规模的后果

家畜基因组和人类基因组的根本区别在于有效群体大小(Ne)的差异。在发达国家的大多数牲畜种群中,大多数个体对种群没有长期的遗传贡献。相反,在未来的人群中,几乎所有的基因都来自一个小的细胞核,导致小的Ne。如果家庭规模较大,这种育种结构很容易实施。例如,在奶牛中,由于人工授精,公牛可以有10万个后代[Toystory (https://en.wikipedia.org/wiki/Toystory_(bull)] sired >500,000 daughters],因为其产奶性状的遗传优势而被选中(当然,这些性状他们甚至不能表达自己)。传统上,EBV是根据女儿和其他女性亲属的记录来计算的。考虑到有大量产奶记录的女儿,EBV可以非常准确地代表公牛的遗传价值。几十年来,ebv已经被用来确定哪些个体应该被选为下一代的父母。通过卵子采集和体外受精技术,即使是高产的优质奶牛也能繁衍出大量后代。因此,相对于人口普查,所需的父母人数较少,导致选择强度较高。例如,国际黑白荷斯坦奶牛种群为2500万头,但目前的有效种群规模(Ne)估计仅为50头(Kim和Kirkpatrick,2009年)至100头(Boving HapMap Consortium等人,2009年)。
家畜物种的大家族规模和小Ne具有许多与人类比较相关的连锁效应。首先,单倍型块很大。对于奶牛来说,它们的长度大约是人类LD长度的两倍(26 kb vs.8–14 kb)(Kim和Kirkpatrick 2009)[奶牛的品种内LD延伸至0.5 Mb(Boving HapMap Consortium et al.2009),并在染色体间产生LD],这影响了基因组数据分析的各个方面。其次,基于SNP的遗传力的概念在家畜中是不同的(Jensen等人,2012)。在人类遗传分析中,人们的兴趣在于了解性状的遗传结构以及对变异的加性遗传贡献,我们选择经典意义上无关的个体(来自SNP数据的基因组关系矩阵(GRM)估计的相关系数<0.05),并使用这些个体确定与常见全基因组SNP相关的方差比例(即,基于SNP的遗传力(反映常见SNP和因果变异之间的LD【不明白】)。基于SNP的遗传力在概念上不同于(并且小于)从家庭/系谱数据估计的遗传力,因为后者包括遗传变异的贡献,这些遗传变异在人群中不太常见(没有常见的SNP标记),但在亲属之间是共享的。基于单核苷酸多态性的遗传率通过LD评分回归(Bulik-Sullivan et al.2015)的汇总统计估计,也仅捕获与常见变异相关的遗传信号。在家畜数据分析中,一个品种内的所有动物在某种程度上都是“相关”的,因此不常(或可能)尝试选择不相关的个体进行分析。另一种方法是在统计模型中拟合两种遗传效应,一种由GRM描述,另一种由系谱关系描述(Haile Mariam et al.2013;Zaitlen et al.2013;Kemper et al.2015)。完成这项工作后,80–90%的产奶量遗传变异由SNPs解释(Haile Mariam et al.2013;Kemper et al.2015)。SNP在家畜中解释的遗传变异比例高于人类,这是由于家畜中的LD较大。

大数据

对于人类研究来说,我们正进入一个颠覆性的数据时代,例如,500000英国生物库(Sudlow et al.2015)是遗传学和流行病学研究前所未有的资源。我们所有人的学习(https://allofus.nih.gov/)旨在收集100万人的数据。在家畜中,甚至更大的数据集几十年来都很常见,但直到最近,它们还不包括DNA数据。想要获得母牛相关产奶性状的EBVs是世界范围内复杂的产奶记录数据收集系统的催化剂。当它(1908年)首次在美国推出时,它是以纸质为基础的(https://www.aipl.arsusda.gov/aipl/history/hist_eval.htm)],但现在是非常高科技的,每头奶牛都有一个直接记录产奶量和活动的转发器,并控制一些农场的食物供应。农场经理可以通过智能手机查看羊群和个人记录。美国奶牛育种委员会(US Council of Dairy Covering)对3100万头奶牛有60年的评估记录(https://queries.uscdcb.com/Genotype/counts.html),其他一些国家也有类似规模的数据库。我们渴望改善人口健康的长期、纵向和高科技数据收集系统已经成为先进统计分析的基础。家畜评估中可用的大量数据,以及在不同环境中发现的近亲,意味着在线性混合模型中可以很好地分离遗传和非遗传因素,并且可以拟合复杂的协变量数组。母体和细胞质/线粒体效应模型(Southwood et al.1989)以及重复测量纵向数据的随机回归模型(Kirkpatrick et al.1990)已使用多年(Meyer 1998)(包括基于每日记录的年产奶量分布的复杂性)。认识到所谓的环境协变量本身是复杂的性状,反应范数模型已被用来联合建模基因型-环境相互作用和基因型-环境相关性(Meyer 1998)。现在可以尝试使用英国生物库(Robinson et al.2017;Beaumont et al.2018;Ni et al.2018)等数据集进行此类分析,但我们还需要很长时间才能获得人类复杂疾病数据集,从而真正受益于这些统计方法。人类研究人员有时会假设牲畜是在环境控制的条件下进行测量的,并且会惊讶于牲畜数据集能够包含复杂的环境测量。相比之下,不熟悉人类数据的研究人员可能会大吃一惊,这类数据集中通常只有年龄和性别的协变量。另一方面,人类疾病数据集带来了在家畜分析中没有出现的挑战,这是由于病例的二元病例/对照数据和病例的过度抽样造成的。在人类和家畜遗传学领域,有人讨论小样本的深层表型是否优先于大样本的浅层表型,但一般来说,技术允许大样本和充分表型。英国生物银行(UKB)的研究已经证明了以一致的方式收集单个大队列的价值。例如,对257000人的身高(Wood et al.2014)和339000人的体重指数(BMI)发表的荟萃分析(Locke et al.2015)分别确定了594个和82个独立的全基因组显著位点。根据BMI850和GWUKs等人的身高,分别确定BMI160和GWUKb。
传统上,家畜数据集比人类数据集更大,表型更丰富,而SNP阵列数据集的大小更具可比性。随着生物库和众包研究积累招募的参与者,并利用智能手机收集数据,人类数据集的规模、表型深度和纵向广度将超过牲畜数据集。在人类遗传学领域开发的用户友好工具[例如,主成分分析软件(Price等人,2006年)、PLINK(Purcell等人,2007年)、GCTA(Yang等人,2011a)]已经被家畜遗传学界积极使用。利用关联摘要统计的方法(Pasaniuc和Price,2017年)是最近人类遗传学研究的一个肥沃领域,它允许从大发现样本中获得预测收益,而无需共享初级数据。其主要特点是关联结果可以通过叠加一个来自外部参考样品的基因组LD相关结构来解释。这些方法计算效率高,避免了与一级数据共享相关的问题(这取决于人类群体的隐私和同意,以及牲畜群体的商业敏感性)。迄今为止,人们对家畜遗传学中使用摘要统计数据的兴趣不大,但这可能是未来研究的一个富有成果的领域,至少在某些物种中是如此。

家庭内部隔离差异的理解与欣赏

通过随机抽样获得的后代间的遗传变异是农业选择计划中利用的主要变异源。由于家畜(和作物)育种计划中的家庭规模可能很大,因此可以观察到一个家庭中后代之间的差异,而且这种差异是有形的。然而,尽管这是人类基因的一个重要组成部分,但对于我们来说,这似乎是不可忽视的。不言而喻,每个孩子从父母那里得到的遗传物质正好是其一半,每个孩子从父母那里得到的基因组样本也各不相同。因此,我们可以将孩子的遗传值归因于其父母的平均遗传值,加上与该子特定的平均值的偏差

然后我们可以把这一代孩子的遗传值的变化看作,

没有协方差项,因为为简单起见,我们假设随机交配,所以和是独立的,分离项(作为与亲本平均值的偏差)也是独立的。下一步,我们可以假设这一代孩子的个体之间的遗传变异与他们的父母之间的遗传变异相同,母亲之间的遗传变异与父亲之间的遗传变异相同。而且,所有方差都是群体的加性遗传方差,,即。
然后,将它们代入方程2并重新排列,得到

这一众所周知的结果对于理解群体中的遗传变异至关重要。群体中一半的遗传变异来自于家族内部的基因组分离,这似乎被低估了,但其意义却令人瞠目结舌。让我们考虑分离方差的性质。首先,它不是通过父母的选择而减少的[这减少了等式2中的和]。换句话说,无论对父母的选择多么强烈,一对父母仍然会在他们的后代中产生大量的遗传变异。近交使分离方差略有降低(在群体中,分离方差按比例降低一个因子(1−F),其中F是群体中亲本世代的平均近交系数),但新的突变部分抵消了分离方差。值得注意的是,一些模式种已经近亲繁殖到没有家族内分离变异的程度,除非这是由新的突变产生的。个体间缺乏变异是小鼠模型与人类疾病相关性日益受到质疑的一个关键原因(Cavanaugh等人,2014)。从实验设计的角度来看,自交系消除了不受控制的变异,从而减少了功效研究所需的样本量。然而,在人类中,多基因疾病的本质是许多变异导致了风险,并且有许多DNA变异的组合导致了相同的疾病诊断。研究范式需要包含多基因疾病的性质。在过去,这种模式很难实现,但技术进步意味着新的途径正在打开。

选择实验证明了分离方差的威力

近一个世纪以来,人们对遗传变异的本质进行了统计描述,但无法直接测量。选择实验成为检验统计模型有效性的工具。观察到的反应可以与统计理论推断出的结果进行比较。有文献记载的选择实验始于1896年的玉米和20世纪初的鸡(希尔2011),并成为20世纪中期遗传学研究的标准工具。1980年,比尔·希尔(Hill 1980)提出了选择实验的许多动机,30年后,比尔·希尔(Hill 2011)提出了一个问题:“在动物育种计划中,有价值的选择实验能学到更多吗?还是该发讣告了?他总结说,虽然“没有什么论据表明选择实验大大增加了我们对数量遗传和选择原则的理解”,但我们已经吸取了教训,现在确实是发表讣告的时候了。我们同意结论,但强调这项工作,以增加对这些教训的接触。
选择项目揭示了理论和基因结构的许多方面(Hill 1980、2011;Hill和Caballero 1992;Brotherstone和Goddard 2005)。实验课的选择和示范课的选择是分离的关键。虽然分离方差已经在人类中进行了研究,通过将全同胞间的表型差异与其根据全基因组SNP数据(范围从∼0.4到∼0.6)估计的相关系数相关联来估计遗传方差(Visscher et al.2006;Kong et al.2018),但由于样本量大,研究很少需要达到可接受的估计值。提供了强有力的贡献方差选择方案。在人类中,由于家庭规模较小,隔离差异更难理解。了解分离变异是理解为什么疾病个体的一级亲属即使在高遗传力的疾病中,疾病的绝对风险也很小的关键,也是理解家庭成员之间PRS变异的关键。为了说明从选择计划中得到的教训,图2显示了奶牛对奶产量选择的反应(红线),这也伴随着非遗传因素的增加(例如,改善管理和饲料,绿线)。1957年,产奶量的标准差为600公斤(600升)。今天,一头普通奶牛的产奶量的遗传值比1957年的平均产奶量高出6.5个遗传标准差(尽管世代间隔相对较长)。在1957年,只有0.1%的奶牛产奶量超过9600公斤,现在超过50%的奶牛达到了这个目标!选择程序/实验已经证明,这种变化很少能归因于新的突变[参见Hill和Caballero(1992)中引用的综述],而是反映了变体组合的选择在多基因结构下,很少有变异是固定的,选择实验表明,反向选择可以使群体平均水平恢复到其预选水平(Dunnington和Siegel 1996)。在肉鸡中,短世代间隔和高选择强度导致体重发生巨大变化,56天体重增加∼3.4 kg或∼>20表型SD,80%以上的变化归因于遗传选择(Zuidhof et al.2014);Zuidhof et al.(2014)中的图1在Walsh and Lynch(2018)中复制为图1.1,值得一看这一惊人增长的可视化(Walsh and Lynch 2018)。这些数据也发表在《经济学人》(Anon 2019)上。
人类遗传学的GWAS时代已经证明了常见疾病的多基因遗传结构。因此,我们可以根据复杂的疾病来解释选择的结果。例如,在精神分裂症患者生育能力下降的背景下,精神分裂症在人群中的持续发病率被认为是一个难题(Keller and Miller 2006;Power et al.2013)。精神分裂症生育能力降低的影响导致了极弱的选择压力(1%的人口生育能力降低),而牲畜的选择强度(只有1%的雄性有牛的后代),在这种情况下,我们仍然观察到大量的后代遗传变异。我们敦促读者阅读选择实验的摘要,以便更好地理解隐藏在基因组中的变异和通过分离变异暴露出来的变异的力量

常见问题

这篇综述汇集了一些重要的观点,其中一些是我们之前详细探讨过的(Kemper和Goddard 2012)。选定的主题提供了回答四个常见问题所需的背景。
问题1:为什么基于单核苷酸多态性的遗传率在从人类数据估计时比从家畜数据估计时要低?
A1:这种差异是通过了解近期有效人口规模的差异来解释的。家畜的有效群体规模较小,这意味着个体对之间的平均关系系数很高,与人类相比,常见的SNPs标记的物理距离更大,包括跨染色体。
问题2:与基于单核苷酸多态性的遗传力相比,为什么样本外预测中解释的方差比例如此之低?随着GWAS发现样本量的增加,预计会有什么样的增加?
A2:方程式1提供了这一解释。虽然在PRS理论中是众所周知的,但在PRS实践中似乎没有得到足够的重视,特别是M的定义,即SNPs的有效数量(在人类中使用M∼50000作为常见变体)。GWAS最初设计用于检测特定的相关变异,以便更好地理解疾病或特征的功能生物学。由于许多性状的已鉴定变异数在几百到几千个之间,因此增加GWAS样本量的必要性受到了质疑。然而,GWAS时代的一个关键成果将是PRS在预防医学中的应用,并且仍然需要更大的GWAS来最大限度地提高PRS的准确性。
问题3:人类的PRS和家畜的GEBV有什么区别?
PRS和GEBV都是个体某一性状加性遗传值的估计值。原则上,两者都可以采用相同的估算方法。在实践中,数据的结构(测量的协变量,确定,LD)导致不同的方法[例如,人类的单SNP回归(Purcell等人2007;Chang等人2015;Loh等人2015)与牛的GBLUP(Meuwissen等人2001)或BayesC(Habier等人2011)]。在家畜中,GEBV的目的是选择下一代的父母,其效力是以平均GEBV随时间的变化来衡量的。小的变化在每一代中都是累积的,因此,GEBV的使用非常成功,与EBV相比,在没有DNA变异数据的情况下计算的关键增益来自缩短的世代间隔(García-Ruiz et al.2016)。在人类中,PRS被用来预测个体未来的表型。遗传预测器的有效性有一个依赖于性状遗传力的理论上限,并且有一个依赖于测量的SNPs标记的方差的实际上限。虽然出生时可以计算PRS来预测成年期的表型,但随着时间的推移,通过加入可测量的风险因素(作为个体年龄报告)的预测贡献,预测因子可以变得更加准确。
问题4:PRS与常见病风险家族史之间的关系如何?
PRS是对个体遗传总价值的估计,仅跟踪普通DNA多态性标记的性状的遗传贡献。家族史反映了个体亲属的表型。这些表型部分取决于遗传因素(跟踪群体中所有频率的多态性),因此,家族史对个体的重要性取决于性状的遗传力。我们之前已经证明,在没有家族史的情况下,常见病的发生率高于预期(Yang等人,2010a)。例如,对于一种终生风险为1%(典型的人类常见疾病)且遗传率高达80%的疾病,即使充分了解三代家族史,预计70%的患者没有疾病家族史。为了充分理解这一结果,我们建议读者阅读这篇论文,但理解这篇论文的一个关键是要认识到家族内同胞之间的大量遗传变异。因此,尽管有已知家族史的人有增加的风险,但随机抽取父母的基因组会产生遗传抽奖。因此,受影响和未受影响的父母的子女都可以接受多基因的风险位点负担,从而增加该个体的患病风险。在实践中,预防策略,如早期或更频繁的疾病筛查,可提供给那些已知的家族史,也应提供给那些高PRS。高PRS将确定一组不同(部分重叠)的个体,这些个体同样值得有家族史的人进行预防干预(Khera等人,2018年)。

你可能感兴趣的:(Wray2019 复杂性状预测 综述)