Kang HM, Zaitlen NA, Wade CM, et al. Efficient Control of Population Structure in Model Organism Association Mapping. Genetics, 2008, 178(3): 1709–1723. DOI: 10.1534/genetics.107.080101.
模式生物关联作图中群体结构的有效控制
摘要
在近交系小鼠品系等模式生物中进行全基因组关联作图是一种有前途的方法,用于鉴定与人类疾病相关的风险因子。然而,近交模型生物的遗传关联研究面临着株系间复杂种群结构的问题。这会引起假阳性率,使用人类关联研究中应用的标准方法(如基因组控制或结构化关联)无法纠正。最近的研究表明,混合模型成功地纠正了玉米和拟南芥组数据集中关联作图中的遗传相关性。然而,当前可用的混合模型方法遭受计算效率低下的困扰。在本文中,我们提出了一种新方法,即高效混合模型关联(EMMA),它纠正了模式生物关联作图中的种群结构和遗传相关性。我们的方法在应用混合模型进行关联映射时利用了优化问题的特定性质,这使我们能够显着提高结果的计算速度和可靠性。我们将EMMA应用于除了拟南芥和玉米数据集之外,涉及数十万个SNP的近交小鼠品系的计算机全基因组关联作图。我们还进行了广泛的模拟研究,以估计EMMA在各种SNP效应下的统计功效,不同程度的种群结构,以及每种株系的多次测量的不同数量。尽管由于可用近交品系数量有限,近交小鼠关联作图的能力有限,但我们能够识别显着相关的SNP,这些SNP属于已知的QTL或通过之前研究鉴定的基因,同时避免了假阳性的膨胀。我们的EMMA方法的R包实现和Web服务器是公开可用的。
高通量基因分型技术,遗传变异的许多模式生物如小鼠的最新发展,拟南芥和玉米正在对全基因组规模(发现Ĵ 鹿角 等2002 ; P 莱彻 等2004年,˚F 皮棉 - G arcia 等人,2005 ; F razer 等人,2007年)。模式生物中的全基因组关联作图具有识别与人类疾病相关的复杂性状的风险因子的巨大潜力。尽管缺乏模型生物的直接推论并不总是适用于人类特征,但模型生物关联作图可能比人类关联作图更强大,因为通过在遗传上相同的生物中复制表型测量可以减少环境因素的影响(B elknap 1998)。此外,验证模型生物中的相关信号比在人类受试者中更容易且更具成本效益。此外,许多模型生物中正在进行的基因分型和表型分析项目,如小鼠表型组数据库(MPD)(http://www.jax.org/phenome),Mouse HapMap项目(http://www.broad.mit.edu/personal/claire/MouseHapMap),以及Perlegen / NIEHS重测序项目(http:// mouse) .perlegen.com)(˚F 雷蛇 等2007年)提供可公开获得的资源来执行在硅片在模式生物复杂性状的映射(P ETER 等2007年)。
然而,近交模型生物中的遗传关联研究面临由于大多数模式生物株系的复杂谱系历史引起的近交品系中的种群结构和遗传相关性导致的假阳性率膨胀的问题。遗传标记和表型之间独立性的常规统计检验容易产生虚假关联,因为标记和表型可能由于在零假设下违反独立性假设的种群结构而相关。模型生物中最近的关联或连锁作图研究试图通过使用由少量亲本株系产生的重组近交系设计研究来避免膨胀的假阳性率(B ystrykh 等。2005年 ; Z ou 等2005)。然而,这些研究受到亲本株系中存在的变异的限制,并且由于重组近交品系和亲本株系之间相对较少的代,因此在重组之间具有长区域。除了昂贵的基因分型成本之外,使用F 2或回交的传统QTL作图在精细分辨率作图中遇到相同的问题(B elknap 1998 ; F lint 等人 2005)。
减少假阳性膨胀的另一种方法是应用统计检验来纠正由于种群结构或遗传相关性引起的偏倚。最广泛使用的方法,以减少在人关联映射这样偏压是基因组控制(d evlin和R oeder 1999),结构化的关联(P ritchard 等人 2000。 ),和主成分分析(P atterson 等人 2006年。 ; P 稻 等人,2006年)。然而,在模型生物体关联作图的情况下,这些方法是不适当的。基因组控制从弱功效遭受当人口结构的效果是大如在模式生物(P 大米 等人 2006年。 ; ÿ ü 等人 2006)。结构化的关联或主成分分析,其中假定少数祖先人群和混合的,仅部分地捕获群体结构和遗传相关性的多个级别中的模式生物(甲ranzana 等人 2005。 ; ÿ ü 等人 2006年。 ; ž 豪 等人,2007年)。最近,有人提出,线性混合模型可以为数量性状的关联映射人口结构有效地纠正(Ÿ ü 等2006年)。线性混合模型直接在统计模型中的每对个体之间结合成对遗传相关性,反映出两个遗传相似个体的表型比遗传上不相似的个体更可能相关。混合模型在玉米,拟南芥和马铃薯小组中的关联作图中的应用表明混合模型比以前的方法(包括基因组控制,结构化关联和主成分分析)获得更少的假阳性和更高的功效(Y u 等2006年 ; M alosetti 等。2007年 ; Z 浩 等2007)。
虽然混合模型可以有效地捕获由于种群结构导致的统计混淆,但是当前可用的实现在模型生物体关联映射的背景下具有若干限制。首先,通过各种爬山方法数值估计的方差分量,例如Nelder-Mead单纯形算法(N elder和M ead 1965 ; G raser 等 1987 ; M eyer 1989),EM算法(S mith 1990),和牛顿-拉夫逊算法(大号indstrom和B 茨 1988 ; G ^ilmour 等。1995年 ; J ohnson和T hompson 1995)仅提供局部最优解,这可能导致基于这些估计的统计推断不准确。其次,数值优化过程的计算成本是实质性的,在每次迭代时需要大量计算上昂贵的矩阵运算。当要测试大型数据集时,计算因素很重要。例如,具有由数百个SNP中的数百株玉米面板的关联映射需要数小时用于与目前可用的实现如TASSEL单次运行( Ý Ú 等2006年)或SAS(小号因为我nstitute 2004年)。针对数千个转录物和数万个标记物之间的全基因组关联映射测试的微阵列数据集将花费数年的CPU时间。第三,当推断被称为亲属矩阵的遗传方差分量时,经常忽略数学上正确形式的亲属矩阵估计的重要性。例如,Y u 等(2006年)建议使用SPAGeDi软件推断亲属矩阵,将负亲属系数设置为零。这种亲属矩阵可能不是正半定的,因此不是有效形式的方差分量。使用非正定半定的亲属矩阵在方差分量的估计中为参数空间的子集生成不明确的似然性。
在本文中,我们提出了一种新的方法,有效的混合模型关联(EMMA),它纠正了模型生物关联映射中的种群结构和遗传相关性。我们的方法利用优化问题的特定性质来应用关联映射的混合模型,这允许我们通过实现接近全局优化来大幅提高数量级的计算速度并提高结果的可靠性。我们的方法使我们能够通过一维优化进行统计检验,从而提高混合模型方法的效率。通过利用频谱分解,在计算似然函数的每次迭代中避免冗余的计算上昂贵的矩阵运算,进一步提高了方法的效率,将每次迭代的计算成本从立方复杂度降低到线性复杂度。由于每次迭代的计算成本显着降低,即使似然函数可能不是凸的,也可以通过组合网格搜索和Newton-Raphson算法以高置信度收敛方差分量估计中的似然的全局最优。 我们的方法涉及在模拟方差分量测试统计的零分布的不同环境中开发的类似技术(Crainiceanu和Ruppert 2004)。
我们表明,简单的遗传相似性矩阵可以作为亲属关系矩阵,与先前建议的方法一样有效地解释遗传相关性,同时保证正半定。我们的研究结果与其他研究一致(ž 豪 等2007),这表明这些简单的亲属关系矩阵作为有效降低误报率或更有效地比以前的方法所产生的亲属关系矩阵(Ÿ ü 等2006年) 。我们提出了另一种称为系统发育控制的方法基于系统发育树是近交模式生物的谱系历史的良好近似的假设。在这种情况下,系统发育树可以用作混杂因子,纠正株系之间复杂的遗传关系。我们证明了系统发育控制可以表示为线性混合模型,并提出了一种推断系统发育亲缘关系矩阵的算法。我们证明了系统发育的亲缘关系矩阵总是正半定的,并且无论根的选择如何,其最优方差分量都是唯一的。
模型生物关联 - 绘图研究设计中的一个重要问题是估计任何特定的近交品系的统计学效力。我们对EMMA方法的功效进行了模拟研究,以确定全基因组规模和较小区域(如QTL间期)内的因果SNP。我们的结果表明,对于有限数量的遗传多样性株系,例如目前可用的近交系小鼠组,只有当基因座解释了大部分表型变异时,才有可能鉴定具有全基因组意义的因果基因座。然而,随着更多的株系,这些关联研究的力量显着增加。我们对模型生物体关联作图中的统计功效的分析表明,使用来自多个动物的每种株系的表型的多次测量,功率显着增加。不复制表型测量的研究设计和不考虑单独测量的分析方法遭受统计功效的显着降低。
我们将EMMA方法应用于各种近交模型生物的关联映射。首先,我们验证了EMMA与使用玉米面板数据集的其他广泛使用的实施方案给出了几乎相同的结果(Y u 等人,2006)。就计算时间而言,在执行近全局优化时,EMMA显示比先前方法快几个数量级。其次,我们进行了拟南芥开花时间表型的全基因组关联作图。我们的研究结果与最近公布的结果一致(ž 豪 等2007),减少大部分膨胀的误报。最后,我们使用我们的EMMA方法对近交小鼠品系进行全基因组关联作图研究。我们分析了超过48种株系的近140,000个小鼠HapMap SNP和三个定量表型,肝脏重量,体重和糖精偏好,并且通过先前的研究鉴定了QTL。我们确定了三种表型的显着相关性,而我们的结果显示假阳性的膨胀显着减少。有趣的是,许多显着相关的SNP属于已知的QTL,表明结果可能是真正的关联。
EMMA的R包实现和包含鼠标关联结果的Web服务器可在http://mouse.cs.ucla.edu/emma上在线公开获取。
材料和方法
基因型和表型:
如Y u 等人(2006年)所述,基因型,表型,基于SPAGeDi的亲缘关系矩阵和来自557个SNP的277个玉米品系的STRUCTURE输出从Buckler实验室网站(http://www.maizegenetics.net)下载。拟南芥基因型和表型以及STRUCTURE的输出来自公开的数据集(A ranzana 等人 2005 ; N ordborg 等人 2005)。使用HAP(H alperin和E 皮肤2004))对缺失的等位基因进行克隆后,测试了具有不超过10%基因型缺失的13,416个非单倍体拟南芥SNP的关联性。对95个株系的开花时间表型进行对数转换以适合正态分布。
对于近交小鼠关联作图,从小鼠HapMap网站获得Broad小鼠HapMap SNP集。在输入缺失的等位基因后,测试了具有不超过10%基因型调用缺失的106,040个SNP。初始体重(MPD10305)和肝脏重量表型(MPD2907)从Jackson Laboratory MPD(J ackson L aboratory 2004)下载。它们分别由38和34个株系组成374和308个表型。糖精偏好表型由24个株系中的280个表型测量组成(R eed 等人,2004)。
EMMA:
假设横跨个近交系收集某表型的个测量。模型生物关联映射中的线性混合模型通常表示为:
其中是观察到的表型的向量体,是固定效应的矩阵,包括平均值、SNP和其他混杂变量。 是表示固定效应系数的向量。 是的关联矩阵,将每个观察到的表型映射到个近交系中的一个。 是具有的混合模型的随机效应,其中是从如下部分中描述的基因型推断的亲属矩阵,并且是残差效应的矩阵,使得。整体表型方差 - 协方差矩阵可表示为。
通过亨德森的迭代程序(Henderson 1984; Arbelbide等2006)获得随机效应的最佳线性无偏预测(BLUP),我们不是通过求解混合模型方程,而是直接估计方差分量和,最大化完全似然或限制性似然,限制性似然被定义为固定效应被整合出来的完全似然(Dempster等,1981)。 限制性似然通过考虑与固定效应相关的自由度的损失来避免方差分量的最大似然估计的向下偏差。 在零假设下,完全对数似然和受限对数似然函数可以表示为
(Welham and Thompson 1997),其中,,是的函数,定义为。
当是时完全对数似然最大化。完全对数似然和受限对数似然函数的最优方差组分分别是和,其中,也是的函数。
使用频谱分解,有可能找到和,这样
其中,,是、是对应于非零特征值特征向量矩阵。 是对应于零特征值特征向量矩阵。 如附录所示,我们的分解满足了先前研究(Patterson和Thompson 1971)提出的分解特性。应该注意,和与无关。令;然后找到最大似然(ML)或限制最大似然(REML)估计相当于优化以下关于的函数:
(6)
(7)
(有关数学详细信息,请参阅附录)。 这些函数的推导遵循这一点
应当注意,当且仅当所有特征值都是非负时,似然函数对于所有都是连续的。否则,例如在非正半定的亲属矩阵的情况下,对于某一范围的,可能性将被定义不明确。
一旦计算了频谱分解,计算似然性及其导数的建议过程仅涉及每次迭代时的线性时间向量运算。该方法的时间复杂度为,其中是所需的迭代次数。标准EM或Newton-Raphson算法的时间复杂度为,并且运行时间的实际比率远大于,因为现有方法通常在每次迭代时需要大量的矩阵乘法和逆,而EMMA计算频谱分解只有一次。由于每次迭代的计算成本急剧下降,而不是在数值优化期间获得局部最优解,现在计算上可行的是在由对于某一范围的组成的一维参数空间中结合Newton-Raphson算法进行网格搜索。
此外,当每个株系对大量多次测量(即)进行表型化时,使用和的非负特征值与和的非负特征值相同的事实可以进一步减少执行时间。 将这一事实与Gram-Schmidt过程的简单修改相结合,大大减少了特征值分解的执行时间,将时间复杂度降低到。当测试多种表型时,例如在表达数量性状基因座(eQTL)作图中,可以重复使用光谱分解,并且每种表型仅需要square-time matrix–vector乘法。因此,具有种不同表型的时间复杂度是,其比先前方法实现的更有效。
在我们的EMMA方法应用于本文提出的各种数据集时,的范围从(几乎纯粹的种群结构效应)到(几乎纯净的环境或残留效应),并以对数均匀分为100个区域缩放以计算似然函数的导数。通过将Newton-Raphson算法应用于导数变化的所有区间并在所有静止点和端点中取最佳来搜索全局ML或REML。由于全似然函数和限制似然函数的导数与非负特征值是连续的,因此只要亲属矩阵是半正定的,这种优化技术就保证了收敛性。在以下两节中,我们描述了基于遗传相似性矩阵或系统发育树来推断亲属关系矩阵K的不同方法。
基于相似度的亲属矩阵:
已经提出了许多用于从大量分子标记推断亲缘关系矩阵的方法,包括简单的同状态(IBS)等位基因共享矩阵,等位基因频率加权的IBS矩阵(Lynch和Ritland 1999),最大似然亲属矩阵(Thomas和Hill 2000),以及基于Monte Carlo模拟的矩阵(Wang 2002)。用于解释群体间遗传分化的不同亲缘关系矩阵的比较显示出相似的结果,具有小的定量差异(Nievergelt等人,2007)。最近关于拟南芥在结构化群体中的关联作图的研究表明,简单的IBS等位基因共享矩阵有效地纠正了种群结构的混杂,甚至比更复杂的方法更好(Zhao等人,2007)。尽管最近提出的成对相关性估计在简单的IBS等位基因共享矩阵上具有一些理想的统计特性(Casteele等人,2001),但它们不能保证是半正的。
在这里,我们显示基于每个SNP或单倍型的假设的简单IBS等位基因共享矩阵在表型上诱导相同水平的小随机变化保证了如果缺失等位基因被适当处理则具有正半定性和收敛性。
设是一个二进制变量,只有当第个株系第个基因座的基因型(或单倍型)等位基因为时,其值为1,其中是第个基因座等位基因的总数。令为从独立采样的随机变量;那么株系的遗传背景效应可以建模为如下的小随机效应的积累,假设表示由第个基因座处的等位基因引起的随机遗传效应,
(10)
其中是每个SNP对遗传背景效应的贡献的权重。如果假设每个SNP具有相同的随机效应水平,则可以假设。或者,可以是等位基因频率的函数或取决于SNP的基因组区域的功能。设,让为矩阵,其元素(i, j)为;然后整体遗传背景效应以表格形式表达
(11)
其中是对角线方形矩阵,在第个对角线元素处具有。假设每遵循正态分布,零均值和方差独立,则的方差 - 协方差矩阵变为,因为其第(i0, i1)个元素直接表示第i0和第i1个株系之间共享的IBS等位基因的数量如果,Var(u)等同于与比例因子共享亲缘关系矩阵的加权IBS等位基因。从等式11可以明显看出,亲属矩阵是半正定的。当存在缺失的基因型时,我们估计是具有等位基因的第个基因座处的SNP或单倍型等位基因概率的平方根。这样就可以概率地分配每个等位基因的随机效应。我们使用均匀的重量产生玉米,拟南芥和小鼠数据集的基因型相似性。当使用单元型相似性矩阵时,选择导致最大ML估计的单倍型窗口大小作为最佳窗口大小。在本文的拟南芥和小鼠关联 - 映射结果中,在两种情况下,最佳单倍型窗口大小设置为5。
系统发育控制:
进化生物学家使用各种系统发育比较方法(PCM)模拟了种间表型分布(Martins和Hansen 1997)。表型之间的相关结构可以用系统发育树有效捕获,并且PCM已经应用于数量性状的进化分析,例如基因表达(Gu 2004; Oakley等人,2005),或者最近,应用于二分类表型的关联作图。 (Bhattacharya等人2007; Carlson等人2007)。 Felsentein的独立对比(FIC)方法(Felsenstein,1985)模拟了在沿着系统发育的表型变化的布朗运动的假设下表型之间的相关性。由于在物种内也发生随机表型变化,因此在系统发育树是谱系历史的良好近似的情况下,应用诸如FIC方法的PCM来模拟模式生物中的表型变异是合理的。
我们遵循Felsenstein对系统发育中布朗表型变化的假设。虽然多次波动选择可能导致布朗运动模型(Felsenstein 1981),但在这里我们假设一个中性模型,其中表型变化通过遗传背景的累积随机多效性来解释布朗表型变化的数学模型。设T是具有t个叶子和m个边缘的系统发育树,并且让是从中独立采样的随机变量。在长度为的每个分支处,我们表示沿着分支的随机表型变化量,如。令表示从根连接到叶节点的分支集。然后累积的表型变化等于。如果是任意选择的根节点的祖先平均值,那么叶节点处的表型值表示为
(12)
其中是矩阵,如果分支存在于从根到叶节点的路径中,则其第(i,j)个元素是,否则为零。随机效应的亲属矩阵是并且与其协方差成比例。如果系统发生树的根改变,则变为,其中是1的向量,而另一个是向量c。但是,限制性似然不会改变,因为总是成立。
在我们的结果中,我们使用F84模型(Kishino和Hasegawa 1989; Felsenstein和Churchill,1996)从全基因组基因型调整遗传距离矩阵,并用Fitch-Margoliash和最小二乘法距离方法推断出系统发育树(Fitch and Margoliash 1967))。
统计检验和多项假设检验:
一旦估计了ML或REML方差分量,就可以如Kennedy等(1992)所建议的那样构建针对任意全秩矩阵M的零假设的一般F统计量 和Yu等(2006年),
(13)
具有p分子自由度和n - q分母自由度。还可以计算Satterthwaite自由度,从而避免计算密集的矩阵运算。
似然比检验也可以在不同固定效应下的估计ML方差分量的基础上进行。除非估计的变化分量满足参数空间的边界,否则统计量渐近地遵循分布。
当测试大量相关SNP时,Bonferroni校正可能导致过于保守的I型错误控制。或者,可以使用置换测试或其他多个假设测试程序(Piepho 2001; Storey和Tibshirani 2003)。如果应用基于模拟的方法的排列,则计算成本要大得多,但是可以通过以多种表型的上下文中描述的相同方式重用光谱分解来减少计算成本。对于每个置换的,仅需要再次计算以计算每次迭代的线性时间的完全或受限的似然性。因此,每个置换的立方时间谱分解的计算成本可以用平方时矩阵 - 向量乘法代替,从而将总时间复杂度从O(n2t + rn)减小到O(n2 + rn)。
基于用于F检验的REML执行方差分量估计,并且ML估计用于似然比检验和贝叶斯信息标准(BIC)的计算。 P值是从渐近零分布计算的。