Freimer 2004 使用谱系、同胞对和关联分析常见疾病的遗传作图

Freimer N, Sabatti C (2004) The use of pedigree, sib-pair and association studies of common diseases for genetic mapping and epidemiology. Nat Genet 36:1045–1051. doi: 10.1038/ng1433

鉴定与常见疾病易感性相关的基因变体的努力使用三种方法:谱系和受影响的同胞对连锁研究和群体样品的关联研究。这些研究设计的不同目的反映了它们源于生物学与流行病学传统。然而,关于确定考虑结果具有统计学意义所需的证据水平的类似原理适用于连锁和关联研究。这种确定需要明确注意特定发现的先验概率,以及对多重比较的适当校正对于大多数常见的疾病,在研究中增加样本大小是实现统计学显着的遗传作图结果的关键步骤。最近的研究表明,技术和统计方法将很快可用于使用任何这些方法使得良好的研究可行。

直到最近,科学界已经看到了遗传调查常见疾病的结果。现在,几个广泛宣传的研究产生了相反的印象。科学家的工作人员表示,“精神疾病的基因”的确定代表了2003年的一项顶尖的研究“突破”(参考文献1)。 deCODE Genetics公司试图全面鉴定冰岛对常见疾病的遗传贡献,报告了几种疾病潜在易感性的候选基因2-5。考虑到描述阴性或模棱两可结果的更多的出版物,如何评估共同性状遗传学的当前状态是不确定的。我们赢了战争,甚至几场战斗?或者,更悲观的是,我们只是宣布胜利吗?要回答这些问题,我们必须先问别人。是否有一种策略成为鉴定疾病基因的最佳方法?多少和什么样的证据足以建立联系和关联?应使用哪些样品,以及需要多少标记进行基因分型?这些问题困扰着调查者和审稿人。
四个因素在该领域造成混乱:(i)不足的意识,预计不同的遗传调查方法产生不同类型的调查结果; (ii)未充分认识到每种方法对适当技术和统计方法的可用性的依赖; (iii)解释统计证据水平的标准不一致;和(iv)用于选择和评价表型的非标准化策略。在这里我们讨论每个因素,提出减少混乱的可能方法,并审查每种方法的当前状态。

不同的方法应该产生不同的发现

对于大多数常见疾病,文献包括来自谱系和受影响的同胞对(ASP)连锁研究和群体样品的关联研究的发现6。关于这些不同方法的效用的争论源于不正确的印象,它们是彼此的完美替代。历史上,不同的作图方法源于不同的“传统”,稀有和常见疾病之间存在着二分法。在前者中,孟德尔的实验根产生了生物学取向,甚至在基因作图时代之前。在后者中,流行病学取向占主导地位,例如精神分裂症的研究。在二十世纪初,精神病学家认为精神病是一个单一的实体。 Kraepelin分离痴呆precox(现在的精神分裂症)从躁狂抑郁性精神病(现在双相情感障碍),主要是基于每个综合征在不同家庭的聚合的观察7。到二十世纪中期,双胎研究建立了精神分裂症的遗传基础8,9;许多遗传流行病学调查的疾病一直持续到今天10。流行病学传统促进了ASP和关联方法的发展,这取决于流行病学数据,用于估计亲属和人群中的疾病风险。精神分裂症家族研究11-13提供了风险数据作为例子,用于阐明ASP基因组扫描常见疾病的理由14,15。
不同地图绘制方法的目的也反映了生物学和流行病学传统之间的二分法。高突变体变体在延伸的家系中分离;科学研究旨在确定这些变种以照亮生物学途径和过程。群体样本最适用于鉴定低外显率变体;关联研究旨在阐明这些变体对在群体中观察到的疾病分布的贡献。 ASP和关联研究比系谱研究在确定和招募受试者方面更系统,并且具有超越基因作图的目的,例如鉴定环境和遗传变量之间的相互作用

每种方法的适当技术和统计

特定方法的理论概念往往在技术和统计进步之前几年才出现,使得这种设计变得实用。一个有影响力的建议使用作图的DNA标记物的孟德尔疾病的全基因组连锁分析16,之后三年染色体定位的基因突变在亨廷顿病(HD,这是个单基因控制的疾病,但仍然没有有效的疗法来防止它)17,这表明这种作图的可行性。 HD的作图偶然使用少数DNA标记之一;这种和其他早期的连锁发现促进了遗传图谱的发展,这使孟德尔疾病的连锁研究常规连锁研究的后续增殖需要用于全基因组统计分析的计算上有效的方法,并促进统计遗传学领域的增长分离第一个作图基因的困难18-20促进了物理图的发展以及连锁不平衡(LD)分析(以前是基本种群遗传学的工具)对精细尺度作图的适应20,21。
理论上正确的和技术可行性之间的类似的不匹配表征了最近的常见疾病作图研究历史。在20世纪80年代末,几个联系发现建立了扩展家系作为绘制共同疾病的主要范式的研究22-24。研究者开始质疑这种方法,当发现不能被复制并被认为是假阳性时25,26。同时,理论统计研究建议ASP和关联研究作为谱系研究的替代品14,15,27在理论上对系谱方法的质疑掩盖了这样一个事实:直到最近,大多数常见疾病的谱系研究功能不足,可能测试的标记太少。在过去几年中,用比以前用于基因组扫描的更多数量的微卫星进行基因分型便宜的大型家系变得可行,并且现在可用的统计程序允许有效计算连锁,即使在复杂的家系28,29。这些进展允许基于系谱的连锁研究大规模增加2,4,30-38。不充分的技术和统计方法同样阻碍了基于谱系映射的替代品的实施。虽然仍然不确定如何设计和分析关联研究,但是用于单核苷酸多态性(SNP)的高通量基因分型的技术正在快速成熟,伴随着统计方法开发的激增。

统计证据水平

统计方法对技术可行性做出反应,这一事实指导了考虑连锁和相关性结果的统计学意义所需的证据水平的确定。在前兆时代,当标记数量很少并且基因分型昂贵时,连锁的显着性截止(lod得分为3)基于两个论点。首先,为了最小化样品收集和基因分型的成本,Morton39提出了一个顺序程序用于抽样和分析谱系,直到有利于与标记(表示为似然比的对数基数10)的证据达到3的水平这个阈值对应于P值为10-4,使用2近似的可能性比率测试,并考虑到这是一个“单侧”测试40。这种严格的标准对保证由顺序抽样程序引入的偏见的重要性。第二,Morton和其他人使用贝叶斯论证来表明,即使不采用顺序程序,有必要要求这样强有力的证据支持联系;由于只有少数几个标记的可用性,这些标记之一有一个非常小的先验概率链接到兴趣基因。需要大量的证据将这种低连锁概率转换为高后验概率。例如,基于基因组长度和可以检测到连锁的基因座之间的距离的一个计算确定给定的目的基因座与随机基因组位置之间的连锁的先前概率为0.02。为了获得一个后验概率0.95,所以当一个声明链接时,有一个概率为0.05的错误,一个贝叶斯定理:

替代0.02的连接的先验概率,将其与后验概率0.95相等,并求解似然比Pr(Data | Linkage)/ Pr(Data | NoLinkage),该比率必须为1000,对应于lod分数最初,然后,lod分数或对应于该分数的P值的严格阈值是为了防止太少的搜索,太少的谱系收集或太少的标记测试。孟德尔病症的许多全基因组连锁研究随后证实了连接到任何预先选择的单个基因座的低先验概率。
当全基因组的映射标记集合可用时,问题变得逆转:搜索太多,而不是太轻微。全基因组数据集中的某些标记与目的基因座相连的在先概率为1.因为进行了这么多统计检验,至少一个检验可能产生假阳性结果;因此,必须校正多个比较。例如,考虑具有500个微卫星的基因组扫描。为了在0.05水平上控制基因组中任何位置没有连锁的全局假设,对于每个测试,可以使用0.05 / 500 = 10-4的校正水平,对应于lod得分3.这样的Bonferroni校正是当测试是依赖的时,如在用更密集的标记集进行的连锁研究中的情况那样太保守,其中标记间距离如此之小,以致连锁统计在相邻标记处获取基本上相同的信息。几个研究者使用高斯过程近似的连锁统计,并确定使用密集标记集需要很少额外调整lod得分阈值,3-3.5(参考文献43-45)。这些分析强调了这样的事实,即适当的校正是基于可能的独立测试的数量,而不是具体执行的测试的数量。上面提到的几个统计观点提出了相同的lod分数截止值,确保了上述指定连接“显着”的标准的普遍接受。
虽然该领域尚未达成关联研究的显着性截止值的一致性,但是对于连锁研究来说,评估这样的阈值需要考虑先验概率和多重比较。迄今为止的大多数关联研究已经在一个或几个候选基因中研究了少量变体。对于这样的研究,需要纠正众多的比较是一个小问题,一个事实,导致接受非紧密的重要临界点。然而,在这种情况下,主要的问题是搜索太少。确定基因关联研究的适当临界值类似于确定在预先时间,当接受严格lod得分阈值防止假阳性基因连锁结果传播时的连锁的显着性。性状与单个候选基因的关联的先验概率远低于连接到这样的基因的先前概率,因为缔合在比连接更短的基因组间隔上延伸。如果进行保守的简化假设,从基因组中的30,000个基因中随机挑选基因,先验概率是给定候选基因与性状相关的1/1 / 30,000。使用上面提到的相同的贝叶斯参数进行链接,可能性比率应该为550,000以考虑关联性显着;评估与2检验的关联,该检验渐近近似似然比的自然对数的两倍,这转化为2.610-7的P值。几乎没有候选人协会研究符合这个阈值;通常,研究者(和读者)隐含地假定有意义的先验证据指导候选基因的选择(即,先前的结合概率高于1 / 30,000)。先验概率的估计本质上是主观的和基于假设的; Morton提出的关于联系的估计实现了接受,因为它的假设使用了孟德尔原理。对于关联研究,没有可比的形式的可以容易地以概率量化的先验证据。不幸的是,该领域因此在很大程度上选择忽略对基因关联研究应用严格临界值的需要,使得许多甚至最高公开的结果可能是假阳性。
期刊可以通过要求对候选基因的先前证据进行明确,批判和标准化的描述来改善基因关联结果的报告。调查员可以根据这些证据提出先验概率的估计;读者可以判断这些估计是否合理。通常这种证据将包括类似关联研究的结果。来自不同群体(即,要复制的结果)的明确肯定结果提高了先验概率;来自类似研究的负结果降低了先验概率。作者可以使用遗传协会数据库46提供与其出版物相关的先前关联研究的完整摘要。位置候选基因位于在早期研究中显示连锁的区域。读者可以判断这样的证据的程度 - 连锁发现的强度,lod得分峰的宽度,区域中基因的数量,不同组家族之间的发现的异质性程度以及是否连锁和关联样品来自相似的种群。现有的证据通常比“功能”候选基因更软。例如,编码5-羟色胺代谢中的关键蛋白的色氨酸羟化酶(TPH1)已被广泛研究作为涉及异常行为表型的候选物。然而,最近发现TPH47的新同种型已经对许多关联研究产生怀疑,其研究了一种同种型,其现在已知在脑血清素能神经元中甚至不表达。因此,对于功能候选者关联性研究,作者应该在假设大量先验概率时特别谨慎。读者必须能够评估是否用于校正多重比较的选定候选基因的早期研究,或者是否有任何证据反对候选假说。一些作者进一步建议,关联研究应该计算每个结果的假阳性报告概率,包括先验概率,观察到的P值和分析的统计功效48。几个因素(样本大小,变异频率和效应大小)确定功率,并且将这种强调放在单个假阳性报告概率得分上的效用仍不清楚49。
全基因组关联研究的出现将减少搜索的问题太少,并引入搜索太多的问题。仍然不能获得确定这些研究的统计截止值所需的一些信息,特别是对于LD映射。我们不知道需要多少标记来使至少一个与疾病相关的标记的概率为1;与联系不同,这个数字将因人口而异。此外,在附近标记物的结合的测试之间的依赖的结构是不清楚的。目前的举措,如国际HapMap项目和LD地图建设努力,可能会减少这种不确定性50,51。提倡使用基因内功能变异的直接关联研究的提议52预想50,000-100,000个这样的SNP将提供基因组覆盖。这种估计为考虑统计截止提供了初步依据;用Bonferroni校正,需要P值<5×10-7以实现显着性。尽管如果在各种SNP的关联测试之间存在显着的依赖性,这个临界值可能太保守,但是我们目前缺乏用于这种可能的依赖性的适当模型。鉴于基于关联的基因组扫描旨在识别相对小效应的多个基因,一些已经提出实施全局误差的较不严格的定义。 Bonferroni校正控制宣布至少一个假关联的概率,称为家庭智力错误率。控制假发现率的替代方法,所有已识别的关联中错误关联的比例53正在受到越来越多的关注54-56。
关联研究中的另一个问题,即在关联研究中没有面临的一个问题是,高通量SNP分析产生了对大量候选区域或一系列候选基因进行基因分型的可能性。这种情况具有搜索太少和搜索太多的特性。由于只评估基因组的有限节段,因此必须考虑低的先验概率,但是考虑到可能的测试的数量,还必须校正多重比较。

选择和评估表型

每种映射方法提供表型分析的优点和缺点。研究谱系允许收集比在群体样品中可行的更深的表型谱;与谱系成员的持续关系促进广泛和纵向的评估但是在单个谱系中评估的表型可能对该谱系或特定的clini家人是特异的;这限制了由不同研究组采集的谱系的组合分析的可行性。大规模合作ASP研究已经促进了一种更系统的表型分型方法,允许研究组之间的表型定义和评估的可比性。在临床环境中容易收集的关联样品可以是“便利样品”,其中表型评估是表面的。当足够的资源用于识别和表型受试者,然而,人口样品,如在大型队列研究57,58收集的那些样品具有无可比拟的潜力,提供一个综合的表型特征的一般性信息59,并使能评价表型和与基因型变异相关的环境变异。综合表型数据库为调查常见疾病提供规模经济,但在确定和表型受试者后,系统化程度将决定这些数据库的效用。
在选择表型进行连锁和关联分析时,研究者必须考虑低的先验概率和多重比较,就像选择标记一样。 “候选表型”的低先验概率类似于候选基因的低先验概率。考虑涉及重要生物学途径的基因中的功能变体,例如,血清素转运蛋白启动子区中的重复多态性,其已经被测试与广泛的行为表型相关联,基于它们的假设的生理学连接到血清素能途径60。需要严格的统计截止值以抵消该变体在所有可能的表型中影响研究者选择的表型的低先验概率。虽然不清楚如何可以估计这个先验概率,但对于一些表型,比其他表型有更好的先验证据。例如,更可能的是5-羟色胺转运蛋白变体影响先前显示为可遗传的表型,而不是不可遗传的表型;对于后者,P <0.05的显着性截止点几乎肯定太自由。这种低的先验概率可能影响这种变体对于复杂表型的最近关联结果的解释。例子包括响应情绪刺激的功能性脑成像结果61和与压力性生活事件相关的抑郁相关表型62。
增加表型数据的规模和种类引入了额外的统计问题。如果不预先指定用于考虑不同表型分类的分析计划,则通过根据疾病定义最大化证据存在使似然比膨胀(对于连锁或关联测试)的风险63。当研究人员在同一组样品中研究多种表型时,发生多重比较的统计问题;当调查人员开始分析大量样本的综合表型数据库时,这个问题将更加严重。基于评估的表型数量应用Bonferroni校正可能导致非常保守的结论:通常表型(因此测试)将相关,并且期望多于一种表型导致阳性作图结果。在这种情况下,假发现速率方法可能特别有用,可能与重采样过程耦合以考虑这种依赖性
当作者仅报告其数据中的一些可能的表型分类时,另一个统计问题出现。作者应明确指出产生阴性作图结果的表型组合,并说明它们如何使用表型信息来指导谱系的延伸。在没有这样的信息的情况下,读者可以假定用于遗传分析的表型是特异性的,并且难以与先前的连锁或关联的概率相关。如果读者能够更好地评估涉及多个表型分类的绘图研究,如果它们提供有关在表型分型和表型 - 基因型分析的所有阶段中使用的程序的细节。例如,在绘制中风易感基因位点,deCODE获得了最强的证据使用非常规表型分类3,64。如果作者在网站上提供详细的表型信息,读者可以判断对这种方法的批评是否有效64,或者仅仅是生物学和流行病学方法之间的另一个例子65。

扩展谱系研究

最近的三个发展已经恢复了对常见疾病的谱系研究的兴趣。首先,理论研究表明,科学方法可能是最有力的确定数量性状基因位点疾病表型(内表型)66,67;这些数量性状基因座可以具有比疾病诊断更简单的遗传构造,并且因此可以更直接地映射。内表型映射尚未在人类中实施足够的规模来判断其成功。第二,新方法可以有效地计算扩展家系28,29中的连接统计。第三,deCODE已发表了许多疾病的基于系谱的联系发现。 deCODE获得了冰岛人口,其医疗记录和家谱,并使用这种信息组装大型家系。家谱能够重建远距离相关个体之间的大多数连接。医疗记录提供了大多数家庭成员的广泛的表型信息。 deCODE专注于与远缘相关的受影响成员的大型家系,预期他们在疾病基因周围共享更短的基因组片段,而不是在小系谱中更密切相关的受影响个体。因此,deCODE使用比大多数组使用更密集的标记集进行基因组扫描68,在整个谱系中用其科学家开发的程序分析连锁69并且考虑这些分析中的表型信息的几种不同组合
虽然deCODE的扩展谱系研究的规模是不寻常的,许多研究组正在使用类似的方法,主要是在相对封闭的群体的家庭70-75。这些人口存在于世界各地,其特点是在相对较小的地区移民少,移民和分布低,大多数受试者及其医疗记录可供调查人员使用。从这些社区获得几乎完整的家谱是可行的,这是进行充分研究的关键步骤。
家谱研究的力量是当前最感兴趣的话题。大多数deCODE的研究涉及使用> 1,000个标记对几个受影响的个体进行基因分型。虽然每个研究产生了有趣的结果,导致精细绘图和基因鉴定的努力,几个没有达到明确的统计意义2,5,37,38。 deCODE的经验表明,扩展谱系设计的两个途径。首先,对于不产生明确的连锁的疾病导致大样品,内表型映射的实施可能是特别有吸引力的。第二,为了获得足够的力量,研究者可能需要组合来自不同国家,可能来自遗传相关人群的谱系样品76
对于常见的疾病,扩展谱系方法迄今为止失败,除了这些疾病的罕见的早发型,满足其将识别照亮生物学途径的高突变变体的期望77,78。这些疾病的常见形式的谱系研究已经导致位置候选者相关性研究,其为可能在疾病易感性中起作用的变体提供了有趣的,但主要是统计学上等同的证据;迄今为止鉴定的变体不具有大多数突变基于孟德尔病症的生物学效应2-5,79。在这方面,该领域急切地等待deCODE和其他人正在对几种疾病进行精细绘图研究的结果。

ASP研究

由于基于谱系的谱系研究需要良好的分界,稳定的群体,并且由于大多数表型个体生活在其他环境中,遗传学领域需要其他范式。 ASP战略使许多研究者能够获得良好表型的临床样品来启动连锁研究。由于Risch的理论工作的影响,对相对少的标志物的需求和改进的统计分析程序的发展80,81,这种方法现在在常见疾病的全基因组图谱中占主导地位。使用不足的样本量可能解释了为什么大多数已发表的ASP研究报告了阴性或模棱两可的结果,特别是对于具有小效应大小(低基因型相对风险)的表型。这么多欠奉的研究的启动例证了该领域如何不正确地解释理论研究的结论,而且反映了收集足够的ASP样品所需的大量资源。通过形成财团以获得这样的样品,研究者开始获得由Risch和其他人预测的结果。克罗恩病是一个例子。独立ASP研究表明不同染色体上的几个可能的位点参与克罗恩病82-84。许多,但不是所有的研究涉及染色体16上的位点;一些这些研究,自己,几乎不强调这个地区。形成一个国际财团调查超过600 ASPs从这些几个研究产生了一个明确的链接年龄在染色体16(IBD1;参考文献85),这导致鉴定的基因IBD1与易感性的联系的基因克罗恩病(CARD15;参考文献86)。这个例子表明,ASP设计非常适合组合来自不同国家的样品。与扩展谱系方法不同,ASP研究在站点之间容易协调,并且不依赖于谱系的努力。与关联研究相比,ASP方法对研究人群的遗传组成的差异是稳健的。一个警告涉及ASP基因组扫描的比较。给定在这种扫描中使用的通常稀疏的标记集合(<500个标记),假阴性结果可能由基因组覆盖中的过度间隙引起,例如,如果特定标记在数据集之一中失败。由于不同的研究使用不同的标志物,如最近的类风湿性关节炎的扫描87,88所示,这个问题更加严重。越来越多的兴趣结合来自不同扫描的数据表明需要在未来的ASP研究中使用更密集,更均匀的标记集。
ASP设计的多站点项目的优势现在正在利用大型研究,将支持超越基因映射的研究。例如,GenomEUtwin project89,包括来自几个国家几乎一百万双胞胎,将是强大的ASP连锁研究的几个表型。收集的扩展纵向数据将允许评估众多环境变量;即使是最丰富的谱系也不适合用于研究与基因 - 环境相互作用相关的问题,而且谱系成员的非独立性使ASP中直接的统计分析变得复杂

关联研究

关联研究是当前最受关注的焦点。鉴定常见疾病风险变异的全基因组关联研究迄今为止主要限于最近建立的群体分离物,其中微卫星在高达几厘米的距离上检测LD 90,91。虽然一些仍然怀疑全基因组LD映射使用SNPs92,识别相同的哮喘相关的单核苷酸多态性在芬兰和魁北克表明这种方法的巨大潜力,至少在人口分离93一些明确的候选基因关联,如载脂蛋白E4等位基因(ApoE4)和阿尔茨海默病之间的关系,说明了我们可以期望从成功的关联研究的那种信息。许多研究表明ApoE4是阿尔茨海默病的最重要的危险因素94。尽管这一发现比通过谱系研究鉴定涉及罕见的孟德尔形式的阿尔茨海默病的基因78产生更少的生物学见解,但它改变了痴呆和相关表型的流行病学和临床研究。因此,现在已知ApoE4与阿尔茨海默病的发病年龄95,“正常”衰老中认知衰退的过程96,在无症状个体中改变的磁共振成像发现97,98,在拳击手中的慢性创伤性脑损伤的风险99和创伤性脑损伤幸存者的临床结果100。

结论

基因分型技术和统计方法的发展将很快使足够动力的谱系,ASP和协会研究可行的大多数常见疾病。研究者旨在回答的特定生物学和流行病学问题将决定研究设计的选择,并且由于它们方便或便宜,很难证明设计(例如候选基因关联研究)的正当性。在这方面目前的实际步骤是供资机构开始拒绝这种理由。他们还可能要求调查人员明确说明推理,推理的证据和用于解决先前概率,权力和多重比较的统计问题的程序;期刊可以采取与作者相同的立场。
现场对更严格的证据标准的坚持将鼓励研究者使用任何映射方法来增加样本量。在大多数情况下,该步骤将需要组合来自不同位点的样品。站点之间的表型数据的不相容性可能会阻碍这一过程;资助机构应支持努力使这些新数据和现有数据标准化。组合样本的可行性可以是特定于设置。例如,扩展的谱系研究将主要在分界良好的人群中进行,并且增加的样本量可能需要鉴定合适的伴侣群体。研究之间的样品组合也需要更大的努力以确保来自全基因组分析的标记数据是相容的,并提供完整的基因组覆盖;这对于系谱和ASP研究已经是显而易见的,并且对于关联研究将更加重要。

你可能感兴趣的:(Freimer 2004 使用谱系、同胞对和关联分析常见疾病的遗传作图)