这次分享的是来自加拿大多伦多大学的Stephen W. Scherer教授在2015年发表在Nature Reviews Genetics(IF:53.242, 2020)上的文章A copy number variation map of the human genome。
摘要
对个体间基因组变异的一个主要贡献来自于缺失和复制——统称为拷贝数变异(CNV)——它们改变了DNA的二倍体状态。这些改变可能没有表型效应,可以解释适应性特征,也可以作为疾病的基础。我们已经收集了关于不同种族健康个体的高质量数据,以构建人类基因组的最新CNV图谱。根据地图的严格程度,我们估计4.8–9.5%的基因组与CNV有关,发现大约100个基因可以完全删除,而不会产生明显的表型后果。该图将有助于解释临床和研究应用中的CNV新发现。
两个名词
1、拷贝数变化(CNV) -- 根据两个或多个基因组的比较,拷贝数不同的至少50 bp的基因组片段。
2、不平衡重排(Unbalanced rearrangements) -- 涉及基因组片段丢失(缺失)或增加(复制)的基因组变体。
人类染色体上的DNA序列不断变化,这一过程使人类能够进化和适应。长期以来,我们一直意识到两个极端大小的基因变异-细胞遗传学可识别片段和单核苷酸多态性(SNPs)。大约10年前,科学家们开始认识到中等规模阶级的大量变异,称为结构变异。在这一类中,拷贝数变异(CNV)是迄今为止最大的组成部分,它涉及增加或减少DNA含量的不平衡重排。我们现在通常将CNV的大小定义为大于50bp12,而较小的元素称为插入或缺失(indel)。这些结构变异比SNP包含更多的多态性碱基对。
CNV的表型效应有一个连续的谱,从适应性特征到胚胎致死性。CNV效应可能与疾病相关的阈值由临床医生确定,是任意的。然而,一种特质在不同的环境环境中可能是适应性的或不适应的;例如,编码α-淀粉酶的基因中的CNV能够适应膳食淀粉的消耗。适应不良的CNVs与自闭症、精神分裂症、克罗恩病、类风湿性关节炎、1型糖尿病、肥胖和许多发育性疾病等疾病有关。一类特殊的CNV,其重排断点由染色体上不连续的重复DNA片段介导,被归为基因组疾病;在机械上(和在许多情况下,表型上),这些是基因组失衡的最佳特征。本质上,致病性CNVs继续在不同的疾病类别中被描述。临床遗传学家需要区分患者中的致病或高危变异与良性变异,他们通过在明显健康个体中发现的CNVs信息来做到这一点,这可能包括父母、兄弟姐妹和人口对照。该领域的一个主要挑战是,越来越多的CNVs(称为“意义未知的变异”)被怀疑与疾病易感性有关,但需要更多的人口水平数据。
基因组变异数据库(DGV)建立于2004年。作为人类CNV和“对照”个体间结构变异的综合目录。DGV与社区和其他主要数据库合作,不断更新和策划。在许多情况下,“健康对照”的定义与特定疾病的研究有关,其他可能的情况可能没有被排除。还有一些研究提请注意健康组织中体细胞拷贝数变异的丰度、年龄对群体中拷贝数病毒代表性的影响以及在复杂拷贝数病毒的表征方面的剩余技术挑战。尽管这些限制和有十年积累的数据和经验,我们相信,我们现在能够利用丰富的现有信息来创建人类拷贝数图(Box 1),以记录健康人群中这种形式变异的程度和特征。
Box 1 拷贝数变异图 人类基因组的拷贝数变异(CNV)图将不同种族的健康个体中的良性拷贝数变异进行了分类。目前的图谱包括50 bp到3 Mb的微观和亚微观变异。我们分别生成了缺失和重复的CNV图谱,并同时生成了缺失和重复的CNV图谱。由于重复通常具有较温和的表型效应,因此它们往往比缺失承受较少的负选择压力。
2004年首次在全基因组水平上描述了不一定引起致病效应的CNV。我们从2006年开始使用CNV和CNV map这两个术语,但我们也承认“染色体不平衡”这一术语,这是50多年前创造出来的。这一术语主要用于定义与表型异常相关的基因组剂量敏感区域。
我们的拷贝数变异图是根据基因组变异数据库(DGV)的数据绘制的。在过去的十年中,DGV提供了一份公开可获取的、全面的全球种群对照个体基因组中cnv和结构变异的策划目录。DGV的内容定期被纳入其他大规模基因组参考数据库。来自这项研究的新的CNV图作为DGV的一个独立轨迹呈现。
高分辨率拷贝数CNV图谱已经构建,以研究拷贝数病毒对复杂人类性状的影响,包括多种疾病。这项分析的目的是创建一个人类基因组的拷贝数变异图,不与不良表型相关。我们对通过对选定出版物进行系统分析而产生的公开可用的高质量数据进行了CNVs(仅缺失和重复)的meta分析。平衡的结构变异,如易位和倒位(通常是良性的),和线粒体染色体变异的确定是不同的,这不是本分析的一部分。这是基因组图谱的第一次迭代,目的是为临床医生和科学家诊断和研究的目的。我们独立地记录了基因组的损失(缺失)和获得(重复),并合并了两个版本,生成了一个代表所有变异的共识图。我们首先概述了针对CNV检测的各种方法和研究,然后描述了我们生成CNV地图的方法。本文介绍了拷贝数变异区(CNVRs)的结构和特性,并讨论了拷贝数变异区(CNVRs)对基因和基因功能的影响。
CNV的发现
微阵列和下一代测序(NGS)是目前CNV检测的主要方法。第一批分析CNV的研究主要使用带有大插入克隆(称为细菌人工染色体(BACs))的微阵列和寡核苷酸阵列。随后的微阵列包括比较基因组杂交(CGH)和SNP基阵列。随着NGS技术的出现,新的工具可以从这些数据中检测CNV,这些方法在过去几年得到了特别广泛的应用。目前,没有一种单一的发现策略能够捕获基因组结构变异的全部光谱,而确定在很大程度上取决于所使用的平台和算法。许多平台在包含节段重复的基因组区域缺乏探针——这容易导致结构变异——因此无法识别许多与人类疾病有关的CNVs(例如,牛皮癣和克罗恩病中的β-防御素簇)。基于阵列的检测方法适合研究定量变量。由于分辨率低和断点估计过高,从早期平台(如BAC、比较基因组杂交CGH)获得的总CNV含量估计通常会夸大。这些平台忽略了许多小型的变体。缺失通常更容易识别,检测缺失或重复的方法也各不相同; 例如,基于SNP的阵列平台和NGS方法比阵列CGH更容易丢失重复数据。1000个基因组计划的第一阶段可能已经错过了私有的、反复出现的但罕见的变异。
不同平台调用的变体的大小分布是不同的。与基于芯片的检测相比,使用基于测序方法的研究,特别是NGS,调用的变异更小,更倾向于检测缺失。基于序列的方法具有高灵敏度和提供精确序列级断点分辨率的能力,而基于数组的方法具有有限的分辨率能力。Conrad等人采用分辨率最高的阵列,其中CNV检测的最小阈值为450 bp。阵列CGH比测序更容易检测到重复,而且该方法对检测拷贝数的微小差异更敏感。
早期的测序研究旨在对结构变异进行全面调查,要么对特定基因组区域进行靶向测序,要么每次对一个个体进行全基因组测序。1000基因组项目是第一批对来自多个群体的多个样本进行全基因组测序的项目之一。根据过去十年中CNV数据的积累,我们现在提供了第一个全面的meta分析。
CNV研究的评价
研究选择
DGV收集整理了从55项研究中发现的2,391,408个CNVs(包括202,431个CNVRs) 。我们从整个DGV收集中选择了一组CNV,这些CNV都来自同行评审的出版物。我们选择了最近的高分辨率研究,这些研究旨在最大化发现和最小化错误发现。根据使用的方法,我们将这些研究分为三个主要类别: (i)基于测序的研究(NGS和Sanger方法),(ii)基于寡核苷酸或SNP阵列的分析,(iii)使用其他方法的研究(例如荧光原位杂交(FISH)、聚合酶链反应(PCR)、多重连接依赖的探针扩增(MLPA)和光学测绘)。全基因组评估和准确的断点分辨率是纳入研究的主要因素。如果该阵列平台至少有100万个探针,或者该阵列是靶向的或定制的CNV检测,则包括基于寡核苷酸和SNP阵列的方法。
我们丢弃了来自低分辨率阵列的数据集,如果一项研究使用了不止一种方法或平台,我们只使用那些满足最低标准的数据集。我们还包括了定制和靶向的CNV分析,因为它们提供了高精度和断点分辨率,即使不是全基因组的表达。由于灵敏度和分辨率低,我们放弃了上述未列出的其他方法(包括PCR、FISH和MLPA); 大多数方法都不是全基因组的,变异的断点也没有被很好地描述出来。从最初的55项研究中,我们得到了26项研究的子集,这些研究列在补充信息中(图S1;表S1)。结果数据集中的大部分CNV是由NGS平台调用的,其次是数组方法。有3项研究采用Sanger测序作为首要检测方法(见补充信息(表S1))。
一个研究评价
我们进一步评估了每个选择的研究中的CNV,特别是假阳性和罕见变异。每个研究的变异根据研究内频率(所有频率,1%或更高以及5%或更高)进行分层。我们将重叠变量合并为具有最外层坐标的一致变量。基于频率的分层用于识别在单例CNVs(即在单个研究中检测到的单个个体)或低频变异中富集的研究,这被解释为特异性较低的标志。
每个研究中的变异首先根据频率分布进行评估。我们比较了考虑所有变异时的表观基因组变异性与应用1%和5%频率滤波器后的表观基因组变异性。此外,我们还筛选了不同的基因和其他基因组元件,这些基因和元件预计会对CNV进行负选择。这些清单包括孟德尔病的含义及重要性,国际细胞基因组阵列标准(ISCA)剂量敏感性map,使用ensemble Resources (decode)的人类染色体不平衡和表型数据库(Database of Chromosomal失衡and Phenotype in human),选择压力和保护的基因组指数。在一项研究中,限制性元素的变异性明显高于其他研究,这被解释为特异性较低的标志。我们观察到,在一项研究中,所有变异与14.6%的被删除的DECIPHER关键基因的编码核苷酸重叠。通过应用1%滤波器,重叠减少到2.5%,而5%频率滤波器的影响最小。我们观察到ISCA基因重叠和人在线孟德尔遗传(OMIM)两项研究中CNV的基因。
共有23项研究通过了这一质量控制,最终收集用于后续研究。这个集合包含2057368个变异——包括195084个增加和1862284个缺失——来自2647个不同种族的受试者(1404名男性,1219名女性和24名性别未知)。
拷贝数变异图
拷贝数变异图的目的是记录来自不同人群的健康个体的人类基因组的可变性。为了获得最大程度的可变性,我们将不同研究中的变异组合成一张单一的地图。常见变异可以在不同的个体和种族中检测到。一些变体是罕见的、私有的个例或错误的发现; 因此,解释单例的存在是很重要的。不同的平台在确定变量的开始和结束时有不同的精确度。例如,Sanger测序可以以单核苷酸分辨率检测CNV断点,而基于阵列的方法精度较低。因此,不同方法检测到的变异的坐标可能不相同。
我们设计了以下策略,将来自不同研究的高可信变异组合成合并CNVRs。由于不同研究中所称的CNV可以估计部分不同的CNV边界,我们使用CNVR-聚类算法来识别每一对可能的变异对至少有50%互惠重叠的变异集。这一要求确保了结构上不同的CNV在这个阶段不会合并。然后根据携带变异的不同受试者的数量和在聚类中至少有一个变异的不同研究的数量对聚类进行过滤。这两个指标用于过滤最终以最外层坐标合并为最终共识CNVRs的聚类。评估一种测试平均CNVR边界的替代合并策略,以确定边界是否被原始过程明显过度扩展; 然而,情况并非如此(表1)。
基于受试者数量的筛选器排除了个例,而由大量受试者支持的变异不太可能是假阳性。基于研究数量的过滤器确保排除了潜在的研究特定的人工制品。我们评估50双阈值的主题和研究的数量(例如, 至少有一个主语和一个研究中,和至少两个主题,一个研究中,等等),产生一组CNVRs每个阈值对。严格程度较高的CNVRs得到了较多的研究对象的支持。仅由至少一个受试者和一个研究支持的图谱(严格等级为1的图谱)包含了所有CNV和CNVRs(即每一个已报道的变异,包括单例变异和其他变异)。
为了进一步研究,我们选择了以下阈值:(i)每个变量至少有两个受试者和一个研究(严格等级2)和(ii)至少两个受试者和两个研究(严格等级12)。这一选择是基于先前对基因组拷贝数变异性的估计、与来自不同平台的参考变异的重叠以及高度受限基因组元件的最小变异性。例如,DECIPHER的关键基因与CNVR获得不重叠,而CNVR损失在严格级别1时影响这些基因的11.2%的核苷酸,在包含和严格的图谱中分别影响2%或0.5%的核苷酸。必需基因、OMIM基因和癌症基因的基因集都与gain和loss map重叠,且在inclusive map中重叠明显小于strict level 1。此外,在相同的比较中,明显包含CNVs的基因组比例从16.8%下降到9.5%(变化近43%),然后在严格的图谱中下降到4.8%。如果单例变异中有一部分是假阳性,其余的是罕见事件,则可以解释严格级别1的变异图与包含型变异图之间的显著变化。早期的研究已经证实,在DGV中沉积的个例CNV的比例非常罕见,或者是由于错误的发现,这证明了它们从CNV图中被遗漏的原因。这些罕见变异的一些后果可能是晚发病,并在研究时被认为是致病的。通过去除这些个例变异,我们相信我们已经减少了假阳性和潜在罕见致病变异的数量。
CNV图的性质
我们的人类基因组CNV图谱包含3,132个CNVR增加和23,438个CNVR损失(表1)。在这一严格水平上,9.5%的人类基因组似乎与损失或增加有关(分别为7.5%和3.9%)。早期的研究估计,所有CNV的这一统计数字为12%或13%,而大规模(>50 kb)变异的基因组不到5% 。基于经过验证的 CNV,Conrad 等人报告说,人类基因组的 3.7% 是拷贝数可变的,这略低于我们当前严格图谱的估计值 (4.8%),而这种差异可能是因为只分析了40个欧洲和非洲血统的样本。在我们的泛图谱中,变异性百分比明显较高可以解释为,来自更广泛种族背景的更多样本被包括在内。此外,目前的meta分析包括来自基于序列的方法的变异,它捕获的变异比基于数组的方法中调用的更小。
严谨的图谱发现了更常见的变异,而受人口限制的变异更少。它对变体调用的更严格要求减少了平台偏差,这种偏差约占来自同一方法(平台和算法)的不一致变体调用的30% 。然而,它确实从图谱上删除了一部分有效的、罕见的变体。该图谱的总基因组变异性为4.8%(losses 3.6%,gains 2.3%),比泛图谱低50%。拷贝数与变异区域的长度成反比。我们发现大多数CNVRs在300 ~ 3000 bp,损失略小于增加。
发现CNVRs在基因组和染色体之间分布不均匀(图1)。从包含图谱来看,任何给定的染色体对CNV易感的比例从1.1%到16.4%不等,从4.3%到19.2%不等。对于增加,22号染色体和Y染色体的变异性比例最高,其次是16号、9号和15号染色体,它们都高于基因组平均水平(图1a)。染色体3和18的变异比例最低。在严格的增加图上,除了整个Y染色体似乎是拷贝数稳定(CNS)外,还观察到类似的模式。这是因为由于Y染色体序列的高度重复特性,很难设计探针,而且许多商业上可用的阵列不能分析它。对于损失,在19号和22号染色体以及Y染色体上的可变序列所占比例最高(图1b)。5号染色体和8号染色体所占比例最低,18号染色体所占比例最低。这种模式也可以在收益和损失合并时看到(图1c)。我们还观察到CNVs沿染色体分布不均匀。中端粒区域CNVs的比例较高,亚端粒区域也是如此(图2),尽管由于这些区域的序列往往复杂且难以正确分析,其置信值低于预期。
CNV的功能影响
不同的基因组元件对拷贝数的变异有不同程度的约束。我们的评估集中在基因外显子序列的可变性。然而,我们也调查了转录5、编码DNA序列和内含子的变异性。基因被组织成不同的组,其基础是:(i)蛋白质编码和非编码的区别,(ii)它们在人类和小鼠中的已知表型结果,或孟德尔病的含义,以及(iii)它们的基因组保存和进化限制指数。我们还评估了基因组序列,这些序列根据以下因素分组:(i)它们的保守性,(ii)它们在基因表达调控中的作用(核心启动子、增强子和CpG岛),以及(iii)它们的结构标准(着丝粒、端粒、节段复制和重复)。
在与各种基因类相关的总体变异中,损失的贡献大于收益(图3),这可能是由于潜在的检测偏差造成的。所有基因(由RefSeq定义)的外显子均比基因组平均值(即背景)更具变动性(图3)。非编码基因的外显子拷贝数可变序列所占比例最高,高于蛋白质编码基因的外显子。相比之下,许多受限基因的外显子,特别是那些与疾病(OMIM、ISCA和癌症)或其他改变健康表型相关的外显子,比基因组平均变异更小(图3,4)。与癌症相关的基因,特别是关键的基因在强的负选择下。后者受删除的影响最小。在破译关键基因外显子后,获得和损失的最小变量是由基因不耐受评分和单倍缺陷指数预测的基因。OMIM基因的外显子与CNVRs (gain或loss)的重叠相对较少,且与ISCA基因相同。基本基因外显子的变异性与OMIM基因相当。显性基因外显子的变异性与隐性基因外显子的变异性无显著差异。一项较早的研究表明,显性和隐性基因的CNVRs相对较少。长基因间非编码rna (lincRNAs)在CNVRs中富集。与整个基因组相比,CNVRs中启动子富集(图3)。这可能与之前观察到的基因68两端的indel富集有关。增强子在CNVRs中缺乏(图3)。PhastCons元件在相对较少的CNVRs中发现(图3),以及超保守元件,对突变具有强选择作用。CpG岛比基因组背景变化更大。
图3 | 涉及特定基因列表的调控元件或外显子的拷贝数变异。从包含的图谱中,可以看到每个类别中涉及拷贝数变异(CNV)增加(a部分)、拷贝数变异损失(b部分)以及拷贝数增加和损失(c部分)的核苷酸比例。水平虚线表示包含图谱的基因组平均值。y轴表示可能包含CNV的每个基因集或基因组元件的外显子总核苷酸的百分比。括号内的数字表示每组分析中包含的基因总数,括号内的百分比表示该元素已测序基因组的百分比。我们认为结果显著时,片面的经验P值(由10000个随机数据集计算)是小于0.01(无标记), 而边缘意义被定义为实证P值在0.01和0.1之间(标有*)和P值大于0.1(标有**)被认为是无关紧要的。该排列未对cancer和人类染色体不平衡和表型数据库(Database of Chromosomal失衡and Phenotype in Humans,使用Ensembl Resources(DECIPHER)的CNV获取的关键基因进行排列,因为它们与任何CNV不重叠。
图4 | 拷贝数变异涉及与疾病相关或不相关的基因。拷贝数变异(CNV)增加(a部分),拷贝数损失(b部分),拷贝数增加和损失(c部分)。y轴表示可能参与cnv的每个基因的外显子核苷酸的百分比。水平虚线表示基因组平均值,这是可变的包括图(上线)和严格图(下线)。每个条形图上面的数字是指定外显子的变异性与基因组背景的变异性的比率。负号表示变异小于基因组背景。
已有研究表明CNVs与基因密度呈正相关。我们的分析表明,这并不是普遍现象。由于负选择,缺失会偏离某些类别的基因,而复制则不太可能是致病的,而且往往处于正选择之下,正选择驱动着许多基因家族的进化。特别是,普通缺失对蛋白质编码基因的影响小于罕见变异。
片段重复与CNVs
片段重复在基因组稳定性和疾病中的作用已经被回顾。这些元素在中端粒和亚端粒区域富集,它们与CNVRs的相关性已被证实。染色体在这方面有所不同,19号染色体与进化上较老的节段重复相关性最高(序列相似性约为90%),14号染色体与进化上较新的节段重复相关性最高(序列相似性约为99%)。在包含性和严格性的图谱中,大约60%和45%的片段重复核苷酸是CNV。CNV和片段重复之间的大量重叠和关联突出了这些区域的动态特性,这模糊了CNV和祖传重复之间的区别,而祖传重复被认为是在特定人群中固定的。序列相似性低的片段重复与CNVRs的全基因组相关性略高于序列相似性高的片段重复,这可能反映了在低身份重复中更好的探测覆盖的技术偏见,而不是真正的机制相关性。
纯合子基因缺失
我们通过编译DGV中所有被鉴定为纯合子缺失的CNV,并将其限制在广泛性和严格性的图谱中与CNVR缺失共享的区域,从而生成了人类基因组的CNV空拷贝数图谱。与严重缺失的CNVRs相比,这些CNVRs在有类似物的基因中轻度富集,但不是显著富集。在严格的基因组图谱中,零拷贝数限制在0.75%。在广泛性基因图谱中,我们鉴定了107个人类蛋白编码基因(99个基因来自严格的基因图谱),其中至少85%的外显子在空白CNVRs中被删除。这些基因似乎不是必需的,因为它们可能会从看似健康的个体的基因组中消失。这些基因有更多的基因家族成员,这在重复基因中很常见,并且平均在节段重复中比所有基因更普遍。非必需基因的功能可能是冗余的(14个有类似基因),或者它们可能与没有显著降低适应度的晚发表型结果有关。从我们的列表描述的一些不必要的基因在人类与年龄相关的表型(UDP glucuronosyltransferase 2 family polypeptide B17 (UGT2B17)用于骨质疏松症), Rh-阴性血型(RHD), 延缓艾滋病从HIV-1感染(KIR3DL1(杀手细胞immunoglobulin-like受体,三个领域,长胞质尾,1)77),多发性硬化易感性(主要组织相容性复合体基因HLA-DRB1),自身免疫性疾病(HLA-DQA1 (胎盘功能和胎儿健康(妊娠特异性β -1-糖蛋白1 (PSG1))。有趣的是,我们的非必要基因列表与MacArthur等人报道的功能缺失基因并不重叠。
功能富集分析
我们测试了Gene Ontology和基于通路的基因集来富集可变和稳定的基因。在包含和严格的图谱中,富集基因集的损失和增加相似; 严谨的图谱显示了更显著的富集,特别是在稳定区域的功能基因集。基因集富集结果被可视化为一个网络,以便将高度重叠的基因集分组成功能聚类。异种、药物和类固醇代谢、免疫反应、嗅觉受体、淀粉和蔗糖代谢、妊娠特异性黏附分子、内质网、囊泡和高尔基体在CNVRs中都具有丰富的功能(图5)。蛋白质磷酸化、信号转导、蛋白质降解、转录机制和调控、细胞内运输、器官和系统发育、细胞分化、细胞周期和核室是富集在基因组CNS区域的功能。各功能类别的基因见补充信息(表S19)。基因拷贝数变异中,与片段重复序列重叠的基因家族富集; 例如,人类唾液淀粉酶基因,它编码的酶催化消化膳食淀粉,显示了广泛的CNV。
图5 |基因功能富集图。地图是使用富集地图Cytoscape插件99生成的。节点大小与功能基因集的大小成正比,边缘厚度与基因集之间的重叠度成正比。我们只展示了在拷贝数可变区或稳定区富集且错误发现率≤10%的基因集;只有大小在50到2500个之间的基因组被分析。生物学上相关的基因集倾向于形成集群,这些集群由人工识别并使用适当的基因本体论术语进行标记。绿色表示拷贝数稳定基因富集,紫色表示拷贝数可变基因富集。每个圆的边界对应着包容的地图,而中心对应着严格的地图。节点颜色的强度与富集分数成正比,富集分数分别显示为基因组的稳定拷贝数和可变拷贝数区域。
讨论与未来工作
我们的CNV图谱显示并定量了人类基因组中CNV的异质性程度。人类基因组通过其结构的不断修改而不断成形,这反映在健康人和那些有疾病的人身上。CNVRs存在于功能序列中(包括与疾病相关的序列),这使得区分良性和致病性CNVs具有挑战性。在全基因组图(即对照基因组)中,基因组的中枢神经系统区域可能是基因组中最敏感的剂量区域,在这些区域中,拷贝数变异可能与疾病或适应度降低有关。在包含和严格的地图中发现的与疾病相关基因重叠的拷贝数变异可能反映了相对于疾病表型的变异外显率降低
这张图特别有价值,因为最高分辨率的测序或基于数组的研究仍然有局限性,可以通过汇集多个研究的资源来克服。例如,Conrad等人用最高分辨率的基于阵列的平台检测了基因组,但仍然不能可靠地检测小于450 bp的变异。此外,为了发现CNV,本研究包含了有限数量的样本,仅捕获了两个不同的种群。相比之下,1000人基因组计划研究分析了更大范围的群体中更多的样本,但使用了低覆盖率测序,这限制了CNV的检测; 因此,发现的CNVs大多小于400 bp,重复和较大变异的代表性不足。通过结合23项研究的CNV,我们能够克服在单个研究中看到的问题。尽管该meta分析获得了迄今为止最完整的人类基因组中CNV的图谱,但50-500 bp的变异还需要通过单核苷酸分辨率和基于序列的方法(如NGS)进一步鉴定。该拷贝数变异图谱可作为表型变异遗传基础研究的比较标准。这将是一个使用拷贝数病毒基因组注释来区分致病拷贝数病毒和良性拷贝数病毒的工具,并用于识别那些与种群进化适应性相关的拷贝数病毒。此外,该图谱可用于指导CNV特异性基因分型分析的发展。
CNV图谱的临床应用
该图谱可作为一种工具,用于研究用于医疗的CNVs。为了评估在个案受试者中发现的CNV的临床重要性,标准可包括:(i)它是否在CNV图的CNVRs中发现,以及(ii)它是否与医学相关基因重叠。我们手工筛选了935个与CNV相关的医学基因。这份疾病相关基因的综合列表来自407份同行评审的出版物,包括ISCA剂量敏感图基因、贝勒医学院105K寡核苷酸阵列紊乱列表、DECIPHER关键基因和癌症基因。如果在患者身上发现了与这些基因重叠的拷贝数变异,而在拷贝数变异图谱中却没有发现,这说明在医学上有重要意义; 特别是,与更严格的基因集相关的CNV,如解码关键基因和胚胎致命基因,它们将有更高的致病可能性。比较广泛型和严格型可以考虑条件表现型,如年龄相关表现型。突变导致晚发性疾病的基因比那些与早发性疾病相关的基因(早发性疾病对基因适应度有更大的影响)更保守,因此可能会被严格的图谱更好地过滤。
在我们所认识的特征和疾病之间,在被归类为良性或中性的变异和被归类为诱发风险因素或疾病相关的变异之间,都没有固定的界限。基因组背景,包括种族,可以影响阈值。例如,淀粉酶基因的低拷贝数在亚洲人群中是一个劣势,特别是在日本,但它在非洲人群中没有影响。
未来的研究方向
这个CNV图谱是在一定的约束条件下生成的。首先,关于健康个体中CNVs的信息是不完整的。当前包含图谱中定义的基因组CNVRs是在2647名受试者中至少两个不同的独立样本中检测到的。随着新的CNV数据集可用,我们将继续完善图谱,但对于欧洲人来说,CNV图谱可能接近饱和,因为我们对这组3000个额外样本的测试仅略微增加了总基因组变异性(从9.5%到9.7%)。
所有的个例发现都被分配到图谱的中枢神经系统区域;然而,其中一些变异可能确实是真正的变异,因为低频变异可以显示群体分化水平的提高,也因为CNV在不同的群体中以不同的频率分离。例如,在片段重复区域的拷贝数变异比在独特序列区域的拷贝数变异更有可能被群体分层。Campbell等人发现,与苦味受体基因(TAS2R46和TAS2R48)有关的拷贝数变异在非非洲人中比在非洲人中更为普遍。这些作者还发现,与非洲个体相比,东亚个体中重叠occludin(ocn)基因的拷贝数更低。趋化因子(C-C基序)配体3-like 1 (CCL3L1)基因是分化程度最高的CNVs外显子之一。也可能存在性别影响的修饰基因和基因拷贝数变异,它们在不同年龄表达表型,以及许多其他复杂现象,如多态性。这些点突出了表型效应的广度,以及一些目前被排除的个例变异可能在以后有更多样本时被纳入。此外,更大和更广泛的样本收集将使我们能够生成特定群体的拷贝数变异图谱,这可以捕获地理上分离的变异,也可以生成只包含罕见变异的地图。群体特异性拷贝数变异的鉴定对于研究这些变异的正选择和负选择的作用,以及它们如何与特定群体中的疾病或有益性状相关具有重要意义。CNV大小和基因组特征变异性之间的相互作用需要更好的研究。例如,某些基因组特征可能倾向于包含其全长的大增加,但它们受到改变其结构的小增加的限制。
我们还注意到,每个CNVR的拷贝数水平并没有在当前的图谱中指定,因为许多基础数据集并没有进行基因分型以获取这一信息。通过改进算法和向基因组测序方法的过渡,我们将有一个更全面的基因型变异目录,使我们能够准确报告每个CNVR的种群频率。
DGV在持续的基础上策划已发表的变异体,并已成为CNV的主要存储库,用于研究和临床环境中的变异体注释。DGV记录了可能来自健康对照的变异,但可用的表型记录的数量往往有限。例如,一项癌症研究中的对照样本可能没有就血压或其他健康问题对健康状况进行评估。此外,健康不是静止不变的,研究参与者的状态可能会改变。DGV不排除晚发表型的变异; 因此,在使用它来预测健康结果时需要谨慎。相比之下,像DECIPHER这样的数据库旨在对引起明显表型的高度渗透变异进行分类。在我们之前的工作中,我们注意到在对照数据库和疾病数据库(如DGV和DECIPHER)中存在一些重叠的内容,这种重叠需要通过提高CNVRs的分辨率和更详细的表型来解释,或者更普遍地,通过更好地理解外显率现象来解释。最终,我们最新的人类基因组CNV图谱为理解基因组失衡对进化、健康和疾病的影响提供了参考。