这次分享的是来自耶鲁大学分子生物物理学与生物化学教授Mark Gerstein在2011年发表在Genome Research(IF:9.043, 2020)上的文章CNVnator: An approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing。
摘要
基因组中的拷贝数变异(Copy number variation, CNV)是一种复杂的现象,人们对它还没有完全了解。从个人基因组测序的阅读深度(RD)分析中,我们开发了一种CNVnator方法,用于CNV的发现和基因分型。我们的方法是基于已建立的均值偏移方法与额外的改进(多带宽划分和GC校正)相结合,以扩大CNV的发现范围。我们使用1000基因组项目进行的广泛验证校准了CNVnator。因此,我们可以利用CNVnator在一个群体中发现CNV,进行基因分型,并鉴定非典型CNV,如新生和多等位基因事件。总体而言,对于RD可获得的CNVs, CNVnator敏感性高(86%-96%),假发现率低(3%-20%),基因分型准确性高(93%-95%),断点发现分辨率高(90%的高测序覆盖率病例< 200bp)。此外,CNVnator是分读和读对方法的直接互补: 它会遗漏由反转录转位元素产生的CNV,但它识别的超过一半的已验证CNV不能被分读或读对检测到。通过对人类多态性研究中心、约鲁巴和中日人群的CNV基因分型,我们估计至少11%的CNV位点涉及复杂的多等位基因事件,这一估计比之前报道的高得多。此外,在这些事件中,我们观察到等位基因分布严重偏离哈迪-温伯格平衡的情况,可能意味着某些复杂位点的选择。最后,结合发现和基因分型,我们在两个家族三联体中发现了6个潜在的新生CNV。
(哈迪-温伯格定律可分为3个部分:第一部分是假设:在一个无穷大的随机交配的群体中,没有进化的压力(突变、迁移和自然选择);第二部分是基因频率逐代不变;第三部分:随机交配一代以后基因型频率将保持平衡)
基因组结构变异(SVs),包括拷贝数变异(CNVs),被认为对人类个体之间的变异有重要的贡献,并可能与SNPs一样对人类表型有很大的影响。最初,CNV是通过分析SNP和CGH阵列数据来检测的,这仍然是发现CNV和基因分型的一种经济有效的方法。然而,新的基于测序的方法,如克隆测序,双末端比对,分割-读(SR)比对,读取深度(RD)分析和整合方法提供了一种有价值的替代方法,因为它们能够发现更多所有类型(CGH看不到的倒置和易位)和大小(包括插入)的CNVs。基于测序的方法的最大优势在于,如下所示,它们相互补充,都可以应用于一组测序数据(例如,Illumina的全基因组对端测序),从而得到基因组变异的全面地图,包括SNP。
(CGH:比较基因组杂交)
(在短序列数据中SR算法的核心也是对非正常PE比对数据的利用,RP中的非正常比对,通常是read1和read2在距离或者位置关系上存在着不正常的情形,而它的一对PE read都是能够“无伤”地进行比对的;但SR一般是指这两条PE的read,有一条能够正常比对上参考基因组,但是另一条却不行的情形。这个时候,比对软件(比如BWA)会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内,使用更加宽松的Smith-Waterman局部比对方法,尝试搜索这条read最终可能比对得上的位置。参考:https://zhuanlan.zhihu.com/p/40290546)
本文提出了一种新的方法CNVnator,用于从下一代测序平台的短reads的比对密度(即RD)的统计分析中检测CNV。以前使用RD的方法仅限于基因组的独特区域,发现只有大的CNVs具有较差的断点分辨率,或者不能进行基因分型。CNVnator能够在整个基因组中发现各种大小的CNV,从几百个碱基到巨噬酶的长度。利用来自1000基因组项目的数据,我们通过实验验证了CNVnator在CNV发现和基因分型方面的敏感性、特异性和准确性,以及其在新生CNV检测方面的能力。
结果
用均值移位法对RD信号进行分割
对于RD信号的计算,CNVnator将整个基因组分成大小相等的不重叠的bins,并使用每个bins中映射的reads的计数作为RD信号4。然后,它将生成的信号划分为若干段,这些段的潜在中枢神经系统可能不同。假定的CNVs是通过应用统计显著性检验分段预测。关于该方法的所有细节都在Methods一节中给出,在这里我们强调它的主要特性。分割是基于均值移位技术,该技术最初是在计算机科学中为图像处理而开发的,并应用于以前的CGH数据分析。
虽然与CGH信号的分析类似,但RD信号的分析有不同的挑战。相对于CGH信号,每个探针的位置和强度是固定的,对于RD信号,每个位置可以通过改变用于计数映射读的容器大小来计算。我们进行了敏感性分析,以确定RD分析的最佳bins大小。另一个影响CNV发现的因素是使用均值移位方法划分信号的带宽选择。我们开发并应用了一种新的多带宽划分策略,这使得我们能够检测到从几百个碱基到超级碱基的各种大小的CNV。此外,RD分析的方法应该是快速的。在4×的测序深度,这不是很深,该方法应该适用于大约1000万个数据点(假设bins为300bp)和1000个个体,例如,在1000基因组计划。CNVnator的允许我们(给定映射读取)在几个小时内高效实现在单个2.5 GHz Intel Core 2 Duo CPU上执行全基因组分析。
作为评估我们方法性能的第一步,我们使用来自1000个基因组项目的一个个体(NA12878, CEPH三个一组中的孩子(trio:双亲和孩子))的数据,从统计学的角度分析了整个基因组的划分。计算片段的平均RD信号分布不均匀,显示出CN-neutral区域与单个单倍型杂合缺失和重复之间的明显差异(图1A)。注意,通过统计显著性检验,并不是所有RD异常的分区区域都称为CNVs。因此,每个峰下的面积并不能代表相应的CNVs比例。此外,要么相邻片段具有相似的平均RD信号(图1B中峰值约为0),要么它们的平均信号差约为基因组平均RD信号的一半(图1B中的第二个峰值)。值得注意的是,两个相邻段边界聚类的平均RD信号的变化,这些聚类可以通过包含缺失和重复的分区来解释(见图1C,D)。特别需要关注的是几乎具有相同平均RD信号的段。其中包括图1B中的零附近的峰值和图1D中的聚类3。我们发现这些片段几乎都是CN中性的,并表示由于较小(相对于它们的大小)带宽的分区,平均RD的变化。因此,该分析表明整个基因组被适当地划分为不同的CNs片段。
图1 使用100bp的bins和标准参数(见方法)在CEPH trio(NA12878)中对儿童RD信号划分的统计数据。(A)产生段的平均RD信号分布。这种分布有三个明显的峰值: 围绕基因组RD平均值(无CNVs),一半的RD平均值(杂合缺失),以及1.5的RD平均值(单倍型重复)。平均的基因组RD信号是 ~77 reads。通过统计显著性检验,并不是所有RD异常的分区区域都称为CNVs。因此,每个峰下的面积不能代表相应的CNVs比例。(B)相邻段平均RD信号差的分布。其分布为差异的绝对值,显示产生的片段或具有相似的平均信号(峰值在0左右),或其平均信号约为基因组平均RD信号(第二个峰值)的一半,表明一个单倍型的缺失/重复。(C)划分澄清D中簇的例子。(D)每个分段的平均RD信号差在左右边界的分布。该分布有几个清晰的cluster。簇的产生是由于不同RD信号段的不同组合。簇8和9表示封闭事件的情况,如重复中的区域的duplication。
理解和过滤CNV调用
所谓特定区域的拷贝数变异,是由于参考基因组中该区域的相同(或非常相似)副本的存在而混淆的*。这些区域中CNV的RD信号被有效地涂抹在所有拷贝上(由于随机放置非唯一映射读),可能无法被检测到(例如,反转录转座子)或在每个拷贝的位置产生多个CNV调用(例如,片段复制)。为了更直观地理解后一种情况,考虑参考基因组有两个几乎相同的片段重复A和B,但在研究样本中只有区域A。因为是二倍体,所以被研究的样本会有两次A(即AA),而单倍体参考基因组每个区域会有一次A(即AB)。样本中来自A的读取将在参考中的A和B之间平均分配,生成平均RD的一半(即,CN=1)。因此,A和B将被识别为删除。此外,变异的位置是不确定的(它可能是A或B),这可能会误导验证(例如,通过PCR),偏差估计样本之间的CNV一致性,并导致下游分析的混淆。因此,我们开发了一个程序来标记(但不消除)此类潜在调用,即 q0 过滤器。
每个映射读(一对读)都有一个相关联的映射质量,该质量是对读实际来自其对齐位置的置信度的度量。值越大,可信度越高。当一个读(reads对)可以映射到两个或多个位置时,就会随机选择一个。在这种情况下,关联的映射质量为零,因此使用名称q0过滤器。我们发现q0 reads在所谓CNV区域的分布在0和100%左右(见补充图S2)。因此,如果q0 reads在CNV区域的比例为>50%,我们认为CNV区域是冗余的。下面我们分析过滤和未过滤的调用。
灵敏、准确地发现了trios中的CNV
我们将CNVnator应用于深度测序(>20×)的CEPH和约鲁巴人trios的分析,这是1000基因组计划的一部分。每个trios由三个个体/样本组成: 通常,trios分析有助于检测结果的重现性,也就是说,孩子的所有变异也应该在父母身上找到,而且孩子和父母中的一方之间的共有变异一定比父母之间的多。为了一致性,我们使用100 bp的箱子来计算所有个体的RD信号。每个个体产生3 - 5000个CNV calling,大小在200 - 1590400 bp。从统计数据来看,人们认为更深层次的测序将使CNV检测更加灵敏和精确。事实上,我们观察到发现CNVs的总体强度(用RD分布的高斯拟合的均值与sigma的比值来衡量)与测序覆盖率相关。然而,整个基因组覆盖的均匀性也非常重要。约鲁巴人儿童的基因组在最高深度进行了测序; 然而,由于RD信号的方差很大,这些数据允许CNV检测的强度最小。事实上,为这个人做的CNV调用的数量是所有数据集中最小的。
我们从整个基因组(不包括X和Y染色体)中分离出>1kb的calls(这些事件在最大灵敏度下被检测到),并认为如果两个calls有>50%的相互重叠,那么它们是一致的。对于CEPH trios来说,正如预期的那样,父母和孩子之间的calls比父母之间的calls更多一致的。对于约鲁巴trios来说,有一个例外,父母之间的calls一致性比母亲和孩子之间的要好。然而,这可以解释为较差的数据质量的孩子导致总体较少的calls和总体较高的FDR。此外,儿童的大多数CNV calls,即66%的CEPH儿童和70%的约鲁巴儿童,与来自父母任何一方的CNV calls是一致的,再次与预期一致。
在1000个基因组项目中,使用CGH阵列和4200万个探针对calls进行验证,估计错误发现率(FDR)为: CEPH trios为13%,约鲁巴三人组为24% (q0过滤的呼叫)。这种使用CGH阵列的验证本质上是比较的,其中一个个体(研究对象)的探针强度与参考个体(NA10851)的探针强度进行比较。因此,验证在NA10851的拷贝数变化(相对于参考基因组)区域存在偏差。修正偏差后FDR分别为7%和16%; 例如,参考个体偏倚为:CEPH为45%,约鲁巴trios为33%。这个结果与预期的偏差更大的CEPH trios,作为广泛参考的个体(NA10851)也是CEPH。
calls不完全一致是由于以下三个原因: (1)CNV calls的假阳性,(2)CNV calls的假阴性,(3)CNV断点错误(即CNV区域有呼叫,但断点不匹配)。假阳性率可以从验证实验中得到,另外两个量可以通过与已知CNV的比较直接估计,例如通过分析CGH阵列发现的。由于RD分析和CGH实验可能存在的不同和未知的确定偏差,直接估计的可靠性并不明显。因此,我们还通过比较父母和孩子的calls一致性进行了间接估计(数据自我一致性检查)。我们已经开发了一个数学模型来进行这种间接估计。简而言之,继承规则允许将孩子和他/她父母之间的一致的calls数量与父母之间的一致的calls数量和父母双方的一致的calls联系起来(孩子分别与父母,孩子与父母共有的比较)。这导致在推导过程中,将每个成员的CNV数目排除在外,并将CNV calls的敏感性与FDR联系起来,以及在一组方程中有错误断点的calls比例。为了更直观的理解,考虑一个任意的三角形。它所有的角的和是180°,与它的边长无关。因此,如果已知两个角,则可以推导出第三个角。同样,CNV调用中的灵敏度、FDR和断点精度(如角度)可以与测量的calls一致性相关,而不需要知道每个trios的CNV(即三角形的边长)的数量。利用该模型,在其他两个值已知的情况下,可以估计CNV发现的敏感性。
首先,如上所述,通过与数组CGH (aCGH)调用进行比较,可以直接估计出带有错误断点的调用的比例。或者,它可以间接测量为子节点中与任何父节点的任何呼叫重叠至少1个bp但与任何呼叫不一致的呼叫的比例。接下来,利用附录中的公式5,我们间接估计了CNV发现的平均灵敏度(见补充表S1; 这两个数量的数字,从直接和间接估计,相当一致,表明我们的模型正确地描述了CNV的继承和发现过程。间接测量的较低的灵敏度估计可能意味着在推导附录中的方程5时,CGH阵列的确定偏差(即对更容易发现的事件的偏差)或某些假设的不准确性(即相等的灵敏度)。此外,我们对每个trios中的男性个体进行了数据驱动模拟,观察到相似的敏感性。最后,我们目视检查了Conrad预测但CNVnator在 CEPH子节点(总共35个区域)中未发现的缺失。在11例(32%)病例中,CNVnator没有正确划分区域或没有将其称为CNV。其余24例(78%)病例的RD信号与基因组平均值没有差异。由于这些区域的read mapping大部分是可靠的(只有4个区域没有通过q0的过滤),我们得出的结论是它们大多数不是CNV, CGH和RD实验之间的不一致可以用错误的CNV发现和基因分型来解释;15%在CGH中(Conrad et al. 2009)。总的来说,CNVnator在发现CNV时灵敏度高,FDR低,断点分配错误率低。
由于几个原因,通过RD发现重复(与删除相比)意味着更大的发现挑战。首先,重复中的错误映射可能看起来像重复。其次,来自非参考基因组区域(如缝隙)的读取将映射到同源区域,如着丝粒、端粒和缝隙邻近区域,产生比正常的RD信号更大的信号。这就产生了一个异常高的RD信号,这并不一定代表真正的复制,而是“未知参考”的影响。事实上,我们看到;CNVnator发现的重复中有50%位于距离参考基因组间隙1Mb的范围内。最后,复制区域具有更大的RD信号和更大的信号方差。因此,我们观察到重复发现的灵敏度较低,为85%。
断点的高分辨率
将CNVnator预测的缺失断点与1000基因组项目中SR分析的缺失断点进行比较,即在碱基对分辨率上,CNVnator预测的90%的缺失断点的精度为200 bp。这与基因组被划分的两个容器的大小相对应。给定近似的CNV断点,可以完成单倍型桥接SV区域的局部组装。随后,将组装的contig与预测的CNV区域进行比对,可以精确地识别CNV断点。
当然,断点定位的精度是bins size的函数,这也是断点分辨率的较低的理论限制。CNVnator非常接近这个极限。另外,请注意,bins大小的选择与覆盖面、读取长度和数据质量有关。因此,对于恒定的读取长度和数据质量,断点定位精度将随着测序覆盖率的增加而增加。具体来说,给定相同的数据质量和读取长度,我们观察到最佳的bins大小,从而断点分辨率精度,与覆盖率大致成反比,结果是:100bp的bins对应于20-30×覆盖率,500bp的bins对应于4-6×覆盖率,以及30bp的bins对应于100×覆盖率。然而,在最后一种情况下,bins大小与读取长度相当(本研究中使用的数据为36),这可能会由于CNV断点周围不可靠的读取映射而影响断点分辨率。
单基因组的基因
我们已经开发了一种CNV基因分型的程序,即通过计算其RD信号归一化为相同长度区域的基因组平均值,将CN分配给给定基因组区域。
这里RDregionis是一个给定的地区长度为L的RD信号, 对于给定大小的bin size,高斯最佳拟合RD信号分布的均值μ, c是一个比例因子,在男性个体中,除在X和Y中等于1外,所有染色体的比例因子c都等于2。
这种归一化倾向于产生异常值,即包含有异常数量映射读序列的重复序列的bins,或参考基因组中没有读序列映射的空白bins。一个区域的RD信号可以通过将覆盖该区域的bins中的RD信号相加来计算。另外,注意可以使用任意的(与计算region不同的)bins大小进行归一化,尽管它应该足够大,以允许μ的可靠估计。
CNVnator预测区域中归一化平均RD信号的分布是多峰的,具有对应于纯合和杂合缺失的两个不同峰值和对应于重复的不太明显的簇(见图 2)。重复的模糊峰反映了较大RD信号的较大方差。我们通过将其标准化平均RD信号四舍五入到最近的整数,将一个CN分配给一个基因组区域。采用这种策略,我们获得了95%和93%的RD-accessible(见补充材料中的定义)缺失与CN基因型相同的CN,这是通过两个基于阵列的分析。值得注意的是,RD虽然具有较高的准确性,但仍然使用较少的信息,即单个个体的测序,而上述其他方法通过分析多个(数百)个体的探针强度来基因型CNV。我们观察到基因分型的一致性甚至达到了98%,与较小但实验测量和高度自信的基因型集(27个区域)相比。
图2 预测CNV(对于CEPH子代)的归一化平均RD信号分布大于1KB,并通过Q0滤波器。标准化因子是全基因组平均RD信号的两倍(每个染色体的两个拷贝)。两个清晰的峰(约0和1)对应纯合子和杂合子缺失。当为非均匀映射的读取选择映射位置时,第二个峰值(~0.05)从值1的微小位移是这些区域中的读取映射的结果(参见方法)。重复的峰值被涂抹,这反映了RD信号的较大变化,因此,在检测和基因分型重复方面面临更大的挑战。
通过使用相同的方法,我们能够基因型低CN重复。也就是说,我们在相同的两组中分别获得了48%和84%的RD-accessible副本相同的CN。RD和基因分型的一致性较低可能反映了重复基因的发现和分型通常是一个比较困难的问题。此外,使用阵列的群体基因分型方法在确定绝对CN时可能会被误导,因为高频重复的log2比值的范围预计会在低频缺失的范围内重叠,例如,罕见和重新发生的事件。换句话说,使用CGH时,重复和罕见缺失更容易出现基因错型。
我们发现,改变归一化RD信号的截止值来指定CN,例如,使用0.75来区分纯合缺失和杂合缺失,可以更好地符合阵列基因分型。然而,这种改进是微不足道的,大约只有1%。我们还将我们的基因分型策略应用于低覆盖率(1-6×)的个体测序,使用1 kb bins来计算归一化。虽然基于CGH的基因型的总体一致性与深度测序的个体相同,但我们注意到一些样本一致性较低,这可以用低覆盖率和数据质量问题来解释。因此,我们在随后的分析中排除了以下个体: NA18532、NA19210、NA18555、NA18562、NA12005、NA18486、NA12892和NA18571。
与其他CNV发现方法的比较
从测序数据中发现CNV的其他方法和方法,如读对(RP)和SR,在1000基因组项目的框架中对同一数据进行了使用,允许它们直接比较。在基于RD的方法中,CNVnator的灵敏度最高,FDR最低,断点分辨率最精确。不同的方法也被发现是互补的,没有直接的可对比性,这是早些时候提出的一个建议,每个方法都是唯一发现~30%-60%的CNV。事实上,CNVnator发现并经CGH阵列验证的CNVs中,>50%未被SR和RP检测到。
(不禁让人觉得这个准确性问题比较大,每个发表软件都写自己的灵敏度不错,FDR不高)。
发现的CNV每种方法的有效性都是读取长度、序列覆盖率和读取对之间的平均跨度的复杂函数。但是,如果应用于相同的数据,则在评估特定方法的优势时,读取映射(reads mapping)是关键因素。例如,如果任意一侧的重复/重复区域位于CNV侧面,则由于至少一个读取(或SR的读取端)的映射不明确,RP或SR方法可能会错过CNV,比如,由于依赖于每个读/端的独立映射。然而,对于RD分析,可以将读取限制在由读取之间的平均跨度定义的特定距离内以正确的方向映射,从而有效地要求只有一个读取明确映射。事实上,从数学上可以看出,RD分析可以更好地确定片段重复中的CNV,如,与RP分析相比,CN重复率低。另一方面,如果CNV是一个重复序列,但侧翼序列不是(例如,逆转录转座子),那么它更有可能被RP发现,而被RD方法遗漏。事实上,从CEPH儿童58个缺失(已知断点解析)的交叉点来看,CNVnator大部分缺失完全由单个逆转录转座子(LINE、SVA或HERV-K)组成的CNV。此外,仅仅因为其性质,RD分析无法发现基于RP和SR的方法可以找到的平衡SV(即,不改变CN的SV)。
除此之外,CNVnator可以发现缺失和重复并对其进行基因分型,而通过RP和SR方法进行缺失基因分型的方法还不成熟,重复基因分型的前景也不清楚。最后,RD基因分型可以很容易地应用于低覆盖率数据,并且仍然可以产生精确的结果,正如我们上面所展示的。从这些论点中,我们推断CNVnator特别适合于需要CNV发现和比较(除逆转录转座子外)少数/几个个体甚至整个群体的CN的分析,如de novo和多等位CNV分析。
非典型CNV的检测
CNVnator的发现和基因分型技术相结合,可以将CNV分类为非典型,如新的CNVs和多等位CNVs。新发现的CNVs可以通过识别儿童特异性CNVs(即那些在父母中没有发现的CNVs)来发现。然而,这种新的CNV候选基因也可以用一个群体中至少有3个不同等位基因的多等位基因位点来解释(图3),例如CN0、CN1和CN2。通过对1000个基因组计划中161个个体的测序数据,我们估计这种CNVs的频率为11%-13%。对于假定的多等位基因位点,我们观察到等位基因分布偏离HardyWeinberg平衡的情况,这可能意味着对某些复杂位点的强选择(图4)。例如,chr5:17647201-17650200位点(图4C)的基因型值从1.2到3.8不等。这表明等位基因可以有0到2个区域拷贝,即CN0、CN1和CN2。然而,该位点主要有3个拷贝,表明CN1和CN2等位基因在群体中占优势,数量相近,即平衡选择。
图3 当分析trios家族时,多等位基因位点看起来像新生的CNVs。
图4 多等位基因位点的例子。(A) CN0、CN1和CN2的三等位基因位点处于Hardy-Weinberg平衡。(B)基因型在群体中的分布可以用含有CN0-CN5的六等位基因位点来解释。(C)不处于Hardy-Weinberg平衡的三等位基因位点,这可能表明自然选择。在这种情况下,基因型的分布在3左右达到峰值,这可能是由于该位点CN1和CN2等位基因的比例相同。这又意味着平衡选择。
为了找到新生CNV,我们做了以下工作: 对于每个trios,我们对所有成员的q0过滤CNV calls进行基因分型。我们选择了满足以下条件的假设的新生候选对象:(1)儿童的归一化RD信号小于1.4(重复大于2.6);(2)每个亲本的归一化平均RD信号大于1.6(小于2.4)。虽然1.5是区分杂合子缺失和正常二倍体状态的截止点,但我们注意到基因分型估计可能有~0.05偏差(见图2),因此我们通过减去/增加值的双(0.1)使截止点更严格。同样地,我们用更严格的截距来检测新的重复。该方法分别预测了CEPH和约鲁巴trios的17个和6个共23个儿童特异性CNV。我们使用高探针密度(42,000,000 lion) CGH阵列对每个成员进行杂交,为预测提供了额外的支持(见补充材料)。我们总共发现了10个潜在的新生缺失:2个来自CEPH trios,8个来自约鲁巴trios。我们进一步检查了每一个(表2)。
从一个群体的基因分型判断,有四个事件可能是多等位基因位点。另外两个在免疫球蛋白lambda位点发现,因此很可能是体细胞,因为对淋巴母细胞系进行了测序和阵列分析。其余4个发现于简单串联重复序列(STRs)区域,可能是假阳性(由于RD分析和阵列交叉杂交的读映射问题)或提示在这些区域重复延伸(生殖系或体细胞)。需要额外的验证,如PCR,以得到一个明确的答案。因此,除了在lambda位点外,没有确定的新生CNVs被检测到,但这可能并不令人惊讶,因为他们被认为在8到50个新生儿中只有一个被发现。
讨论
我们开发并描述了一种新的方法CNVnator,用于从读图密度(即读深)的统计分析中发现CNV,该方法可应用于不同测序平台(如Illumina、SOLiD和Helicos)的单端和双端数据。它也适用于低测序覆盖率的CNV发现。通过与已知CNV的广泛验证和比较,发现CNVnator是一种灵敏、特异的CNV发现和基因分型方法,断点定位精度高。该软件可在http://sv.gersteinlab.org/cnvnator免费获得,可应用于各种人类和非人类基因组(从SAM/BAM文件头解析基因组描述)。
正如我们所指出的,RD分析在检测平衡的拷贝数变异和转座因子产生的拷贝数变异方面存在局限性。然而,我们推断,这种方法仍然适用于需要比较几个/几个个体甚至整个人群的CN的分析。前者的例子是发现新生CNV,而后者的例子是识别非典型的,即多等位的CNV。通过CNVnator,我们在两个家族trios鉴定了6个潜在的新生CNVs,并估计多等位基因位点至少占大CNVs的11%。这一估计远远高于之前使用CGH的研究中报道的7%。然而,请注意,Conrad等人明确了他们在多等位基因事件基因分型方面的困难。因此,在误差范围内,我们可以看到他们的结果与我们的结果是一致的。
一个有趣的问题是多等位基因位点的起源。由于CN0、CN1和CN2等位基因的位点占主导地位,同源但不相等序列上的染色体交叉似乎是最简单的解释: 一旦两条染色体重组,产生两个新的等位基因CN0和CN2,这两个等位基因都传播到群体中。其他等位基因的产生,如CN3或更多,可能涉及两个或更多的染色体杂交。
在三等位基因位点只意味着一次交叉事件的情况下,人们不会期望群体中CN0和CN2等位基因的比例相等,因为由于后代数量有限,在接下来的世代(个体进行交叉后)中,比例可能已经不同。在基因座连续的交叉事件可以进一步改变等位基因的频率。此外,等位基因频率可以由自然选择形成,对此我们看到了证据(图4)。因此,可以预期,缺失和复制等位基因的频率可能是不同的,甚至可能是巨大的(不同); 例如,任何一个等位基因都极其罕见或缺失。在这个问题上, 似乎可能的分析更大的人口,例如,在1000个基因组计划的主阶段,由于在常见缺失/重复的基因座中发现了罕见的缺失/重复,将导致对多等位基因座比例的估计更高。
之前观察到的结果表明,RD、RP和SR方法是互补的。随着测序技术的快速发展,测序成本的降低和读取长度的增加,带来了一个重要的问题,即数据变化对RD分析的影响。虽然还需要进行仔细的分析,但很明显,在恒定的覆盖范围内,由于产生的reads较少,长reads测序降低了对较小CNV的敏感性。更好的reads mapping可以部分弥补这一点,这也扩大了RD可访问基因组的比例,即,reads mapping明确,潜在地弥补了RP和SR方法在发现CNV方面的分歧。建议随着读长的增加按比例增加测序覆盖率是加强RD分析的最佳策略,这是很诱人的。然而,在不允许SR映射的情况下(这是一种被广泛采用的映射策略),更长的读取会增加CNV断点周围映射的不确定性,这种不确定性与读取长度成正比。换句话说,无论覆盖范围如何,从根本上来说,断点精度以及通过RD分析精确发现小型CNV的能力都会随着读取长度的增加而降低。因此,在长读和高覆盖的情况下,RD分析仍然需要其他发现CNV的方法作为补充。