背景

低深度全基因组测序（sWGS），主要通过覆盖深度的方法（DOC）检测CNV。

DOC工具主要包含三个分析步骤：data normalization, segmentation and aberration calling。data normalization 是获得可靠分析结果的基础，不进行normalization，拷贝数变化的分析会受到 GC content, mappability, polymorphisms, sample quality, false computational assumptions的影响。

DOC工具将基因组划分成很多窗口

所有基于覆盖度的CNA工具都是从统计特定位点的reads数量开始的。通常情况下这些数字可以被理解为拷贝数变化的度量。因为sWGS无法完全覆盖整个基因组，所以会把参考基因组划分为大的windows 或 bins 以展现全基因组覆盖的特征。

所以对于bins大小的考量很重要，bins越大则reads数量越多，输出结果中的噪音就越小。然而较大的bins会降低检测的分辨率。由于reads数量符合二项分布，通过bins size和覆盖范围，可以计算出高斯噪音的水平。合适的bins size应该根据测序深度选择。

Normalization techniques

标准化的方法可以分为三大类：

收集一组相同实验流程的健康人样本。来自这组样本的bins可以作为正常的二倍体对照，以用于标准化。主要的缺点是要用到相当多的正常参考品；
无参法，通过人类参考基因组的 GC contetnt、mappablility来标准化，但是性能一般较差；
使用肿瘤和阴性对照法，可以正确区分出肿瘤特异性的突变。但是一个患者多个样本会有很多问题。

接下介绍主流工具使用的标准化方法

无参标准化方法

FREEC 对 bin-wise read count 和 GC content 进行多项式拟合，接着 mappability 信息用于过滤或者额外的标准化；
QDNAseq 使用loess fit 来同时校正 GC content 和 mappability bias；
BIC-seq2 认为 bins size 是标准化中一个特别重要的参数。

有参标准化

cn.MPOS，使用混合泊松分布。对每个位点使用单独生成的概率模型。
CNVkit，直接使用正常样本集合标准化对应的bins。除此之外，也使用了一些基本的样本内部标准化方法，可以有效消除样本自身的质量问题。使用 rolling median technique 来标准化content, repetitiveness and target density（对于WGS没影响）相似的区域。
WISECONDOR 有效解决了样本间的差异问题。参考样本数据不但直接用于bins 标准化（PCA），而且还确定了样本内部的bins参考对应。

黑名单过滤无信息位点

人类基因组中存在大量充满问题的重复区，如微卫星、中心粒、端粒会妨碍短序列比对的正确性。这些位点会使得数据标准化变得非常复杂。所以基本所有CNA软件都有一个黑名单来过滤这些区域。无参方法会预先设定一个列表而其它方法则会从参考样本中得出。

分割和异常检测

经过标准化和黑名单处理得到的基因图谱，被分割成不同区段。在每个区段里位点的拷贝数是相同的。理想情况下，对于常染色每个染色体在二倍体水平下形成一个区域，除非出现亚染色体水平的异常。接受度最高的分割方法是circular binary segmentation(CBS)。最后，通过统计学方法找出和参考有明显差异的区段。

材料与方法

样本和bin size选择

100个健康样本作为参考库。测试集使用20个健康人样本和20个拷贝数异常样本。NIPT组使用100kb的 bin，因为检测的异常大小在5Mb以上

DNA分离

血液收集后24h内4℃ 1600g离心10min，分离得到血浆。血浆再4℃ 16000g 离心10min 取上清。

文库准备

5ng上样，预计最低10million reads。

Circular binary segmentation

常染色体CBS使用DNAcopy R包。参数α（检测断点的P-value）设定为。每个segment至少包含两个bins。最后连续bins的平均值作为这个segement的ratio。

median sigment variance

观测median sigment variance（）作为噪音的衡量。定义为，一组sigment 对应的方差的中值。期望的median sigment variance（）和 bin size , read depth 成反比。

Constitutional aberration calling

染色体异常的计算使用尺度，用观察到的拷贝数和预期拷贝数的比率表示（CN）

异常检测的边界取有1/3的拷贝数差异。这样可以取到更多的真阳性结果。

结果

使用黑名单获得无偏差reads比率

噪音和标准化

测序深度对方差影响较大。除了覆盖度，标准化算法可能会忽视主要的偏差来源，导致对健康样本的整体平坦度，正态性和有限的噪声轮廓产生负面影响。样本总体平坦度和正态性可以分别通过profile-wide variance 和 Lilliefors normality test检测。两个值越小越好。

WISECONDOR's limitations

对性染色体的拷贝数检测效果不佳。WISECONDOR 使用 Stouffer’s z-score sliding window 的方法进行segment 并检测拷贝数异常。当bins size 很小时（15kb 运行了24h）这种算法运行很慢，而且当染色体有大量异常时会出错。尤其异常片段内的异常无法检测出来。

WisecondorX

改进版的程序使用相同的标准化方法，其它的改进如下：

性染色体检测：在参考品准备时，使用Y染色体片段，在高斯混合模型下训练数据，将男性和女性样本区分开。所有样本都使用以产生的常染色体参考，不同的性别组用于产生性染色体参考。当时，检测一个新样本时，会自动预测性别，并选择正确的参考。
Segmentation：使用CBS算法替代 Stouffer’s z-score sliding window。能够提高运行速度和检测效果。用参考集中的突变信息对CBS和区段z-score进行权重分析，通过这个方法可以对不太精确的bins 降低权值。
Bin-wise,segmentalandchromosomalz-scores.：在任意位点发生的变化，无关与大小，z-score的计算可以用下面的方程计算。

公式表示bins 从n 到m所组成的segment的z-score。利用参考构建时bins的差异程度得到的权重值来计数bins的均值。计算一般的均值和标准差。代表所检测样本在bins n处的reads ratio。表示参考集中第二例样本在同一位点的reads ratio，总共有p个健康参考样本。
异常检测：尽管可以计算z-scores ，用户也能自定义阈值，使用 ratios。诊断学的一个关键原则进一步支持这一方法:如果观察到与健康状态有微小偏差，就应该进行研究，而不考虑其统计意义。

讨论

低深度全基因组测序已经成为拷贝数变异检测（>10kb）的选择之一。和大多数其它的工具不同，WisecondorX并不是单纯基因统计学的过程来检测异常。文章认为，只有匹配到特定的分析类型时，这些操作得到的结论才是可靠的。

统计学的方法要适应检测的场景：对于NIPT,我们预计没有或者一个波动很小的偏差，算法需要把这种偏差检测出来；但是这种方式不能用于高度突变的肿瘤样本。此外，如果我们对本身存在的染色体异常感兴趣，对于NIPT，我们就需要检测到比胎儿DNA比例更高的变异幅度，而这种场景的变换是统计学无法优化的。最后要注意的是，在诊断背景下，显著性水平似乎不那么重要：一个可能的变异仍然应该被报告，即使没有达到用户定义的显著性水平。

WisecondorX 拷贝数变异检测 NGS NIPT

背景