低测序深度WGS数据无对照样本，检测新生儿染色体异常工具

背景

产前检测，传统使用绒毛膜绒毛或羊水取样，进行核型分析。但是取样会造成约1%的流产概率。

研究表明，约3.4%~6.2%的胎儿cfDNA会出现在母亲的血浆中，且在整个基因组中呈现均一分布。这些片段已经足够用于检测胎儿的染色体异常。

目前使用NGS进行产前检测的一个缺陷是，每次在检测一组新的数据时需要配套检测健康的参考样本，以减少实验造成的影响，提高了检测成本。

本文介绍的这个工具开发了一种新的检测手段，通过样本内部的染色体片段频率的自我比较，解决实验上的浮动，从而可以实现，在低测序深度0.3fold，且无健康对照的情况下稳定可靠的染色体异常检测。

方法

构建参考bins 矩阵

构建参考bins 需要一组正常的样本，来确立每一个bin对应哪些参考bin集合；

将基因组拆分为等长的bin。
- 关于bin size大小的选取：
- 第i个bin的期望测序深度的据算公式， b 是bin 的size 、h是样本的覆盖深度、l是read的长度、f是胎儿DNA在样本中的比例。
- 若h = 0.5 ,l = 50bp, b = 1Mb ,则bin 中期望的read数10,000 ,假设胎儿DNA占比5%，则大约每个bin里有500个胎儿reads。这个数量目前比较合适，太少会增加检测的难度，更高也没能提高检测效果，反而降低了检测分辨率。
使用GC含量标准化，确定bin中的reads 频率（LOWESS-局部加权回归散点平滑法）以降低reads频率的偏差来改善检测效果
计算target bin相对于其它bin的几何距离平方，并对该映射的所有阴性样本的值求和。

i 和j 的几何距离平方，s代表n个参考样本中的一个，是样本s在bin i 上的GC校正后的read 频率。
- 选用和Target bin来源不同的染色体的bin作为参照bin，以避免使用同一个异常区的bin作为参照；
- 相邻的参照bin，只取最小距离的，因为相邻的bin的表现会比较相似；
- 先人工设定一个最小的，计算得到；然后对每个Target bin 遍历对应的参考 bin，当距离超过，该bin从参考bin组中移除；然后重新计算并迭代处理。
  
  企业微信截图_16129422205828.png
  
  将参考bin 数量低于10 的Target bin设定为无法检测区域，这样的区域大约有22.88%
图例展示

企业微信截图_20210210153530.png

21号染色体上Target bin，所选择的参考bin 的分布情况：

企业微信截图_16137982444594.png

亚染色体级别异常计算

使用z-score计算，测试样本每个bin，相对于该样本自身的参考bin区域的read 频率差异——individual bin method；

使用滑动窗口范围内的所有单个bin z-score联合计算Stouffer’s z-score —— sliding window method

individual bin method

z-score的计算公式

是测试样本第i个bin的偏离分值，是测试样本bin i 中的read 频率，是bin i在对应参考bin中的均值和标准差。当z-score，该bin 被标注为潜在异常。

为提高灵敏度，当确认一个bin为异常时，该bin 被存在列表L中，然后重新计算所有bin的z-score（参考bin 移除L 中的bin）。重复这一过程直到L 不变或达到设定次数。

为了移除过多的相邻检出，允许合并检出的区域，中间隔几个bin（gap），称为 MaxBinSkip （文章使用 2个bin）；此外，为了删除由几个碰巧彼此接近的峰值产生的检出，我们对发现的畸变bin的最小数量设置一个阈值MinLength（10 bins）。

sliding window method

individual bin method 灵敏度较低且易受峰值影响；

使用Stouffer’s z-score计算target bin附近的bins的z-score。

是在（silding window ）bin i 上的z-score，考虑的是bin i 左方v 个bins 和右方的v 个bins。

当时判断为异常：

是使用sliding window 方式计算出的bin i 的状态。

当存在无法检测的bin 在sliding window 时，忽略这些点，所以减少了window 中bin 的数量。该方法同样使用MaxBinSkip 和 MinLength 。文章中使用的sliding window 大小为 11 个bins（每个bin 1M）。

染色体级别异常计算

非整倍体突变的检测也是基于亚染色体检测的结果。当出现非整倍体变异时，该染色体上几乎所有的bin都会被标注为异常bin。一般会用一个阈值T作为判断标准。

是染色体c 判断的结果，是染色体c上所有可以用于检测的bin的数量，T是用户自己设定的阈值（本文0.5）。

质量评估

假设母亲血浆样本中胎儿的DNA的含量是~5%，则应该能够检测到至少5%的读频差异来检测出一个染色体区域的拷贝数变化。

这里引入一个AvgASD（average allowed deviation over all bins）概念，每个tagert bin，计算其参考bin集合的reads 频率标准差，并除以target bin的reads 频率，得到了一个reads频率的最小相对变化值。当所有Tagrt bin 中这些值平均AvgASD > 0.05，结果就会被认为不太可靠，因为此时要检测出来变异需要超过5%的reads频率变化。

高AvgASD 与reads 覆盖度无关但是会带来大量假阳性结果尤其19号染色体，GC-normalization可以显著降低AvgASD。

结果

文章取56名孕妇的血浆，并假设胎儿DNA占5%。使用hiseq2000 51bp单端测序，全基因组覆盖0.2~0.7 层，被测试的样本包含8个21三体、2个13三体、2个18三体、2个22三体和4例存在亚染色体缺失或dup。使用核型分析作为正确判断标准。测序结果使用mismatch1 拆分数据，map 基因组时不允许mismatch，超过一个map位置的reads会被丢弃。

数据准备

为了除去部分异常高深度的reads，用一个特制的过滤方法，去除大量重叠reads的所有reads，只保留第一个read。bin大小 1Mb, 500kb,250kb and 100kb都分别做了测试。其中1Mb的结果比较稳定，更小的bin szie会引入噪音和大的差异。GC-normalization是用Biopythons LOWESS function on the GC-count and read depth per bin . 所有的步骤，都省略了性染色体，因为比对到X和Y上的reads数量和婴儿的性别强相关。

讨论

对于WISECONDOR来说，19号染色体的检测比较困难，很可能因为GC含量比较高，比较难找到参考bin。

WISECONDOR基于的假设是，样本的基因组大部分区域都是正常的，所以当大部分基因都有变异时就无法正确工作，比如三倍体。

参考文献：
Straver R, Sistermans EA, Holstege H, Visser A, Oudejans CBM, Reinders MJT. WISECONDOR: detection of fetal aberrations from shallow sequencing maternal plasma based on a within-sample comparison scheme. Nucleic Acids Res 2014;42:e31.

WISECONDOR NGS 检测CNV 介绍

背景

方法