WISECONDOR NGS 检测CNV 介绍

低测序深度WGS数据无对照样本,检测新生儿染色体异常工具

背景

产前检测,传统使用绒毛膜绒毛或羊水取样,进行核型分析。但是取样会造成约1%的流产概率。

研究表明,约3.4%~6.2%的胎儿cfDNA会出现在母亲的血浆中,且在整个基因组中呈现均一分布。这些片段已经足够用于检测胎儿的染色体异常。

目前使用NGS进行产前检测的一个缺陷是,每次在检测一组新的数据时需要配套检测健康的参考样本,以减少实验造成的影响,提高了检测成本。

本文介绍的这个工具开发了一种新的检测手段,通过样本内部的染色体片段频率的自我比较,解决实验上的浮动,从而可以实现,在低测序深度0.3fold,且无健康对照的情况下稳定可靠的染色体异常检测。

方法

构建参考bins 矩阵

构建参考bins 需要一组正常的样本,来确立每一个bin对应哪些参考bin集合;

  1. 将基因组拆分为等长的bin。

    • 关于bin size大小的选取:
    • 第i个bin的期望测序深度的据算公式 , b 是bin 的size 、h是样本的覆盖深度、l是read的长度、f是胎儿DNA在样本中的比例。
    • 若h = 0.5 ,l = 50bp, b = 1Mb ,则bin 中期望的read数10,000 ,假设胎儿DNA占比5%,则大约每个bin里有500个胎儿reads。这个数量目前比较合适,太少会增加检测的难度,更高也没能提高检测效果,反而降低了检测分辨率。
  2. 使用GC含量标准化,确定bin中的reads 频率(LOWESS-局部加权回归散点平滑法)以降低reads频率的偏差来改善检测效果

  3. 计算target bin相对于其它bin的几何距离平方,并对该映射的所有阴性样本的值求和。

    i 和j 的几何距离平方,s代表n个参考样本中的一个,是样本s在bin i 上的GC校正后的read 频率。

    • 选用和Target bin来源不同的染色体的bin作为参照bin,以避免使用同一个异常区的bin作为参照;

    • 相邻的参照bin,只取最小距离的,因为相邻的bin的表现会比较相似;

    • 先人工设定一个最小的,计算得到;然后对每个Target bin 遍历对应的参考 bin,当距离超过 ,该bin从参考bin组中移除;然后重新计算并迭代处理。

      企业微信截图_16129422205828.png

      将参考bin 数量低于10 的Target bin设定为无法检测区域,这样的区域大约有22.88%

    图例展示

    企业微信截图_20210210153530.png

    21号染色体上Target bin,所选择的参考bin 的分布情况:

企业微信截图_16137982444594.png

亚染色体级别异常计算

使用z-score计算,测试样本每个bin,相对于该样本自身的参考bin区域的read 频率差异——individual bin method;

使用滑动窗口范围内的所有单个bin z-score联合计算Stouffer’s z-score —— sliding window method

individual bin method

z-score的计算公式

是测试样本第i个bin的偏离分值,是测试样本bin i 中的read 频率,是bin i在对应参考bin中的均值和标准差。当z-score,该bin 被标注为潜在异常。

为提高灵敏度,当确认一个bin为异常时,该bin 被存在列表L中,然后重新计算所有bin的z-score(参考bin 移除L 中的bin) 。重复这一过程直到L 不变或达到设定次数。

为了移除过多的相邻检出,允许合并检出的区域,中间隔几个bin(gap),称为 MaxBinSkip (文章使用 2个bin);此外,为了删除由几个碰巧彼此接近的峰值产生的检出,我们对发现的畸变bin的最小数量设置一个阈值MinLength(10 bins)。

sliding window method

individual bin method 灵敏度较低且易受峰值影响;

使用Stouffer’s z-score计算target bin附近的bins的z-score。

是在(silding window )bin i 上的z-score,考虑的是bin i 左方v 个bins 和右方的v 个bins。

当 时判断为异常:

是使用sliding window 方式计算出的bin i 的状态。

当存在无法检测的bin 在sliding window 时,忽略这些点,所以减少了window 中bin 的数量。该方法同样使用MaxBinSkip 和 MinLength 。文章中使用的sliding window 大小为 11 个bins(每个bin 1M)。

染色体级别异常计算

非整倍体突变的检测也是基于亚染色体检测的结果。当出现非整倍体变异时,该染色体上几乎所有的bin都会被标注为异常bin。一般会用一个阈值T作为判断标准。

是染色体c 判断的结果,是染色体c上所有可以用于检测的bin的数量,T是用户自己设定的阈值(本文0.5)。

质量评估

假设母亲血浆样本中胎儿的DNA的含量是~5%,则应该能够检测到至少5%的读频差异来检测出一个染色体区域的拷贝数变化。

这里引入一个AvgASD(average allowed deviation over all bins)概念,每个tagert bin,计算其参考bin集合的reads 频率标准差,并除以target bin的reads 频率,得到了一个reads频率的最小相对变化值。当所有Tagrt bin 中这些值平均AvgASD > 0.05,结果就会被认为不太可靠,因为此时要检测出来变异需要超过5%的reads频率变化。

高AvgASD 与reads 覆盖度无关但是会带来大量假阳性结果尤其19号染色体,GC-normalization可以显著降低AvgASD。

结果

文章取56名孕妇的血浆,并假设胎儿DNA占5%。使用hiseq2000 51bp单端测序,全基因组覆盖0.2~0.7 层,被测试的样本包含8个21三体、2个13三体、2个18三体、2个22三体和4例存在亚染色体缺失或dup。使用核型分析作为正确判断标准。测序结果使用mismatch1 拆分数据,map 基因组时不允许mismatch,超过一个map位置的reads会被丢弃。

数据准备

为了除去部分异常高深度的reads,用一个特制的过滤方法,去除大量重叠reads的所有reads,只保留第一个read。bin大小 1Mb, 500kb,250kb and 100kb都分别做了测试。其中1Mb的结果比较稳定,更小的bin szie会引入噪音和大的差异。GC-normalization是用Biopythons LOWESS function on the GC-count and read depth per bin . 所有的步骤,都省略了性染色体,因为比对到X和Y上的reads数量和婴儿的性别强相关。

讨论

对于WISECONDOR来说,19号染色体的检测比较困难,很可能因为GC含量比较高,比较难找到参考bin。

WISECONDOR基于的假设是,样本的基因组大部分区域都是正常的,所以当大部分基因都有变异时就无法正确工作,比如三倍体。

参考文献:
Straver R, Sistermans EA, Holstege H, Visser A, Oudejans CBM, Reinders MJT. WISECONDOR: detection of fetal aberrations from shallow sequencing maternal plasma based on a within-sample comparison scheme. Nucleic Acids Res 2014;42:e31.

你可能感兴趣的:(WISECONDOR NGS 检测CNV 介绍)