低测序深度WGS数据无对照样本,检测新生儿染色体异常工具
背景
产前检测,传统使用绒毛膜绒毛或羊水取样,进行核型分析。但是取样会造成约1%的流产概率。
研究表明,约3.4%~6.2%的胎儿cfDNA会出现在母亲的血浆中,且在整个基因组中呈现均一分布。这些片段已经足够用于检测胎儿的染色体异常。
目前使用NGS进行产前检测的一个缺陷是,每次在检测一组新的数据时需要配套检测健康的参考样本,以减少实验造成的影响,提高了检测成本。
本文介绍的这个工具开发了一种新的检测手段,通过样本内部的染色体片段频率的自我比较,解决实验上的浮动,从而可以实现,在低测序深度0.3fold,且无健康对照的情况下稳定可靠的染色体异常检测。
方法
构建参考bins 矩阵
构建参考bins 需要一组正常的样本,来确立每一个bin对应哪些参考bin集合;
-
将基因组拆分为等长的bin。
- 关于bin size大小的选取:
- 第i个bin的期望测序深度的据算公式 , b 是bin 的size 、h是样本的覆盖深度、l是read的长度、f是胎儿DNA在样本中的比例。
- 若h = 0.5 ,l = 50bp, b = 1Mb ,则bin 中期望的read数10,000 ,假设胎儿DNA占比5%,则大约每个bin里有500个胎儿reads。这个数量目前比较合适,太少会增加检测的难度,更高也没能提高检测效果,反而降低了检测分辨率。
使用GC含量标准化,确定bin中的reads 频率(LOWESS-局部加权回归散点平滑法)以降低reads频率的偏差来改善检测效果
-
计算target bin相对于其它bin的几何距离平方,并对该映射的所有阴性样本的值求和。
i 和j 的几何距离平方,s代表n个参考样本中的一个,是样本s在bin i 上的GC校正后的read 频率。
选用和Target bin来源不同的染色体的bin作为参照bin,以避免使用同一个异常区的bin作为参照;
相邻的参照bin,只取最小距离的,因为相邻的bin的表现会比较相似;
-
先人工设定一个最小的,计算得到;然后对每个Target bin 遍历对应的参考 bin,当距离超过 ,该bin从参考bin组中移除;然后重新计算并迭代处理。
将参考bin 数量低于10 的Target bin设定为无法检测区域,这样的区域大约有22.88%
图例展示
21号染色体上Target bin,所选择的参考bin 的分布情况:
亚染色体级别异常计算
使用z-score计算,测试样本每个bin,相对于该样本自身的参考bin区域的read 频率差异——individual bin method;
使用滑动窗口范围内的所有单个bin z-score联合计算Stouffer’s z-score —— sliding window method
individual bin method
z-score的计算公式
是测试样本第i个bin的偏离分值,是测试样本bin i 中的read 频率,是bin i在对应参考bin中的均值和标准差。当z-score,该bin 被标注为潜在异常。
为提高灵敏度,当确认一个bin为异常时,该bin 被存在列表L中,然后重新计算所有bin的z-score(参考bin 移除L 中的bin) 。重复这一过程直到L 不变或达到设定次数。
为了移除过多的相邻检出,允许合并检出的区域,中间隔几个bin(gap),称为 MaxBinSkip (文章使用 2个bin);此外,为了删除由几个碰巧彼此接近的峰值产生的检出,我们对发现的畸变bin的最小数量设置一个阈值MinLength(10 bins)。
sliding window method
individual bin method 灵敏度较低且易受峰值影响;
使用Stouffer’s z-score计算target bin附近的bins的z-score。
是在(silding window )bin i 上的z-score,考虑的是bin i 左方v 个bins 和右方的v 个bins。
当 时判断为异常:
是使用sliding window 方式计算出的bin i 的状态。
当存在无法检测的bin 在sliding window 时,忽略这些点,所以减少了window 中bin 的数量。该方法同样使用MaxBinSkip 和 MinLength 。文章中使用的sliding window 大小为 11 个bins(每个bin 1M)。
染色体级别异常计算
非整倍体突变的检测也是基于亚染色体检测的结果。当出现非整倍体变异时,该染色体上几乎所有的bin都会被标注为异常bin。一般会用一个阈值T作为判断标准。
是染色体c 判断的结果,是染色体c上所有可以用于检测的bin的数量,T是用户自己设定的阈值(本文0.5)。
质量评估
假设母亲血浆样本中胎儿的DNA的含量是~5%,则应该能够检测到至少5%的读频差异来检测出一个染色体区域的拷贝数变化。
这里引入一个AvgASD(average allowed deviation over all bins)概念,每个tagert bin,计算其参考bin集合的reads 频率标准差,并除以target bin的reads 频率,得到了一个reads频率的最小相对变化值。当所有Tagrt bin 中这些值平均AvgASD > 0.05,结果就会被认为不太可靠,因为此时要检测出来变异需要超过5%的reads频率变化。
高AvgASD 与reads 覆盖度无关但是会带来大量假阳性结果尤其19号染色体,GC-normalization可以显著降低AvgASD。
结果
文章取56名孕妇的血浆,并假设胎儿DNA占5%。使用hiseq2000 51bp单端测序,全基因组覆盖0.2~0.7 层,被测试的样本包含8个21三体、2个13三体、2个18三体、2个22三体和4例存在亚染色体缺失或dup。使用核型分析作为正确判断标准。测序结果使用mismatch1 拆分数据,map 基因组时不允许mismatch,超过一个map位置的reads会被丢弃。
数据准备
为了除去部分异常高深度的reads,用一个特制的过滤方法,去除大量重叠reads的所有reads,只保留第一个read。bin大小 1Mb, 500kb,250kb and 100kb都分别做了测试。其中1Mb的结果比较稳定,更小的bin szie会引入噪音和大的差异。GC-normalization是用Biopythons LOWESS function on the GC-count and read depth per bin . 所有的步骤,都省略了性染色体,因为比对到X和Y上的reads数量和婴儿的性别强相关。
讨论
对于WISECONDOR来说,19号染色体的检测比较困难,很可能因为GC含量比较高,比较难找到参考bin。
WISECONDOR基于的假设是,样本的基因组大部分区域都是正常的,所以当大部分基因都有变异时就无法正确工作,比如三倍体。
参考文献:
Straver R, Sistermans EA, Holstege H, Visser A, Oudejans CBM, Reinders MJT. WISECONDOR: detection of fetal aberrations from shallow sequencing maternal plasma based on a within-sample comparison scheme. Nucleic Acids Res 2014;42:e31.