基于short reads的结构变异鉴定工具的综合评价

本文的部分内容来源于“Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software”这篇文章,如有兴趣,可阅读文章原文。

摘要

近年来,已经发布了许多使用全基因组测序数据来鉴定SV的软件包。在发布时,通常将一种新工具与已有的工具进行比较,但这种比较往往是选择性的. 由于没有全面的对这些工具进行比较分析, 这也给用户带来了一些选择困难. 因此, 文章对10个SV鉴定工具进行了综合评估,这些评估的工具都是经过了严格的选择的,并且使用高质量的测序数据以及模拟方法。由于可用数据集的性质,文章主要重点是通用的SV鉴定工具而非体细胞SV鉴定工具。文章分析了SV事件大小和类型,测序数据特点和基因组特征对SV工具性能的影响,并分析鉴定结果和SV鉴定质量。最后,文章还为用户和相关开发人员提供了一些建议。

主要结果

工具的选择

文章中选择了自2010年以来发表的高引用率的SV鉴定工具且适用于一般的SV鉴定, 排除了那些仅适用于正常组织和肿瘤组织配对数据的工具, 最后仅筛选出10个工具用于进一步的比较评价分析.

对一些明确特征的细胞系数据的总体性能

该部分分析的主要结论是, 与单核苷酸变异(SNV)的鉴定不同,SV鉴定工具鉴定变异的合子的鲁棒性很好,并且变异单倍型的覆盖率是SV鉴定的决定因素。数据集之间鉴定率的巨大差异可以归因于所使用的数据集的全面性。


image

对理想数据集的性能评价

在对每个工具在不同的SV事件大小, 不同SV类型和测序参数进行全面的多维模拟后, 如果检测大的插入, 需要从头进行组装才能检测出,而检测小的SV事件则需要进行SR分析或组装。对于基于PE的工具,reads长度和片段大小之间的相互作用非常复杂:增加reads长度,减小片段中值长度和缩小片段大小分布都可以检测到较小的SV事件.

一些工具并不能鉴定出所有的SV类型, 比如CREST, DELLY, HYDRA 和 LUMPY就不能鉴定出倒位和串联重复. 对于任何SV类型和片段大小, cortex和CREST都没有较好的检测灵敏度, 而Pindel无法检测到1kb的缺失和2kb的重复.

序列前后和事件大小对检测准确性的影响

在所有的工具中,靠近断点的SNV或插入/缺失的存在与检测精度相关:与两个或多个较小的变异相比,具有两个或多个较小变异的工具具有更高的FDR。同样,在低复杂度,简单或短串联重复(STR)区域中发生的SV对所有工具的准确性都较低。总体来说, 工具通常不受DNA,LINE和SINE等重复序列的影响,在LTR重复序列区域中FDR升高.


image

运行时间评估

如果工具是基于组装的策略进行鉴定SV, 那么速度一般是较慢的, 如果是其他的鉴定策略, 那么速度则会较快.

讨论

作者对于用户和开发人员给出了一些选择, 使用SV工具和开发SV工具的一些意见和建议, 这里仅列举下对于用户的建议:

  • 选择使用那些采取多个策略进行SV检测的工具
    使用最新的方法并且结合了多个SV检测策略的工具, 最好还能支持单碱基分辨率水平的SV的检测(比如SR策略). 在断点处包含基于组装的鉴定方法的准确性要优于其他方法. 在理想情况下, 要使用可以检测微同源性和非模板序列插入的方法. 因此, 可以选择Manta和GRIDSS工具.

  • 选择能够检测所有SV类型的工具
    某些SV的检测工具仅能检测出某些类型的重组, 从而忽略了其他的SV类型. GRIDSS,HYDRA和SOCRATES可以检测出SV的断点. 另一方面,即使仅存在倒位所需的两个断点之一,BreakDancer,DELLY和Pindel也会检测出倒位事件, 这些工具是不适合分析那些复杂的SV类型的。

  • 集成多个工具的检测也并不是万能的
    在作者的测试中, 集成多个工具的检测结果并不比单独的检测工具的结果好. 如果想集成多个检测工具, 最好选择最近发表的基于组装策略的SV检测工具, 比如GRIDSS和manta.
    使用集成的工具的另一个选择是可以使用一些已有的流程化的工具, 如MetaSV, SVMerge和SpeedSeq. 也可以使用更复杂的方法集成多个工具, 如机器学习, 但现在还没有现成的工具.

  • 不要使用基于PE方法的工具
    现在仅依赖于PE策略的检测方法是不完美的, 较长的reads和较短的reads允许检测较小的SV,但以降低信号强度为代价。至关重要的是,当从同一片段读取的数据开始重叠时(即,当片段大小小于reads长度的两倍时),PE方法的效果急剧下降.

  • reads数异常高的检测结果可能是参考基因组/比对异常造成的
    对于所有的工具(除manta外),具有非常高的打分和reads数覆盖的检测结果绝大多数都是假阳性结果。此类结果通常是由参考基因组比对错误引起的,用户最好过滤掉高覆盖率的结果。

  • 使用专门的工具进行简单,串联和低复杂度重复序列的鉴定
    尽管Pindel和manta在检测具有长同源性的SV方面明显优于其他工具, 但是当前的工具仍不能准确地检测简单或串联重复序列, 这需要专门地工具.

相关脚本

所有的脚本可以在GitHub上找到.

一些SV检测工具列举如下:


image

image

image

image

image

参考

  • Cameron, D.L., Di Stefano, L. & Papenfuss, A.T. Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software. Nat Commun 10, 3240 (2019). https://doi.org/10.1038/s41467-019-11146-4

你可能感兴趣的:(基于short reads的结构变异鉴定工具的综合评价)