三代SV检测软件之cuteSV

作者:大行山
审稿:童蒙
编辑:angelica

三代测序在检测基因组结构变异方面有着很大的优势,但是由于数据分析算法、软件还处于不断开发更新中,当前还没有公认推荐的软件。这里为大家推荐一款国人开发的,可以同时兼顾PacBio和ONT平台数据的SV检测软件cuteSV

一、背景

基因组结构变异(Structure variants, SV)在人类疾病,特别是罕见病中扮演了重要角色。当前,三代测序凭借其超长读长(一般超过了10 Kb)的优势,受到越来越多遗传病诊断人员的青睐。目前,关于三代数据SV的检测算法、软件还处于起步阶段,相比二代数据要少(如下图1),所以在这一块还有很大的开发空间。


图1 基于不同算法的SV软件检测chr8上的SV所需时间,其中LR为针对三代长度长测序的SV检测软件

今天我们推荐一个由国人开发的针对三代数据SV检测的软件—cuteSV。该软件同时支持目前三代测序领域的两大平台PacBio和ONT的数据,此外,还兼顾了PacBio测序平台的两种测序模式:CLR模式和CCS模式。最重要的是用户体验很好,速度快,性价比高。

二、软件简介

cuteSV的输入文件为排过序的比对bam文件。 其分析过程为:首先根据输入的比对结果分别检测5种SV类型的主要特征,然后根据特征结果对比对结果进行两轮聚类优化,最后进行SV鉴定和基因型检测。


图2 软件cuteSV检测SV的主要过程

作者比较了目前支持PacBio平台数据的几款软件,发现cuteSV在不同测序深度下,对CLR和CCS的数据表现都很好。


图3 不同软件检测SV的能力比较

三、软件安装

软件可以直接从GitHub上下载安装,非常方便。

$ pip install cuteSV
#or
$ conda install -c bioconda cutesv
#or
$ git clone https://github.com/tjiangHIT/cuteSV.git && cd cuteSV/ && python setup.py install

注意,该软件是用Python3版本编写的,内部调用了一些常用软件,提前安装好即可,特别以下几款软件是必须的:1. python3;2. pysam;3. Biopython;4. cigar;5. numpy;6. pyvcf。

四、软件使用

该软件同时支持3种类型的数据,不同类型数据使用了不同固定参数,一般选择默认即可。这里我们主要介绍第一种CLR类型的数据分析。

> For PacBio CLR data:
--max_cluster_bias_INS  100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 200
--diff_ratio_merging_DEL 0.5

> For PacBio CCS(HIFI) data:
--max_cluster_bias_INS  1000
--diff_ratio_merging_INS 0.9
--max_cluster_bias_DEL 1000
--diff_ratio_merging_DEL 0.5

> For ONT data:
--max_cluster_bias_INS  100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 100
--diff_ratio_merging_DEL 0.3

软件输入数据为比对好的bam文件,参考基因组的fa文件,输出SV文件,分析目录(该目录主要用于保存中间文件)。
cuteSV

其他参数说明如下,这里作者不仅给出了参数说明,还非常友好指出了每个参数的默认参数,对于一般分析人员而言,使用默认参数即可。


五、软件实测

为了检测软件的性能,我们使用了30X的CLR数据进行测试。

运行命令如下:

bin/cuteSV \
--max_cluster_bias_INS 100 
--diff_ratio_merging_INS 0.3 
--max_cluster_bias_DEL 200 
--diff_ratio_merging_DEL 0.5 \ #固定默认参数
--threads 8 
--sample test 
--retain_work_dir 
--report_readid 
--min_support 10 
--min_size 50\ #自定义参数
test.sorted.bam test.SV.vcf tmp_dir #输入输出文件定义

分析结果如下,INS和DEL类型的SV同样占主要比例,与其他软件结果类似。


图4 SV结果统计

六、其他注意事项

  1. 该软件目前只支持5种基本类型的SV,包括INS、DEL、INV、DUP、BND,对于复杂类型的SV暂时不支持。
  2. 软件cuteSV检测到的SV同样包含IMPRECISE标签的SV,为了保证SV的准确性,减轻后期分析压力,可以考虑只保留PRECISE标签的SV。

七、参考资料

    1. Kosugi, S. et al. Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing. Genome Biol. 20, 8–11 (2019).
    1. Jiang, T. et al. Long-read-based human genomic structural variation detection with cuteSV. Genome Biol. 21, 1–24 (2020).
  • 3.软件GitHub地址: https://github.com/tjiangHIT/cuteSV

你可能感兴趣的:(三代SV检测软件之cuteSV)