Aperture软件:不依赖比对算法精确检测ctDNA中的结构变异和病毒整合

image.png

1 简介

这是中国医学科学院王晓月教授课题组2021年11月发表于《Briefings in Bioinformatics》上的一篇文章,主要介绍了新开发的ctDNA结构变异检测软件Aperture。ctDNA中SV和病毒检测是肿瘤精准医疗中的重要步骤,它有助于癌症监测和治疗方案的选择。由于ctDNA片段较短,在检测低频SVs以及复杂SVs时存在极大的困难。这篇文章介绍了Aperture软件,一种快速的SV 检测软件,它利用k-mer进行搜索、二进制label进行断点检测及断点聚类、利用UMI进行consensus。通过对ctDNA模拟数据、标准数据集、真实数据集的测试,Aperture软件相对于其他SV软件具有较高的灵敏度和特异性,特别是在跨越断点的重复区域。具体代码和说明见:https://github.com/liuhc8/Aperture

2 背景

1、大多数依赖于比对的SV检测软件:GRIDSS、Lumpy、SvABA、DELLY、CREST,利用配对reads或者部分序列(softclip)比对到不同位置进行SV检测。由于ctDNA片段较短,依赖比对的SV 检测工具在检测复杂SVs变异,特别是重复区域变异时存在很大的困难。目前的比对软件 BWA 在基因组重复区域的比对并不高效,不一定会输出最高质量的比对结果,这也限制了依赖比对的SV检测软件获得正确的断点信息。
2、Aperture 软件输入为原始的FASTQ文件,采用k-mer依赖的方法在3个不同的库中进行快速断点查找。断点快速检测采用的二进制标签的方法。最终输出结果包括断点位置,分子数,比对质量值这些信息。
3、Aperture在与SV caller 进行对比时,在稀释至0.1%-10%范围内都有较高的灵敏度和特异性。在三个真实cfDNA数据集中,Aperure 检出了其他工具没有检出的HBV病毒整合到TERT启动子区域的位点, 并且检测到了包括重复序列区域的重排变异。Aperture 采用JAVA语言编写,并采用了多线程的方式。

3 算法实现

3.1 算法过程

(1)将参考基因组分成2500bp的大小,首先构建基因组 23-mer 序列与二进制labels相对应的文库,记录基因组的位置信息,如果基因组区域23-mer文库序列不唯一,构建41-mer文库和间隔种子序列文库(含有通配符可以精确匹配更长的重复区域)。参考基因组kmer库只需构建一次,后期可以多次使用。如图1 A所示
(2)由于ctDNA片段较短,PE reads 先进行合并,然后再切 23-mer 与23-mer文库、41-mer文库、spaced-seeds文库进行比对。(确定reads在基因组的大致位置)。如图1 B所示
(3)bitwise AND这个类似于局部比对,能找到发生融合reads。如图1C 所示
(4)对融合位点相同的reads进行聚类,并根据聚类信息,去除测序错误、PCR错误以及突变。如图1DE所示
(5)为了提高特异性,会对所有k-mer的比对质量以及支持k-mer的reads数量进行评估


image.png

3.2 k-mer文库构建

(1)构建基因组和反向互补基因组 23k-mer库,并进行排序。排序时为了减少内存限制,连续的3个k-mer,只取第一个进行排序。
(2)除了k-mer,每个k-mer对应的基因组位置也进行了排序
(3)将参考基因组分割成30000-65000bp的长度(Bloom Filter),随机给每个segment分配一个32-bit的二进制label(含有5个1),记录每个k-mer相对于segment的偏移量,精确记录基因组的位置。为了排除k-mer查找时,基因组突变的影响,dbSNP数据库也加入了23-mer的文库。
(4)对所有的k-mers文库进行快速排序、去重。

3.3 reads过滤,reads合并,k-mer依赖的结果查询

对低质量的reads进行过滤,对PE reads进行合并,在k-mer字符串查找时也采用了加速算法

3.4 SV 断点的检测和候选reads聚类

通过上一步的k-mer查询可以获得reads的归属位置,如果一个reads含有不同的片段,就会对reads进行记录,同时对所有相同断点的reads进行汇总。去除测序错误、PCR错误以及突变。如图2所示


image.png

3.5 根据barcode过滤cfDNA数据

这里定义基因组结构变异为整合或插入缺失的基因组片段要大于50bp,所以Aperture软件对小于50bp的序列进行了过滤。对于没有SR支持的序列,VCF文件中标记为了“FAKE_BP”,这些可能是重复区域的假阳性融合。
C :含有不同barcode序列的分子数
U :只含有一条reads支持的barcode分子数
R=(C-U)/2 :用于评估聚类的可靠性

4 结果

4.1 模拟ctDNA数据集各软件的比较

1、利用RSVSim(R包用于模拟结构变异)软件进行模拟cfDNA 融合数据。Wessim2 软件用于模拟捕获数据。在10%稀释数据集中,Aperture 有最高的灵敏度(77.5%)和最高的精确度(91.1%)。Aperture 有最高的F1-score(0.838)。在1%稀释数据集中,Aperture同样有最高的灵敏度和精确度,以及最高的F1-score。如图图3AB所示。
2、在10%稀释数据集中,Aperture检出了14 个独有的真阳性变异。这些reads支持中含有不完整的断点支持,只有一端有断点支持。这些独自检出的变异中还有一些断点处于重复区域,这些归因于Aperture采用了独特的k-mer查找的方案,搜索了三个不同的文库。Delly检测到了23个独有的真阳性变异,其中21个是倒位(INV),仔细核查原因后是Delly软件对倒位的要求较低。如图3C所示。
3、为了检测Aperture软件在超低频的表现,构建了稀释至0.8%,0.6%,0.4%,0.2%,0.1% 的梯度稀释数据集,Aperture都表现良好。如图3DE所示
4、在真实数据集和模拟数据集中,Aperture 需要较少的计算资源,但是能达到较快的速度。这些还是在不包括比对和排序的情况下。

image.png

image.png

补充PPV和灵敏度及F1-score的计算方法:
image.png

4.2 标准数据集中的表现

HD786的检测,能检测到两个大于50bp的SLC34A2/ROS1 和 CCDC6/RET 融合。

4.3 肺癌病人中ALK 融合的灵敏度和特异性用于癌症病人治疗监测

为了检测Aperture在真实癌症病人中的表现,对非小细胞肺癌患者的EML4-ALK 融合进行了检测。在这个研究中,患者接受了ALK抑制剂克挫替尼的治疗,文章对接受药物治疗到发生抗药性阶段的5个时间点进行了取样观测,所有样本都进行了UMI 超高深度测序。A1阶段是刚确EML4-ALK 阳性肺癌并接受药物治疗的阶段,Aperture, Lumpy, Delly and SViCT 对融合都进行了检出。但是,GRIDSS 初始结果检出,但没有通过他们的过滤条件。SvABA 和 CREST 在初始结果中都没有检出。A2阶段是接受克挫替尼治疗20天,Aperture和一些软件还可以检测到,这一阶段血清中的融合的比例较大的下降。在A3阶段所有样品都没检测到融合。在A4阶段,只有Aperture检测到了新的EML4-ALK(E20:E1)融合。在A5阶段,发生了药物抗性,所有软件都没有检测到EML4-ALK融合。在特异性方面,Apeture 获得最少的总支持数,具有较高的特异性。


image.png

4.4 检测肺癌病人样品中的复杂NTRK融合

NTRK 融合基因最近成为癌症免疫治疗的靶标,利用2例肺癌病人的血清,评估了对NTRK基因的检测。如表2所示:其中B1样本,TPR-NTR1融合所有软件都进行了检出。B2样本只有Aperture和GRIDSS软件能检出LMNA-NTRK1融合,通过对融合reads进行比对发现LMNA-NTRK1融合对儿包括9bp的插入序列和30bp的重复序列,如图4所示。其他SV callers 软件没有检出的原因可能是,比对软件会将重复区域序列判断为低比对质量,对该比断点进行过滤。此外,LMANA 基因并不在panel 的捕获范围内,reads覆盖会更低,更增加了检测的难度。


image.png
image.png

4.5 在肝癌cfDNA样本中检测整合至TERT基因中的HBV序列

HBV序列整合至癌症相关基因,在促进肿瘤发生过程中具有重要的作用。为了评估Aperture在病毒整合方面的表现,选择了3个肝癌病人(HBV整合在TERT基因)的血清进行检测。cfDNA 数据集使用针对TERT 启动子区域的panel 进行检测。与基因组SV检测不同,HBV病毒的基因组需要事先包括在参考基因组序列中。
如表3所示,Aperture、Lumpy 和 Delly 都有HBV整合检出能力,只有Aperture软件在3个样品中对HBV-TERT整合都进行了检出。


image.png

5 讨论

1、由于测序错误和错配,依赖比对的SV 检测方法可能会产生较多的假阳性,特别是在重复序列区域。为了提高检测的准确性,Aperture采用了独特的k-mer搜索的方法用于断点的检测。与构建单一的k-mer文库不同(ChimeRscope软件),文章构建了三个不同长度的k-mer文库用于k-mer的搜索。如果一个read 覆盖了重复区域,较短的k-mers不能进行匹配时,会采用较长的k-mers 重匹配到41-kmer文库和间隔种子文库。考虑到比对过程中会有错配的干扰,文章还构建了23-mers包含SNP位点的文库(db-SNP包含了已知的变异位点)。
2、与为所有区域分配所有可能的K-mer来源不同(这种情况重复区域会消耗大量的内存),文章开发了一种唯一固定二进制标签的系统。在这个系统中,Aperture可以检测断点用novo-kmers(无重复) 和 重复k-mer。NovaBreak 只能检测novo-kmer,一般的融合在断点处至少有k个nova-kmers,但是对于重复区域的融合,novo-kmers 数量会严重下降,这时可以利用重复k-mer来确认断点的位置。对于重复区域,Aperture软件会选择跨越重复区域,直到确认唯一的基因组位置为止。
3、依赖于组装的SV检测方法具有广泛的用途,这是因为较短的reads可以组装成较长的contig,这样可以更准确的比对到基因组,使SV检测更加灵敏。但是,ctDNA长度比较短,只有166bp,组装的方法不适用于ctDNA数据的检测。此外,序列组装会消耗大量的计算资源。

6 参考文献

[1] Aperture: alignment-free detection of structural variations and viral integrations in circulating tumor DNA. Hongchao Liu, Huihui Yin, Guangyu Li, Junling Li, Xiaoyue Wang. Brief Bioinform. 2021;bbab290. doi:10.1093/bib/bbab290

你可能感兴趣的:(Aperture软件:不依赖比对算法精确检测ctDNA中的结构变异和病毒整合)