DeepHPV:一个用于预测HPV整合人类基因位点的深度学习模型

文章出处及相关链接

出处:
Briefings in Bioinformatics
doi: 10.1093/bib/bbaa242
代码:https://github.com/JiuxingLiang/

所做工作

1:针对HPV位点整合开发了一款基于注意力机制的深度学习模型
2:发现加入RepeatMasker和TCGA Pan Cancer peaks特征后所训练出来的模型性能更加卓越
3:利用注意力机制对样本的权重分布进行分析

生物学背景

人乳头瘤病毒(HPV))是一种双链DNA病毒,在全球范围内导致约4.5%的癌症。HPV整合到人类基因组是癌症发展的重要一步,导致对宿主细胞有害的影响。
首先整合导致基因组不稳定,并在关键癌症相关基因中长生插入突变,为细胞的恶性转化提供了机会。第二整合的病毒原件可以作为附近癌基因的强顺势激活剂来促进肿瘤的发生。第三,病毒整合将产生病毒-融合转录物/蛋白质。
关于人类基因组插入突变是完全随机还是不随机的争论持续了几十年,近年来越来越多的证据表明,HPV倾向整合到宿主基因组的特定区域,并为生存选择发挥生长优势。

结果

作者开发了DeepHPV,一种基于注意力的深度学习模型,目的为准确预测HPV整合位点。此外还突出了注意力集中的区域。

方法

DeepHPV:一个用于预测HPV整合人类基因位点的深度学习模型_第1张图片

数据准备

通过dsVIS数据库(http://dsvis.wuhansoftware.com/)获的HPV整合位点的数据。通过两个方面对数据进行一个筛选。首先,由于dsVIS资源是基于下一代测序数据所构建的,作者分别选择了两个源的数据断点(1全基因组序列WGS数据,2通过捕获技术获得病毒WGS数据),其次为进一步筛选,作者设置软片段读书严格性>=3的断点。以确保数据的可靠性。

本研究采用的每个HPV整合位点都包含上下各1000个bp。为了保持数据平衡,并遵循HPV整合位点与非整合位点之间的自然不平衡,作者提取的负样本为正样本的两倍。

DeepHPV对于预测HPV整合位点的有效性

1)
通过采用从dsVIS数据源导出数据集,其软件剪辑读取数严格性>=3。作者获得了3608个HPV整合位点,并提取17871个正样本,35742个负样本,用于训练。然后使用dsVIS的文献/实验验证数据集(包含584个人HPV整合位点)用于准备测试集数据,以便在训练时调参。
使用以上数据集得到 AUROC为0.6336,AUPR为0.56703。

2)改进后
先前研究表明,HPV整合位点的选择可能与周围基因组特征有关(串联重复、组蛋白标记、CpG岛)。因此,作者通过在训练集中加入9个基因组特征对此实验。
结果表明 RepeatMasker peaks和TCGA Pan Cancer peaks对于性能有显著提升。
HPV整合序列+repeat时,AUPR达到0.7984,AUROC达到0.8464,ACC达到0.8161。
HPV整合序列+TGCA时,AUPR达到0.8106,AUROC达到0.8501,ACC达到0.7962。

3)模型比较
与模型DeepHINT(一种预测艾滋病HIV位点整合的深度学习模型)相比较,作者在其模型上使用相同的HPV整合序列和相同的基因组特征数据,进行了相同测试。
总体而言,每个测试结果显示,DeepHPV在HPV整合位点预测方面都优于DeepHINT。
DeepHINT的结果:
HPV整合序列+repeat时,AUPR达到0.4941,AUROC达到0.6474,ACC达到0.6556。
HPV整合序列+TGCA时,AUPR达到0.3554,AUROC达到0.5185,ACC达到0.8161。

DeepHPV:一个用于预测HPV整合人类基因位点的深度学习模型_第2张图片

Validation of DeepHPV using indep endent datasetin VISDB

HPV整合位点4662个,然后将其按位点扩张到长度为2000bp的样本。同样选取了9313个负样本。
sequences+Cancer : AUROC 0.7175, AUPR 0.6284 ,
sequences+repeat : AUROC 0.6102 AUPR 0.5577。

值得注意的是:在测试集(AUROC: 0.8501,AUPR: 0.8106)和独立测试数据集(AUROC: 0.7175,AUPR: 0.6284)的测试中,sequences+Cancer 模型具有最稳定的性能。

注意力机制用于权重分布的分析

DeepHPV:一个用于预测HPV整合人类基因位点的深度学习模型_第3张图片
每个索引代表3个bp位。水平线表示权重分配top前5。

讨论

  1. 虽然DeepHINT在性能上已经挺不错了,但是作者的DeepHPV的性能更好。其主要是在结构上有所不同,作者的模型应用了两层卷积,这也说明了卷积层数多可以提取到更多的特征。

2)与HPV整合位点相关的泛癌数据集中的突变可能表明在HPV病毒整合发生期间宿主-病毒相互作用。

你可能感兴趣的:(安全,windows,深度学习)