论文笔记:DeepDTA: deep drug–target binding affinity prediction Hakime

 

DeepDAT

 

动机:药物靶标对相互作用的研究是新药物过程的重要过程,此前大多数研究集中于二分类,即药物-靶标是是相互作用,

但是蛋白质配体的结合亲和力是连续值,预测该值是一个难题。

之前也少数研究,是基于蛋白质-配体复合物的3D就或化合物的2D特征

 

方法:本实验采用蛋白质和化合物的原始一维序列进行基于CNN的建模进行绑定亲和力的预测

 

采用回归模型,能够预测相互作用强度的近似值×

蛋白质-配体评分:×

 

非机器学习方法:随机森林 --->失败,推测原因,使用了简化的蛋白质-配体的描述导致信息丢失

深度学习方法:二分类预测、堆叠式自动编码器等等

传统机器学习方法:Kronecker正则最小二乘(KronRLS)算法、SimBoost

 

本实验仅仅使用蛋白质和配体的序列(一维表示)

蛋白质和smiles表示化合物的的序列,而不是2D特征或3D结构

首先使用CNN分别从原始蛋白质序列和SMILES字符串中学习表示形式,

然后将这些表示形式组合到一个称为DeepDTA的完全连接的层块中。

 

亲和力:解离常数、抑制常数、IC50……

数据集有两个:

Davis,包含442种蛋白质和68个配体的相互作用,Kd解离常数

KIBA,结合了Ki,Kd,IC50,467个靶标和52498中药物,产生共229种独特蛋白质和2111种药物

 

数据的标准化:

Davis 化合物根据Pubchem CID分子库中提取SMILES字符串,平局长度64,最大103

KIBA 化合物根据CHEMBL ID(活性小分子数据库)转换成Pubchem CID,然后再获得SMILES字符串,最大590,平均58

 

Davis蛋白质序列是在Uniprot蛋白数据库中提取的( names/RefSeq )最大2549,平均788

KIBA蛋白质序列是从靶标的UniPort IDs收集到的,最大4128,平均728

 

99%  s-w相似性60%

92% 靶标相似性相似性60%

两个数据非常冗余

 

数据输入的标准化:

采用整数/标签编码

从Pubchem收集的2M Smile 序列64个标签  例如 C N O =

对于蛋白质序列,从UniPort蛋白数据库中550k蛋白质序列提取25个类别

Davis,SMILES固定长度85,蛋白质1200  输入(85,128)(1200,128)

KIBA,SMILES固定长度100,蛋白质1000 ,长的截取,短的0补充 (100,128)(1000,128)

 

模型的结构:CNN模块和DeepDTA

CNN:两个CNN块,每个卷积块使用三个连续一级的卷积层,filter数量线性增加32x1 32x2 32x3,之后再最大池化

两个CNN块,通过合并喂入,DeepDTA模块,DeepDTA是三个全连接层,并且层层之间引入Dropout=0.1防止过拟合,最后得到输出

(节点数1024 1024 512)

 

激活函数采用ReLu,由于是回归模型,损失函数采用均方误差

 

训练:100epochs  最小的batch size256 优化器采用Adam 学习率为0.001

 

试验和结果:

采用一致性指数衡量性能,与此论文时最新技术比较即,KronRLS回归算法和SimBoost

还有均方差 MSE

微调了滤波器数量,交叉验证实验中最好的是32个

实验结果中蛋白质结果不是很好,但是两者组合确很好

 

rm^2指数可用于评估QSAR(描述分子结构和分子的某种生物活性之间的关系)模型的外部预测性能 越大越好

AUPR  召回率和正确率组成的曲线图,曲线下方的面积,用来衡量不平衡数据集中模型性能的评估标准 越大越好

 

结论:

DeepDTA模块不足以描述蛋白质-配体的相互作用,即亲和力关系,要同基于原始序列学习蛋白质和药物化合物的CNN块相结合性能会大大提高。

更可能适应处理有序结构的氨基酸序列网络长短时记忆网络LSTM来学习蛋白质序列(貌似已有相关研究)

 

创新:原始序列、分别学习两个(蛋白质和化合物序列)的表示 

贡献:

本研究的主要贡献是提出了一种新的基于深度学习的药物靶亲和力预测模型,该模型仅使用蛋白质和药物的特征表示。通过简单地使用药物和靶点的原始序列信息,我们能够获得与依赖于多种不同工具和算法来提取特征的基线方法相似或更好的性能。

 

   今后,目标专注于建立蛋白质序列的有效表示,然后可以扩展该方法以预测已知化合物/靶标与新型靶标/药物的亲和力,以及预测新型药物-靶标对的亲和力。

你可能感兴趣的:(论文笔记,深度学习,机器学习)