原文标题:A general optimization protocol for molecular property prediction using a deep learning network
代码:GitHub - titanda/Learn-it-all at ready_classification_feature
虽然个别优化方法都成功地提高了模型的性能,但当这些方法和实践的具体组合应用时,可能会获得更好的改进。
比如:集成模型、数据增强、超参数优化、迁移学习
1、ConvS2S model
将输入分子编码,并利用解码器的注意机制。该模型完全基于CNN。该模型只有上面第一个分支,提取SMILES特征。
Dynamic batch size
默认batch-size设置4000 token。对于t时刻的权重wt,学习率η, batch-size b,M个实例(通过transforms Ti对同一个输入产生),权重更新为:
将枚举比率变成10倍、100倍,batch-size token分别为8000和16 000,因此可将更新规则改为:
R是SMILES枚举比率,R是批大小增强比率,k(t)在这里是从增强数据集中采样的。每一步的批大小使用较大的rlog R·B。
Bayesian optimization
使用Hyperopt Python库。具体来说,对10个随机种子进行20次贝叶斯优化,以确定最佳超参数,并根据验证集的性能选择超参数。
目标函数【expected improvement (EI)】为:
y *是发现的最佳值:y * = min {f(xi),1≤i≤n}, pM是H的后验模型,使用树结构Parzen估计器,Parzen estimator model p(x|y):
l(x)是使用与最小损失函数值相关的超参数值集形成的密度,g(x)是由剩余超参数值形成的密度:
最佳embedding_dim、convolution size、编码器层数和解码器层数:
Hybrid representation
如模型图1,在第二个分支添加其他的特征,来融合不同表示的信息。修改了CNN模型的readout阶段,将全连接网络f应用于学习到的分子特征向量h与计算出的分子特征hf: y = f (concatenate (h, hf))的拼接。
分析了MACC指纹与RDKit计算的200个分子特征的混合表示。通过分位数信息变换特征【sklearn.preprocessing.quantile_transform函数】,以确保不同特征的大小不同不会导致某些范围大的特征支配较小范围的特征,并将所有特征放在同一个分布中。
Experimental procedure
组合测试:
使用PyTorch1.8.1、Nesterov优化器进行early stopping,并置学习率收缩因子为0.1,学习率为0.25,最小学习率为10−5。经过10次训练,经t检验以95%置信区间报告。
1、dataset
MoleculeNet
采用过采样方法,在每次数据集拆分时增加少数数据量,使少数数据量与多数数据量相等。为了保持少数类的分布,对化合物进行了同样的过采样。
The best SMILES enumeration ratios are different in regression and classification datasets:
Dynamic batch size has to be carefully configured
Bayesian optimization must be performed on the same enumerated dataset
The effects of hybrid representation are dataset dependent
Enumeration cannot be replaced by an optimization technique
消融实验:
Molecular features benefit the model in certain situations
The model employing the best optimization methods achieved the best performance compared to related work