【深度学习系统连接分子结构与生物医药文本】

KV-PLM:处理分子结构和医药文本
将预训练语言模型BERT 作为骨架
分子结构 → SMILES串 → 用BPE算法分割
为了学习不同语言单元的元知识,我们使用masked language modeling task预训练KV-PLM
在预训练过程中,部分token(包括分子结构和医药文本)随机掩盖住,根据语境,模型被要求去重建被掩盖的token

基线模型: strong baseline models
RXNFP: 用于化学反应分类、基于Transformer架构 、在化学反应式上被masked language modeling task 预训练;适合处理分子结构任务,不能用于自然语言任务上。
BERT(wo): 采用没有预训练的BERT 作为基线,发现这个模型将SMILES 和自然语言文本一起分词(来自经常使用的Sci-BERT 模型的分词器),得到的零碎subwords 不能被人类理解。

SMI-BERT: 仅在SMILES串上预训练的SMI-BERT 作为单信息预训练基线,分词器与Sci-BERT一样。

Sci-BERT: 在医药领域最经常使用的语言模型之一,很好的解决自然语言任务,也是一个单信息预训练基线。

KV-PLM:在一个特定的语料库(corpus)【插入SMILES】上预训练,这样,KV-PLM 能学习单信息知识;期待在多阅读任务(versatile reading task)上有更好的表现。

KV-PLM*:SMILES串被一个单分词器分词,形成化学上可解释的亚串(substring patterns) ,和自然语言token没有重叠。通过 用双分词器去处理SMILES

1.机器阅读概念图解读

【深度学习系统连接分子结构与生物医药文本】_第1张图片
分子结构 → SMILES → BPE分词 → 插入到医药文本中(融合)
→学习:Masking

2.通用机器学习能完成的任务:

(1) 描述生成
(2)分子生成 molecule documentation
(3)性质预测
(4)知识提取

分子结构任务

实验材料:选择分子性质学习基准 benchmark MoleculeNet数据集、化学反应数据集 USPTO 1k TPL

(1)MoleculeNet上的SMILES 性质分类任务:BBBP,SIDER, TOX21,和HIV 去评估阅读SMILES 和分析分子性质的能力,做ROC-AUC分数评估
(2)在USPTO 1k TPL化学反应分类 任务

自然语言任务
机器学习基本的应用:从非结构化的文本中识别实体、提取它们的关系。任务:实体识别(NER)关系提取(RE)
实验材料:BC5CDR NER dataset、ChemProt数据集
(1) 在BC5CDR 上的医药 NER 任务:主要关注化学分子和疾病的识别
(2)在ChemProt 上的RE 任务:实体对的关系分类,13个关系类(化合物-蛋白),在句子中注释实体

通用(多方面)阅读任务
收集15k 的PubChem物质, 包括名字,SMILES 、对应的性质描述段 → PCdes
(1)交叉信息检索:双向检索任务,在PCdes上微调KV-PLM,去选择最好的匹配,匹配分数通过文本表示的余弦相似性获得。

(2)匹配判断:CHEMIchoice 任务(for unfamiliar molecule entity)
【深度学习系统连接分子结构与生物医药文本】_第2张图片基于在PCdes的描述,自动生成1.5个选择。

3. 案例研究

(1)亚串模式可视化(使用t-SNE)
(2) 描述检索: SMILE string → 描述
(3)分子检索: 自然语言指令 → SMILE string

参考文献:A deep-learning system bridging molecule
structure and biomedical text with comprehension
comparable to human professionals @ nature communications

你可能感兴趣的:(Python,深度学习,人工智能)