图网络与药物研发【数据来源与输入特征】

深度学习中药物表征主要有三种方式:

  • 描述符
    • 需要计算的定长数值向量,使用最广泛
    • 描述符质量与人类专家知识相关,需要特征工程处理
  • 分子图
    • 以原子作为节点,化学键作为边构成分子图,通过GNN学习表征向量,能够针对下游任务学习针对性的特征,弥补描述符的不足
    • 通过分子图特征学习需要大量训练数据,GNN的层数太大会有过平滑现象,限制了特征提取能力
  • SMILES
    • 通过NLP方法从字符中学习表征向量,大多数数据都已经以SMILES方式存储,使用最方便,不需要很多处理
    • 分子的结构和化学信息隐式地表示在SMILES中,学习表征向量特别依赖框架的特征提取能力,也需要更多的数据,常用的是Transformer架构(Molecule Attention Transformer)。数据方面可以通过迁移学习,预训练模型(molecular-graph-bert),数据增强(SMILES Enumeration,bidirectional long short term merory attention network)等得到缓解。
    • 同一个分子的SMILES有多种不同的形式,NLP模型可能被这种"同义词"干扰,而且词表vocab很小,与传统的NLP任务有所不同,Knowledge-based-BERT 综合多种表征方式缓解这些问题

你可能感兴趣的:(图神经网络与药物研发,人工智能,深度学习)