分子表示学习与性质预测综述

参考文章:
Deep learning methods for molecular representation and property prediction

计算机辅助药物设计(CADD,computer-aided drug design)近年来发展迅速。有效的分子表示(molecular representation)和准确的性质预测(property prediction)是CADD工作流程中的关键任务。在这篇综述中,作者总结了当前深度学习(deep learning)方法在分子表示和性质预测方面的应用。作者根据分子数据的格式(1D、2D和3D)对深度学习方法进行了分类。此外,文中还讨论了一些常见的深度学习模型,如集成学习(ensemble learning)和迁移学习(transfer learning),并分析了这些模型的可解释性方法(interpretability methods)。作者还着重研究了深度学习方法在分子表示和性质预测方面的挑战和机遇。


  • Interpretability与Explainability,这两个词在一开始的时候其实是经常互换的,都指的是一个意思。之后两个名词又有了些细微的差别,Interpretability或者Interpretable AI是使模型成为白盒,模型的任意一个设计结构都让人可以完全理解,想得通为什么要这样设计,而Explainabilily或者Explainable AI则是研究者对于黑盒模型的行为作出人们所能理解的一个解释。

目录

  • Introduction
  • Sequence-based methods
    • 数据增强方法
    • 卷积神经网络
    • 循环神经网络
    • 子结构学习方法
    • 基于序列的自监督学习方法
  • Graph-based methods
    • spectral GCN
    • spatial GCN
    • Tree-based methods
    • Graph-based self-supervised learning methods
  • Image-based methods
  • 3D Graph-based methods
  • 3D Grid-based methods
  • Hybrid data-based methods and ensemble learning
  • Transfer learning, multi-task learning, and metalearning
  • MPP中的可解释性(方法的Interpretability)
  • 分子性质预测的挑战和未来工作
    • 3D数据上的自监督学习方法
    • 图卷积
    • 1D到3D数据的混合学习
    • 元学习
    • 方法的可解释性

Introduction

计算机辅助方法能够快速预测分子性质,在具体实验开始前提供感兴趣分子的概述。这些方法被称为定量结构-活性关系(QSAR,quantitative structure-activity relationship)或定量结构-属性关系(QSPR,quantitative structure-property relationship)模型。 此外,随着机器学习 (ML) 方法的发展,分子性质预测 (MPP,molecular property prediction)的准确性和速度也有所提高,加速了其他相关应用,例如药物-靶标亲和力预测(drug–target affinity predictions)和分子合成预测(molecular synthesis predictions)。作为ML的一个重要分支,深度学习方法受到了极大的关注。这种方法可以更精确地发现结构(structure)与其特性(properties)之间的关系。

在使用DL模型的MPP中,第一个决策是如何表示分子。分子式(molecular formula)是分子的常见表示形式(例如, C 30 H 35 N 7 O 4 S C_{30}H_{35}N_{7}O_{4}S C30H35N7O4S表示甲磺酸伊马替尼:imatinib mesylate);然而,由于缺乏结构信息,DL模型很难预测分子的性质。因此,提出了一种更高级的基于序列的表示法,即SMILES,并已成为分子的流行表示法。在SMILES中,原子和化学键分别用字母和标点符号表示,分支用括号表示。在图1a中,甲磺酸伊马替尼被转换为SMILES字符串。然而,由于SMILES字符串可能会与有效分子不对应,因此提出了自引用嵌入字符串(SELFIES,self-referencecing embedding strings)来解决这个问题,即每个SELFIES字符串都对应一个有效分子。

此外,指纹(fingerprints)是另一种基于序列的分子表示,它包含分子结构信息,例如扩展连接性指纹(ECFP,extended connectivity fingerprints)和分子存取系统(MACCS,molecular access system)。它们通常用作传统ML方法的输入或与其他类型的数据组合作为辅助输入。近年来,分子的数学表示(Mathematical Representation),包括拓扑和几何模型,取得了巨大成功。Nguyen等人使用基于代数拓扑的表示来表征分子,并引入持久同源性来丰富拓扑表示。MathDL结合微分几何、代数图和代数拓扑,形成旋转和平移不变的分子指纹。基于持久同源性,Liu等人开发了持久光谱超图模型,其中持久属性被用作指纹。


尽管SMILES这种序列数据处理起来简单快速,但它仍然无法全面捕捉原子之间的空间关系。如图1所示,在C=C5苯环中,五个碳原子被组合成C5;然而,不同的碳原子与其他原子的关系不同,并且位于分子中的不同位置。此外,它们可能对应不同的属性。因此,仅使用SMILES不足以预测某些更具体的属性。


分子表示学习与性质预测综述_第1张图片

  • 图1:药物甲磺酸伊马替尼imatinib mesylate的1D、2D和3D表示。
  • a:对于1D表示,图中展示了多种表示形式,包括SMILES、extended connectivity fingerprint (ECFP)、molecular access system (MACCS) fingerprint,和一些数学表示方法。
  • b:对于2D表示,分子图molecular graph可以被表示为两个矩阵,即邻接矩阵和特征矩阵。右边的分子图像molecular image(由RDKit生成)是另一种2D表示形式。
  • c:图中展示了两种3D表示方法:一个3D分子图和一个3D分子网格表示(由PyMOL生成)。

分子2D数据中包含的更丰富结构信息有助于MPP,MPP分为两种类型(分子graph数据和分子image数据)。graph数据是学习分子表示的有效方法。分子的原子被视为分子图中的节点,而化学键被视为边。随着图卷积网络(GCN)的发展,现在可以更直接、更有效地收集相邻节点的信息,这有助于捕获分子内原子之间的空间关系。同时,通过将分子转换为基于像素的栅格图像而获得的分子图像是分子的另一种2D表示格式。

3D结构提供了关于分子的最详细信息。与2D分子数据类似,3D分子数据有两种类型:3D分子图和3D分子网格(图1c)。3D分子图记录每个原子的三维位置,3D分子网格是一种特殊的三维图像,其中网格中的体素通过不同的方法表示分子构象的不同元素或属性。

在这篇综述中,我们重点介绍了用于分子表示的DL模型。我们首先介绍了分子表征和性质预测方法,并重点介绍了热门的DL方法,如集成学习和迁移学习,这些方法已用于解决分子表征中的一些常见问题。我们还简要概述了DL模型的可解释性,并强调了相关的挑战和未来的研究途径。

Sequence-based methods

SMILES是描述分子最直接、最简单的方法。它类似于自然语言,其中每个原子都是句子中的一个单词。鉴于自然语言处理(NLP)领域的快速发展,NLP方法可以用于SMILES序列。

数据增强方法

Introduction中说过,SMILES存在不一致性,对于一个分子,根据SMILES语法,可能有许多有效的SMILES序列。起始原子和遍历顺序可能导致对应不同的序列;因此,我们可以选择任何原子作为起点,任何分支作为第一个经过的分支。规范SMILES确保每个分子根据特定规则只有一个SMILES字符串。然而,当使用非规范SMILES作为输入时,同一分子的各种SMILES格式可以增强DL模型的学习能力。这是因为非规范SMILES还可以通过提供与SMILES语法和化学特性相关的潜在特性来帮助DL模型。因此,建议使用数据增强或枚举来扩大字符串的覆盖范围,从而确保模型能够学习分子的多个字符串。

考虑到每个分子都有不同的长度,与长字符串相比,短字符串的可能符号更少。在Conv2S中,SMILES长字符串被随机生成,为了克服数据集不平衡的问题,具有较少SMILES字符串的分子被重复的SMILES串补充,以确保所有分子具有相同数量的SMILE字符串。Kimber等人对五种不同的SMILES增强方法进行了综合分析。他们发现,增强方法提高了DL模型的性能,数据增强后获得的结果优于使用单个随机SMILES。

卷积神经网络

卷积神经网络(CNN)可用于序列数据处理。例如,ConvS2S模型将SMILES转换为整数列表,然后添加位置嵌入以表达相应字符的位置。Lim等人还执行了SMILES的字符级嵌入,其中为每个字符生成嵌入向量。引入一个带有多头自注意模块的CNN层来处理输入嵌入,并添加两个全连接层来输出预测。SMILES卷积指纹(SCFPs)结合了多种原子属性,包括类型、程度、电荷和手性,形成了原子的特征向量。在这种情况下,SMILES序列可以转换为矩阵,矩阵的长度是SMILES序列的最大长度。

鉴于基于CNN的方法需要固定长度的输入样本,药物SMILES在发送到网络之前必须进行填充或截断。通常,可以选择数据集中SMILES字符串的最大长度或平均长度作为模型输入样本的固定长度。然而,这两种方法都会导致数据丢失和引入噪声,这是基于CNN的方法的主要问题之一。

循环神经网络

循环神经网络RNN和变体例如长短期记忆LSTM和门控循环单元GRU,在 NLP 中广泛用于处理序列数据。 为了处理分子序列数据,一个准确而稳健的 SMILES 序列 RNN 模型对于提取分子特征至关重要。Hou等人提出了一种双向LSTM(Bi-LSTM),其通道和空间注意力网络通过贝叶斯优化进行了改进,可以专门识别SMILES序列中的prime factors(先验因子)。Nazarova等人提出了RNN的两种反向传播方法,并比较了SMILES的二进制和十进制表示在化合物性质预测中的性能。他们发现二进制表示比十进制表示更准确。CNN和RNN的结合也可以提高表示性能。Li等人使用one-hot编码将SMILES中的每个字符转换为一个向量,并引入了堆叠CNN和RNN层的混合结构用于表示提取。

尽管RNN适合序列处理,但仅使用序列而忽略其他信息(例如化学上下文或分子结构)并不是学习分子表示的综合方法。特别是,分子内的原子关系、原子基团以及键类型也可能与分子性质有关,可以通过某些方式引入结构信息以提高性能。此外,使用序列的模型的可解释性仍然存在缺陷。鉴于分子分支与主序列融合,如果没有其他更具体的设置,RNN模型很难区分主序和分支;因此,来自同一官能团的关键原子可能彼此远离。

子结构学习方法

通常,官能团(functional group)是分子的关键子结构,分子的性质和活性与官能团等子结构密切相关。然而,SMILES序列并不直接包含此类信息;因此,针对SMILES中隐藏的官能团的方法已经得到了发展。SMILES pair encoding学习高频SMILES子字符串的词汇表,并根据所学词汇表转换到SMILES,这些词汇表可以输入DL模型。Mol2Context-vec在ECFP的帮助下提取子结构。该子结构包括多个原子,包括一个中心原子和围绕中心原子的给定半径内的所有原子。每个子结构都有自己的标识符。子结构序列是Bi-LSTM的输入,它捕获原子团之间的相互作用。Mol-BERT将每个子结构的向量概括为无监督学习和下游任务的分子表示。S2DV定义了一个分割字符来保留子结构信息,以及一个具有预定义大小的滑动窗口来处理序列。

基于序列的自监督学习方法

近年来,自监督学习(SSL)发展迅速。SSL可以使用大量未标记的数据集,并设计pretext任务来学习数据的内在特征,从而减少对标记样本的需求。通常,基于序列的SSL模型可分为对比学习方法和生成学习方法。对比学习方法是构建伪标签数据,以学习正负样本之间的差异,而生成方法将输入编码为潜在特征,并对其解码以重建输入,由此,潜在特征可以用作输入的表示。从数据信息的角度来看,对比学习法试图找到数据间的信息,而生成学习法则侧重于数据内的信息。(来源于:Self-supervised Learning: Generative or Contrastive

在NLP领域,BERT是一种广泛使用的SSL方法,用于学习单词的特征,其中Transformer包括编码器和解码器。BERT-liked方法可用于SMILES序列,以提取原子或分子特征(图2a)。MOL-BERT结合三个任务来生成分子表示。第一种是BERT中使用的掩码语言模型(MLM)。第二种是SMILES等价方法,它使用来自同一分子的两个SMILES序列作为一类,使用来自不同分子的两种SMILES作为另一类进行训练。第三种方法利用分子化学特性进行预测。所有三个模型都经过联合训练以输出分子表示。SMILES-BERT也基于BERT,但只保留了MLM。

分子表示学习与性质预测综述_第2张图片

  • 图2:基于SMILES的自监督学习(self-supervised learning)方法,属于生成学习方法。
  • a:基于BERT。SMILES序列被用作输入,并随机mask一些原子。然后训练语言模型来预测这些被mask的字符,进行表示学习。
  • b:基于翻译模型的方法。该模型将输入的SMILES序列变换为另一种类型的序列。编码器编码的隐特征被用作分子表示。

除了基于BERT的方法外,还有其他生成方法使用编码器和解码器架构进行分子表示。Hu等人使用基于GRU的编码器-解码器生成模型来生成固定大小的隐特征,以表示来自SMILES的分子,并为下游预测任务引入了CNN模型。分子预测模型微调(MolPMoFiT)使用语言模型根据单词序列预测下一个单词,也可以为下游任务提取特征。

NLP中使用的翻译模型也可以在SMILES序列数据中实现(图2b)。序列到序列(seq2seq)是一种流行的工具,包含用于翻译任务的编码器和解码器,其目标是将序列转换为另一个序列。类似地,编码器的输出也可以是其他任务的表示。在对SMILES使用seq2seq方法时,主要目标是找到两个相应的序列用于训练。Winter等人提出了一种翻译分子结构的两种语义等价表示(即SMILES和IUPAC)的方法。Transformer-CNN训练一个Transformer模型来执行SMILES规范化任务,其中输入是非规范的SMILES,输出是相应的规范SMILES。

因此,SSL是一种很有前途的方法,因为它能够发现没有标签的输入数据的隐特征。对于基于序列的SSL方法,仍然缺乏有助于发现SMILES字符串之间相互关系的对比学习方法,这是分子表示研究的未来方向

Graph-based methods

图是一种更直接的结构,可以存储和表示大多数结构信息。在图模型中,原子被设置为节点,键被设置为边,每个节点都有自己的特征。在图数据的帮助下,GCN可以使用分子内的结构信息,GCN是为非欧氏图数据设计的。它们能够捕获有关连接节点之间关系的信息。一般来说,GCN有两种类型:空间卷积(spatial GCN)和频谱卷积(spectral GCN)。前者(MPNN)通过在空间域中使用特定的消息传递规则收集相邻节点的信息来更新每个节点的特征。后者(传统的GCN)通过对拉普拉斯矩阵进行特征值分解,将图数据转换到谱域

spectral GCN

首先介绍spectral GCN方法。LanczosNet使用Lanczos算法为图的谱卷积建立Laplacians的低阶近似,可用于开发多尺度信息和设计可学习的谱滤波器。Shang等人从切比雪夫近似出发,提出了一种一致的边缘感知多视点谱GCN模型,并使用了一种新的灵活的谱滤波器;根据边的类型,将分子图分解为图的多个视图,并使用学习边的注意权重的一致性边映射方法来保证边的一致性。

在分子表示和性质预测方面,谱方法少于空间方法。这是因为具有不同原子的分子会产生不同大小的图,而谱GCN模型只能处理固定大小的图。因此,在处理输入图数据样本时,仍然需要进行数据对齐操作,例如填充或截断,这将损害数据完整性并影响模型的最终性能。

spatial GCN

空间GCN模型在药物发现和MPP中的应用更为广泛。通常,空间GCN模型需要两个矩阵作为输入:邻接矩阵和特征矩阵。前者表示分子内原子的空间互连,可以从分子图中获得,而后者通常由不同的方法定义。DeepAtomicCharge使用带跳跃连接的消息传递神经网络(MPNN)预测原子电荷。AttentiveFP是源自GCN的另一种分子表示方法,它可以自动学习非局部分子内相互作用,并通过注意机制捕获指定任务的隐藏边。Multiphysical GNN将特定尺度图神经网络和特定元素图神经网络结合起来,从不同尺度捕获各种原子相互作用,用于多物理表示。

边也是卷积过程中应该考虑的一个重要元素。TrimNet提出了一种三态边缘网络,通过原子-键-原子排列来收集信息,以改进边缘信息的提取。一对原子以及它们之间的键连接成三元组,多头注意力用于从相邻节点和边缘收集节点的信息。

有向图是一种特殊类型的图,它包含指示消息传递方向的有向边。这种性质通常用于处理图学习模型中经常出现的oversmoothing问题。例如,边缘记忆神经网络侧重于传递边缘而不是节点的消息。

Tree-based methods

通过选择一个起始原子,可以将图转换为树结构,这将打破图的循环并提供另一个视图。此外,根据广度优先搜索(BFS)或深度优先搜索(DFS)方法,可以使用RNN模型将树转换为原子序列以进行表示学习。

Su等人和Wang等人都开发了基于分子树结构的QSAR建模方法。分子被编码为特征描述符,树结构的长短期记忆(tree LSTM)很好地捕获了长依赖关系,用于描述分子树数据结构,并将其与分子属性关联起来。

Junction Tree首先将分子分解为子结构,然后基于这些子结构生成树结构图。虽然提出了用于分子生成的Junction Tree,但编码器部分可以隔离以进行性能预测。受此启发,Wang等人提出了一种基于多通道树的分子预测方法。将分子转化为基于子结构的图,并使用BFS方法遍历该图以生成树结构。然后应用基于GRU的具有注意机制的神经网络在多个层次上学习分子特征。

然而,由于不同的遍历方法,如BFS或DFS,以及不同的根原子选择方法,树结构并不唯一。生成的分子树的多重结构将影响模型的泛化。规范结构的定义不可靠,无法确保所有与属性相关的信息都能在结构中全面显示,尤其是连接信息,因为将图传输到树将不得不中断一个或多个连接。

Graph-based self-supervised learning methods

与1D的Seq数据类似,SSL方法在图数据上也取得了显著的性能。Wu等人定义了另一种基于图数据的SSL方法,该方法基于自生成的标签设计基于预测的pretext任务。
分子表示学习与性质预测综述_第3张图片

  • 图3:使用图的不同类型的自监督学习方法。
  • a:对比自监督:使用数据增强方法,如对于正样本pairs的节点drop、边drop和子图替换,而对负样本pairs随机选择其他分子的增强图。
  • b:生成自监督:通过编码器-解码器模型重构输入,以获取用于分子表示的隐特征。
  • c:预测自监督(属于生成自监督):随机mask一些节点或边,让模型预测结果;通过这样做,模型能够学习到隐特征并生成有效的分子表示。

MPP中通常使用的预测模型用于预测节点或边的类型或属性。GROVER结合了两级SSL。在节点和边级别定义的第一个SSL任务是预测子图的属性。第二个SSL任务,在图级别定义;结合这两个层次可以提供关于分子的结构和语义信息。此外,SSL和监督学习的结合为理解分子提供了一种新的方法。例如,SUGAR结合了基于子图的监督方法和SSL方法,并且将来自分类和互信息最大化的两种损失归入最终损失函数。评估结果表明,SSL的引入提高了模型的性能。

Image-based methods

DL方法在图像处理领域取得了巨大成功,这也为QSAR和QSPR的研究奠定了基础。更具体地说,分子可以转换为图像,因此传统的DL模型可以用于QSAR或QSPR任务,其中CNN是最广泛用于分子图像特征提取的。

3D Graph-based methods

分子的构象通常包含分子的原子3D坐标,也称为几何数据,可以为分子性质预测提供额外的空间信息。首先要解决的问题是三维分子晶体数据集有限。为了扩大基于几何的方法的应用领域,可以基于二维数据生成构象。RDKit中的MMFF可用于构象生成。此外,哈密顿神经网络也可以用来预测分子构象,并将预测的三维坐标输入到基于MPNN的分子指纹生成器中用于分子表示。

3D Grid-based methods

3D网格是另一种使用分子几何数据的表示方法,它将每个原子放置在一个或多个网格中。事实上,蛋白质等大分子可以用3D网格更好地表示,在MPP中仍然表现出良好的性能。3D CNN是3D网格数据的最佳选择;因此,为3D CNN创建一个功能更强大、信息更丰富的网格可以提高分子性质预测的性能。


MPP仍然缺乏基于3D图和基于3D网格的方法,所需的分析时间很长是一个严重的问题,尤其是对于基于3D网格方法。此外,3D图数据的图卷积仍然是一个悬而未决的问题。仅仅通过添加3D位置信息将传统GCN方法扩展到3D场景并不能充分利用几何数据的优势。尽管球形消息传递(spherical message passing)仅试图在3D图上匹配特定的GCN,这仍是设计3D图消息传递机制的一种很有前途的方法。


Hybrid data-based methods and ensemble learning

上述所有1D、2D和3D表示方法以不同的方式呈现分子,将它们结合起来可以提供分子的多视图。GraSeq结合了分子图和SMILES序列,并使用GCN和biLSTM进行编码。Karim等人将SMILES、指纹、分子图、2D和3D描述符与多个DL模型相结合,用于定量毒性预测。通常,指纹被视为一种常用的辅助因素,基于图像的和基于图的方法都将指纹结合起来以提高预测性能。

集成学习还可以连接多个分类器,以提高联合模型对每个单独分类器的性能。Kosasih等人构建了一个由三个GIN组成的组合。Busk等人还构建了一个由多个MPNN组成的集合,这些MPNN用随机参数初始化,并在同一数据集上单独训练。此外,他们使用所有分类器的方差来表示预测的不确定性,并且校准结果改善了模型的性能。

Transfer learning, multi-task learning, and metalearning

实验数据集的不足是MPP中的另一个问题,建议使用迁移学习、多任务学习和元学习来克服这个问题。对于迁移学习,模型首先针对某些辅助任务在大数据集上进行训练,从而学习分子的一般表示。然后将所学到的一般表示法用于下游任务(通常具有有限的样本),以传递先验知识。多任务学习可以同时训练所有任务并共享表示,以提高预测的泛化能力。近年来,出现了元学习方法来解决少样本问题,也称为“学习如何学习”。在训练过程中,元学习将训练数据集划分为不同的元任务,学习初始化良好的模型参数,具有很强的泛化能力。通过对新任务进行少量梯度下降来更新模型,以提高模型的性能(属于meta learning的参数学习分支)。


目前常见的元学习方法分为两个分支:

  • 基于相似度对比的方法:对于一个新任务,我们需要对模型的计算结果进行相似度判断,从而实现在新任务上的分辨,我们可以看出:该过程的目标不在于泛化到某个测试集,而是让机器具备更通用的先验知识,能够分辨事物的异同。这类方法更常用于 Few-shot Learning 问题;
  • 获得一个优秀的初始参数:我们在不同任务上进行学习,获得一个适当的参数,以这个参数作为模型的初始参数,于是在面对新任务时,该参数能更容易更新到新任务下的局部最优解。这条分支分在处理下游任务时,通常分为有微调和不微调。
    比如现在的NLP范式:大规模数据上预训练(即meta learning)+下游任务的微调(基于fine-tuning的判别式学习)或者直接应用。

MPP中的可解释性(方法的Interpretability)

DL最有争议的领域是其可解释性。可解释DL方法(注意是Interpretability)分为两类:被动(passive)和主动(active)。被动方法使用DL模型中的参数进行解释,而主动方法改变训练过程以提高模型的可解释性。

对于分子性质预测,被动方法仍然是理解分子精确子结构与其性质之间关系的主要方法。注意力机制可以学习输入的不同部分的权重,以确保DL模型能够专注于重要部分。注意机制的概念也可以用于DL模型的可解释性,它可以发现重要的原子或基团及其对分子性质的相应贡献。

分子性质预测的挑战和未来工作

3D数据上的自监督学习方法

SSL方法是发现分子特征的一个很有前途的方向。近年来,提出了基于一维数据和二维数据的方法,并取得了较好的性能。设计pretext任务是重要的一步。隐藏在三维分子数据中的丰富信息仍有待充分利用。3D SSL方法已经应用于许多领域;因此,设计一种新的分子3D SSL方法将对预测分子性质非常有用。此外,虚拟筛选用于寻找具有高结合亲和力的配体-靶标pair(ligand–target),这是药物发现和设计的关键步骤。在虚拟筛选软件中,需要靶标和配体的构象。因此,分子的精确和全面的3D表示也将有助于虚拟筛选。

图卷积

由于GCN方法在图数据方面的优异性能,它已成为分子相关任务中的主流方法。然而,仍有改进的余地,例如引入经验数据和专家知识。我们不能忽视人类经验对DL模型的影响,有一些方法可以通过定义原子、键和官能团的类型将专业知识注入到模型中。

1D到3D数据的混合学习

通常,与低维数据相比,高维数据包含更多信息。如果是这种情况,那么基于2D数据的模型的性能应该优于基于1D数据的模型。然而,正如我们上文所讨论的,混合方法使用1D、2D和3D数据,消融实验已经证明了它们在MPP中的各自作用,表明低维数据提供的信息并没有完全被高维数据覆盖。这里提出的一个问题是,当已经使用高维数据(2D或3D数据)时,为什么1D数据仍然有助于提高模型性能。这可以从以下两个角度来回答。

  • 首先,将1D序列转换为2D图时会丢失一些信息。
  • 第二,DL模型不能充分利用高维数据中隐藏的信息;

因此,1D数据仍然用作辅助信息源。无论是什么原因,如何确定合适的数据类型(或多种类型的最佳组合)仍是一个悬而未决的问题。

元学习

Transfer学习、多任务学习和元学习都用于解决实验数据不足的问题。我们认为元学习方法是目前最有前途的研究方向之一。更具体地说,元学习是实际应用的理想方法,因为当由于数据样本数量有限而无法使用传统的ML或DL模型时,某些任务可能只有少数实例(例如,预测一些罕见的分子特性)。因此,MPP的元学习方法值得进一步研究。

方法的可解释性

我们讨论了关于DL可解释性的几种方法。与图像处理中的传统任务不同,大多数与分子相关的任务都是高度专业化的,需要化学专家分析潜在的机制,例如分子的子结构的作用。分子相关任务的这些特征与DL模型的“黑箱”性质有些矛盾。因此,提高DL模型的可解释性始终是必要的。更具体地说,通过分析成功预测的和失败的数据样本来定位模型中的关键功能元素,不仅有利于DL模型的最终性能,而且有利于发现新的QSAR。

你可能感兴趣的:(论文阅读笔记,学习,机器学习,人工智能)