学术速运|语言模型可以学习复杂的分子分布

学术速运|语言模型可以学习复杂的分子分布_第1张图片

题目:Language models can learn complex molecular distributions

文献来源:NATURE COMMUNICATIONS | (2022) 13:3293

代码: 涉及到的不同模型在github都可以获得,详见Code availability

简介:分子的深度生成模型已经变得非常流行,经过相关数据集的训练,这些模型被用于通过化学空间进行搜索。生成模型对新型功能化合物逆设计的下游效用,取决于它们学习分子训练分布的能力。最简单的例子是一个语言模型,它采取递归神经网络的形式,并使用字符串表示法生成分子。自从最初使用以来,很多工作已经表明语言模型是非常可行的,特别是最近的研究已经证明了它们在低数据制度下的效用。在这篇文章中,作者研究了简单语言模型学习分子更复杂分布的能力。为此,作者通过编译更大,更复杂的分子分布来引入几个具有挑战性的生成建模任务,并评估语言模型对每个任务的能力。研究结果表明,语言模型是强大的生成模型,能够熟练地学习复杂的分子分布。语言模型可以准确地生成:ZINC15中得分最高的被惩罚LogP分子的分布,PubChem中最大分子的多模态分子分布。研究结果突出了一些最流行和最近的图形生成模型的局限性--其中许多模型无法比拟这些分子分布。

主要内容:

学术速运|语言模型可以学习复杂的分子分布_第2张图片

你可能感兴趣的:(学术速运,人工智能,深度学习,其他,微信公众平台)