在本文中,我们讨论了通过机器学习分析材料特性的基本操作步骤,总结了机器学习算法在材料科学中几个成熟领域的最新应用。
这项工作致力于普及机器学习的基础知识,并促进其在材料科学中的使用。作为人工智能的一个分支,机器学习使用大量数据来不断优化模型并在算法的指导下做出合理的预测。
机器学习的完整过程,包括数据处理,建模和验证,将在下面详细讨论。
通常,数据处理由两部分组成:数据选择和特征工程。
在数据选择中,通过考虑数据的类型,质量和格式来全面选择数据。使用高质量数据可以防止考虑错误,丢失或冗余的信息;因此,研究人员必须从权威数据库中收集数据。
各种材料数据库(例如开放量子材料数据库,材料项目,计算材料存储库,哈佛清洁能源项目,无机晶体结构数据库和AFLOWLIB)已用于计算材料科学,此外,文本挖掘技术已用于检索有关材料的相关文献以丰富现有数据库。
目前,材料科学的数据大致可分为四类:
来自实验和模拟的材料特性(物理,化学,结构,热力学,动力学等);
化学反应数据(反应速率,反应温度等) ;
图像数据(材料的扫描电子显微镜图像,材料表面的照片等);来自文献的数据。
这些数据是离散的(例如,文本),连续的(例如,矢量和张量)或加权图的形式。
有必要在格式方面统一数据,并为数据处理中的机器学习算法选择合适的数据表示形式。指纹,SMILES,加权图和库仑矩阵是常见的数据表示形式。
特征工程是从原始数据中提取特征以启用算法的过程。它对于整个机器学习模型至关重要,并且有时会确定其性能的上限。
深度学习的发展已经消除了对手工特征工程的需求,这可能成为材料科学机器学习的一种趋势。
建模步骤包括选择适当的算法,从训练数据进行训练以及做出准确的预测。
机器学习可分为监督学习,非监督学习,半监督学习和强化学习。
监督学习也称为“与老师一起学习”,即,已标记了培训数据的相应输出。
相反,在无监督学习中训练数据的相应输出未标记。
对于半监督学习,某些训练数据被标记,其余数据未被标记;未标记数据的数量通常远远超过已标记数据的数量。
在强化学习中,不是向模型指定如何产生正确的动作,而是由环境提供的强化信号用于评估所生成动作的质量并改善适应环境的策略。
适用于实现上述四种机器学习方法的算法可以分为两种:浅层学习和深度学习。
参照传统的机器学习模型,浅层学习方法(例如支持向量机(SVM),决策树(DT)和人工神经网络(ANN))主要用于线性分类。
SVM是用于数据二进制分类的广义线性分类器。SVM为N维数据维中的一组数据点标识N-1维超平面。以二维(2D)数据集的分类为例:超平面可以将训练数据正确地分为两类。如果遇到未知数据,该算法将将此分类模型应用于未知数据。
由于其出色的分类性能,SVM已用于对与目标药物相关的化合物进行分类,并成功鉴定出与初次筛选中与目标药物最相似的药物。此外,SVM非常适合于鉴定结构与性质之间的关系。 Corma等使用沸石合成过程中的合成变量(例如初始凝胶浓度,反应过程,温度和时间)作为输入,并准确预测了合成产物的结构特征和热力学性质。
它是基于贝叶斯定理的简单概率分类器的系列,在其特征的强独立性假设下。它不是训练此类分类器的单一算法,而是基于以下原理的一系列算法:样本的每个特征都与其他特征无关。如果已获得每个类别的概率,则应将要分类的对象视为属于与最大概率相对应的类别。在许多实际应用中,朴素贝叶斯模型参数使用最大似然估计方法。因此,在这种情况下,可以在不使用贝叶斯概率或任何贝叶斯模型的情况下应用朴素贝叶斯模型。
朴素的贝叶斯分类器的一个优点是,它只需要基于少量的训练数据进行必要的估计(每个变量的均值和方差)即可做出预测;因此,通常用于预测策略(例如新分子的合成配方)是否会实现所需的结果。
DT是一种近似离散函数值的方法。这是一种典型的分类方法,其目的是从训练集中导出一组分类规则,以正确地对示例进行分类。
DT方法通常包括三个步骤:特征选择,DT生成和DT修剪。
其中,特征选择的目的是保留表现出足够分类性能的特征。修剪的目的是使树更简单,从而更通用。可能有多个DT可以正确分类训练数据;因此,选择与训练数据不一致并具有足够泛化能力的DT至关重要。
ANN是指由许多相互连接的处理单元(神经元)形成的非线性自适应信息处理系统。它是一种非编程的自适应信息处理体系结构,它通过网络转换和动态行为获取并行和分布式信息,并模仿人类神经系统的信息处理功能。
在人工神经网络中,神经元彼此连接以形成层并表示对象,例如特征,单词,概念或有意义的抽象模式。
ANN中共有三种类型的层:输入层,输出层和隐藏层。
输入层从外界接收信号或数据。
输出层输出系统处理结果。
隐藏层位于输入和输出层之间,无法从网络外部查看。它基于核心功能执行计算。
ANN的输入数据在流入网络之前被合并到一个新的向量中并被转换成矩阵。当数据流通过网络时,输入层中的第i个神经元将输入数据乘以权重Wij,并将其输出到下一层的第j个神经元。神经元之间的权重反映了网络的连接强度,而人工神经网络可以通过调整权重来改善整个模型的性能。在隐藏层中,将来自神经元的加权输入求和并添加到偏差中,然后再通过激活函数传递到下一层。最后,通过输出层中合适的转换函数来估计输出。
ANN的主要优点如下:它具有自学习功能,具有关联存储功能,并且可以高速搜索最优解。已经提出了近40种类型的神经网络模型,包括反向传播网络,感知器,自组织图,Hopfield网络和Boltzmann机器。人工神经网络已被用于材料科学的许多领域,例如纳米材料合成,量子计算和材料性能分析。
基于手动特征提取和线性分类的浅层学习非常适合线性分类任务。但是,该性能不足以进行非线性分类任务。通过使用非线性级联处理单元进行自动特征提取并推导低级特征以获得属性类别的更多抽象高级表示,在非线性任务上,深层模型通常优于浅层模型。
受到视觉神经科学中简单细胞和复杂细胞的经典概念的启发,CNN将ANN与离散卷积相结合进行图像处理,可以将图像直接接受为网络的输入,从而避免了复杂的特征提取和数据重建过程在传统的图像识别算法中进行。
通常,两个相邻层中的神经元是完全连接的,而同一层中的神经元则不是。 CNN的每一层都接受上一层的输出作为输入。
三种类型的层用于在输入和输出之间构造CNN体系结构:卷积层,池化层和完全连接层。
卷积层用于提取输入数据的特征并减少噪声。池化层对输入数据进行二次采样,并将输入划分为较小的区域,以在每个区域上应用函数,例如平均函数或最大值函数。
图B,C示出了卷积层和最大池化层的操作。有时,其他类型的层(例如,drop-out层)用于控制CNN的大小。
由于CNN模型同一层中的神经元之间没有连接,因此数据从输入层流向隐藏层,最后由输出层输出。 因此,CNN很难处理相关数据。因此,应使用RNN处理顺序数据。 在RNN中,上一步的输出将被存储并用于计算当前输出以及来自输入层的数据。
如果将Si定义为RNN的状态,则xi和yi分别是网络的输入和输出,而i是步数,则可以如下计算网络Si的当前状态:
根据上式,可以共享RNN中每一层的参数。网络状态Si通常被视为隐藏层的存储单元,用于存储上一步的输出并每次都更新非线性函数的当前输入。因此,与CNN相比,RNN需要更少的参数学习。
在材料科学领域,已提出使用RNN模仿类似的奖励机制来设计具有特定特性的新材料。但是,在训练过程中可能会发生错误,例如模型偏差和模型方差。模型偏差通常是由算法假设中的错误引起的,而模型方差则是由对训练集中小波动的敏感性引起的。除了这两种类型的错误,错误还可能由计算限制或数据丢失引起。
此外,在某些情况下,会发生过度拟合:为了维持一致的假设,假设变得过分严格,因此,如果要预测的数据集与训练集不同,则无法保证模型的性能。
过度拟合的常见原因如下:
建模样本选择不合适(例如,样本太少,样本选择方法不合适,样本标签不正确),从而导致所选样本不足以代表预定的分类规则;
模型的干扰非常大,以致计算机将一部分噪声视为特征;
模型假设不能合理地成立,或者不满足假设成立的条件;
参数太多,模型复杂度太高。
此外,对于DT模型,如果没有合理限制增长,则自由增长可能仅包含简单事件数据或不包含事件数据,因此,尽管它可以完全适合训练数据,但不能适应其他数据集。为了人工神经网络,首先,决策面可能不是样本唯一的,这导致反向传播算法将权重收敛到更复杂的决策面;其次,过度训练可能会导致模型拟合噪声或没有代表性的特征。因此,必须进行模型验证以减少错误并避免过度拟合。
模型的训练完成后,将使用看不见的数据进行模型验证,以评估模型的准确性,该数据与训练数据集中的数据不同。 许多机器学习方法将原始数据分为训练集和测试集,并使用训练集进行模型训练,并使用测试集进行模型验证。
K折交叉验证是一种常见的验证方法。 K折交叉验证是指将原始数据随机分为K个部分,并在每一轮中使用K – 1个部分进行模型训练,同时保留一个部分用于模型验证。所有这些部分都用于模型验证,并计算验证结果的平均值作为最终估计值。
K折交叉验证的一个缺点是,它需要构造K模型,这对于大型数据集可能非常耗时。
另一种常见的验证方法是留一法交叉验证(LOOCV)。与K折交叉验证类似,如果原始数据集中有N个样本,则将每个样本单独用作验证集,并将其余N – 1个样本用作训练集;因此,LOOCV考虑了N个模型,并将这N个模型的最终验证集的平均分类精度用作分类器的性能指标。
与K折交叉验证相比,LOOCV具有两个主要优点:
第一,几乎每一轮中的所有样本都用于训练模型;因此,分布更接近原始样本的分布,并且获得的结果更加可靠。
其次,在实验过程中,没有随机因素影响实验数据,从而确保可以重复实验过程。
与K折交叉验证相似,LOOCV具有计算成本高的缺点。如果原始数据样本的数量很大,则LOOCV难以实现,除非将计算并行化以减少计算时间。
与计算仿真相比,机器学习可以有效地识别大型高维数据集中的模式,快速提取有用的信息并发现隐藏的规律。因此,它非常适合材料发现,并且可以加速预测材料特性的过程,这通常需要计算量大的理论计算。
1 降解检测
在材料分析中,用于检测金属腐蚀和沥青路面开裂以及确定混凝土强度的机器学习比人工判断更准确,更方便。
2 纳米材料分析
机器学习已被广泛用于预测纳米材料的毒性,发现新的无毒纳米粒子,发展纳米粒子的多结构/单性质关系,研究分子系统的量子力学可观性,分析纳米材料的化学反应并求解动力学系统。
3 分子性质预测
用于分子性质预测的高通量密度泛函计算非常耗时。另外,机器学习是一种快速预测分子,化合物和材料的结构或性质的可行方法,而且它可以实现高精度。
1面向结构的设计
可以使用许多分类和回归算法从材料的结构预测材料的化学组成。钙钛矿是许多领域中重要的晶体结构。
2 面向元素的设计
机器学习可用于根据输入成分预测新化合物及其结构。基于实验晶体结构数据库的概率模型用于识别209种新的三元氧化物。
机器学习也可用于研究二元化合物。
3 反设计
逆设计从所需的功能开始,并寻找表现出这种功能的理想分子结构。该方法将功能性作为输入并输出分子结构。
4 药物设计
以小分子为模型的机器学习方法可以处理蛋白质的结构复杂性,并且可以准确地预测结构活性关系,这有助于发现目标药物。