目录
摘要
1.介绍
2.方法
2.1不变基的结构
2.2建立机器学习模型
2.3机器学习算法
3.研究案例
3.1.湍流模型案例研究
3.1.1.问题阐述
3.1.2.不变性
3.1.3.数据集
3.1.4.结果
3.2.晶体弹性案例研究
3.2.1.问题陈述
3.2.2.不变性和对称性
3.2.3.数据集
3.2.4.结果
4.总结
致谢
参考文献
在许多科学领域,经验模型被用来促进工程系统的计算模拟。例如,在流体力学中,封闭的经验雷诺应力使得雷诺平均法(RANS)能够有效的求解N-S方程。同样,在固体力学中,变形分析也需要材料的应力应变之间本构关系。开发和调整经验模型的传统方法通常是将物理直观与有限数据集上的简单回归技术结合起来。高性能计算的兴起导致了高保真仿真数据的可用性不断提高。这些数据为使用机器学习算法(如随机森林或神经网络)开发更精确和通用的经验模型开辟了可能性。在使用数据驱动算法开发这些经验模型时,一个关键问题是如何将专业领域的知识纳入机器学习过程。本文将特别讨论具有对称性或不变性的物理系统。比较了两种不同的机器学习模型的不变性教学方法。在第一种方法中,构造了不变输入的基,并在此基础上训练机器学习模型,从而将不变性嵌入到模型中。在第二种方法中,该算法对原始输入数据进行多次变换,直到模型学习到对该变换的不变性为止。在第二种方法中,该算法对原始输入数据进行多次变换,直到模型学习到对于输入数据的变换为止。结果表明,在这两种情况下,将不变性嵌入到输入特征中可以在显著降低计算训练成本的情况下获得更高的性能。
在许多科学领域,宏观现象受微观相互作用的控制。为了确保这些系统仿真的有效性,我们经常采用经验模型来近似微观相互作用的影响。例如,在湍流建模中,雷诺平均法(RANS)仿真使用雷诺应力经验模型来近似湍流对平均动量场的影响。与直接数值模拟(DNS)相比,这些模拟显著的节约了计算成本,DNS直接将湍流波动分解到最小尺度。在固体力学中,经验模型还用于将应力与原子尺度上潜在复杂的变形联系起来,在非理想气体的热力学关系中,以及在电磁学中用于定义诸如导电性等材料特性。这些基本模型允许使用连续介质方法代替直接模拟原子间的相互作用。
通常,这些模型是通过结合理论知识和对来自简化测试实例的有限数据集的标定来开发的。例如,广泛使用的SPARART -ALARMAS RANS湍流模型最初被应用于再现二维混合层流和尾流。同样,壁面作用通常用来模拟壁面对于基于大平面边界层发展的湍流的影响。在定义超弹性材料的本构关系时,Ogden[3]利用物理参数确定关键项,然后将系数与实验数据拟合。Valanis和Landel[4]使用了类似的方法来形成超弹性材料的本构关系。这些例子是典型的数据受限状态,其中只需要几个自由参数的简单模型是可取的,因为当调整到有限的可用实验数据量时,它们可以避免过度拟合。
最近,高性能计算的兴起导致了在越来越复杂的配置中提供大型高保真数据集。在流体力学中,直接数值模拟(DNS)解决了时间相关流动的所有尺度。在固体力学中,分子动力学(MD)模拟以原子层面解决复杂材料的变形问题。虽然在许多实际应用中运行这些高保真度模拟在计算上还不可行,但这些模拟输出了大量数据,可以挖掘这些数据来开发和改进经验模型。此外,实验技术的进步,如数字体积相关[5,6]、层析粒子图像测速[7]和磁共振测速[8],产生了大量的具有丰富细节的的实验数据集。
已经有好几次尝试使用机器学习算法来利用这些大型高保真数据集来构造更精确的模型闭包。Milan和Koumoutsakos[9]使用湍流在渠道中流动的的DNS结果训练神经网络来重建近壁流。Tracey等人[10,11]使用机器学习算法对雷诺应力各向异性进行建模,并模拟Spalart-Allmaras湍流模型中的源项。Duraisamy等人[12] 利用神经网络和高斯过程对过渡湍流的间歇性进行了建模,张等人[13] 使用这些算法来模拟渠道水流中的紊流产生。数据驱动模型也被用来校准地下水流的模型[14]。Ling和Templeton[15]使用随机森林来预测RANS结果中具有高模型形式不确定性的区域。
数据驱动方法也被用于开发固体力学中的高级本构模型。Ghaboussi[16,17]提出了使用神经网络对桁架和纤维增强复合材料进行本构建模。随后,神经网络被用来模拟各种材料的应力-应变关系,包括沙子[18]、粘塑性材料[19]、金属合金[20]和混凝土[21]。冯和杨[22]还使用数据驱动的遗传进化方法来推导复合材料的本构关系。Shen等人。[23]和Liang等人。[24]分别实现了超弹性材料和弹性泡沫材料应变能函数的神经网络模型。显然,数据驱动方法在固体力学领域也越来越流行。
将数据驱动技术应用于物理系统时,关键问题之一是专业知识在多大程度上可以而且应该嵌入到算法中。机器学习界的一个思想流派是,需要注入到算法中的专业知识非常少,并且给定足够的数据,算法应该能够自己识别模式和结构[25,26]。将专业知识嵌入到机器学习模型中的一个缺点是,如果该专业知识被证明是错误的,则会导致机器学习模型的性能降低。例如,Piatetsky[25]指出,一种确定潜在卡车路线的算法可以利用专业知识来排除任何涉及水上驾驶的路线;虽然这一规则似乎合理,可以减少计算成本,但在冬季冰冻湖泊允许卡车通过时,它可能不适用。Grzes和Kudenko[27]表明,将错误的专业知识构建到他们的强化学习模型中会导致模型性能的显著下降。然而,在许多物理系统中,以已知的不变性和对称性的形式存在明确和精确的专业知识。
例如,已知经典运动定律遵循伽利略不变性,这表明这些定律在不同的惯性参考系中不会改变。事实上,运动定律与不变性有着错综复杂的联系。Noether定理[28,29]描述了对称性如何表示可用于推导运动定律的基本约束,强调了这些性质在物理系统中的中心地位。考虑到这些对称性的重要性,对于具有不变性的系统的任何机器学习模型,无论是模型精度还是物理可实现性,都需要遵循这些不变性。在流体力学的背景下,伽利略不变性表示为,诸如压力或速度大小这样的变量,在旋转、反射或参考框架的转换等变换中不发生改变。同样,同样的原理表明,实体变形反应只取决于拉伸,而不是局部旋转。类似地,许多晶体材料表现出材料的对称性,使得像内部应变能这样的标量函数对与晶体相关的对称群内的旋转保持不变。如果一个函数的输入值在经过该变换时没有改变,这个函数在给定的变换下就是一个不变量。第二节的2.1对不变量进行了更深入的讨论。
虽然人们对将数据驱动方法应用于物理系统的封装模型越来越感兴趣,但是对于如何选择这些模型的输入特征集,以及这些输入特征是否应遵循系统的不变性等方面,文献中并没有真正的一致性的意见。在传统的闭包建模中,不变性是显式的,机器学习闭包模型可以选择使用非不变输入,然后训练模型来学习不变性。Milano和Koumoutsakos[9]使用瞬时速度场作为他们的神经网络的输入来预测近壁区域的速度分量;他们没有努力确保他们的神经网络的旋转不变性,因为它被设计成只在单个流结构中进行预测。Duraisamy等人[12]利用神经网络建立湍流间歇因子模型时, 采用爬坡特征选择技术确定关键输入特征。所选择的特征不考虑旋转不变性,模型仅在单个流结构上进行训练和测试。Lefik和Schrefler[30]使用神经网络来模拟超导电缆的应力应变响应。他们没有使用不变的输入特征,而是用原始训练数据的多次旋转轮换来训练神经网络,试图增强模型的不变性。而Tracey等人[10] Ling和Templeton[15]都在机器学习模型中使用了伽利略不变的输入特征,这两项研究都使用物理直观来指导他们选择输入特征。更深入地了解使用不变特征的好处和确定完整输入特征基的综合方法,将有助于将机器学习应用于本构模型。
机器学习界对学习不变性进行了一些研究,特别是在图像识别领域。例如,在面部检测中,期望能够检测图像中的面部,而不考虑面部的方向。类似地,在文本处理中,模型需要解释手写字母,即使它们稍微扭曲、缩放或旋转。Baird[31]建议,在对一些印刷错误的信件进行文本处理的情况下,将训练集扩展到包括扭曲版本的初始训练集。对于手写数字识别的应用,Simard等人[32]开发了Tprop算法,利用代价函数的导数信息更好地学习对失真的不变性。Decoste等人[33]用支持向量机研究相同的数字识别问题,提出了使用抖动核在不变空间内找到任意两个示例之间最接近的匹配的思想。其他研究者提出了使用更复杂的机器学习模型,如用于具有不变性的图像识别系统的深卷积神经网络[34]或权重共享神经网络[35]。
图像识别的不变性与本研究所考虑的不变性之间有几个区别因素。首先,这里考虑的不变性性质是精确的。例如,在数字识别中,不需要精确的旋转不变性,因为这会导致在区分6和9时产生混淆。第二,在许多物理系统中,充分尊重不变性是很重要的。虽然95%的旋转不变性在人脸检测中是可以容忍的,但在许多物理应用中,它可能导致无法实现的结果或数值发散。最后,他们之间的不变性和输入是根本不同的。而在图像识别中,输入是一个N×N(或N×N×3,对于彩色图像)图像矩阵,在物理系统中,相关的输入通常是3×1矢量或3×3张量,它们表示三维空间中给定点的局部性质,这些输入值在一组操作下是不变的。在这些物理系统中,可以导出输入的有限不变基。
本文讨论的主要问题是如何教授机器学习模型关于物理系统中的不变性或对称性。将探讨两种主要方法。在第一种方法中,构造了不变输入的函数基,并在此基础上训练算法。该方法利用专业知识通过输入基将不变性嵌入到模型表示中,使得输出必然服从不变性。这个函数基是完整的:任何不变函数都可以用这个基来表示,这将在第2节中进一步讨论。在第二种方法中,机器学习算法是在原始数据上训练的,而不是基于不变量。为了使模型对给定的变换具有不变性,必须扩展训练数据集以包含系统的变换状态。例如,为了使一个模型具有旋转不变性,该算法将对来自系统多个角度方向的数据进行训练。这样,模型就有机会自己学习不变性,而不需要将该特性具体嵌入到算法或输入中。
本文的目的是双重的。首先,它提出了建立不变输入的基础的过程,这可以作为一种系统方法,用于构造一个完整的输入特征集,其中没有遗漏任何相关信息。这一过程将有助于研究人员开发具有不变性的物理系统的数据驱动模型。其次,它比较了在这个不变输入基上训练的模型和在原始的、非不变输入上训练的模型的性能。由于模型不变性是一个嵌入的属性,而不仅仅是一个学习的属性,因此基于不变基训练的模型将更有效地增强这种不变性。然而,一个有趣的关键问题是,需要多少训练数据和计算资源才能使模型学习得到不变性。虽然本文的案例研究来自流体力学和固体力学领域,但其结果对于数据驱动技术在任何具有对称性的系统中的应用具有更广泛的意义。第2节将概述如何构造不变基,以及训练和测试机器学习算法的总体方法。第3节将描述湍流模型和晶体弹性模型的案例研究。在这两种情况下,将给出量化机器学习算法学习相关不变性特性的能力的结果。第四部分为结论和未来研究的思路。
将不变性嵌入到机器学习模型中的一种方法是将模型的所有输入表示为不变性。因此,输出预测必然也是不变的。给定一组任意的张量、向量和标量作为潜在的原始输入,此方法需要将它们表示为不变输入。许多以前的研究人员都依赖物理直觉来构造这些不变输入[10,12,15],但是如果建模者省略了相关的不变输入,这种方法就有从输入集中排除关键信息的风险。有一个系统的过程来建立完整的不变输入基的函数基会更有用。相关的问题于是变成了这样的基是否存在,它是否是有限的,以及它是如何被构造的。为了回答这些问题,本节将对群理论、表示理论和不变理论的相关结果进行简要概述。
组是满足以下条件的一组元素和二元运算符:i) 结合性,ii)每个元素在群中也有一个逆,iii)群包含一个特征元素,即它自身的逆,iv)群在算子的作用下是封闭的(即,如果x和y在一个有算子的群中,那么xy也在群中)[36]。在表示论中,这些群被表示为线性变换,因此使得群的每个元素都由一个矩阵表示,并且算子是矩阵乘法[37]。例如,所有可逆n×n矩阵的集合与矩阵乘法运算形成一个群表示,称为n次广义线性群GL(n)。对称性和不变性通常可以方便地用代数群及其矩阵表示来表示。
一个标量函数在给定的组下是不变的,如果当它的输入受到该组中任何元素指定的转换时,它的输出值不变。例如,向量和张量的标量值函数 f=f(v,A) 在下列情况下是旋转不变的:
适当的正交群SO(3) 是三维中所有旋转矩阵的群。多项式不变量是张量元的不变多项式函数。一个给定的二阶张量有三个独立的各向同性多项式不变量:它的迹、它的平方和它的立方。的任何单独的各向同性多项式函数都可以写成这三个不变量的函数,因此这些不变量构成完整的基。这些不变量也构成了函数基,这意味着a的任何一般各向同性函数都可以表示为这些不变量的函数[38]。值得注意的是,如果我们有两个张量的函数,那么由a和B形成的完整的函数基不仅仅是单个张量的基的并集,它还包括依赖于这些张量乘积的不变量。然后问题就变成了如何为张量和向量的任意集合构造不变量的基础。
事实上,可以证明,在大多数感兴趣的情况下,这种基础是可以建立的。对于向量和张量的任意有限集合以及由有限群或正交群定义的给定对称性,Hilbert基定理[39,40]指出可以构造不变量的有限完整性基。张量和向量集合的任何不变函数都可以表示为相应不变基的函数[40]。为了构造不变基,最简单的方法是参考文献:对于大多数常见对称群的向量和张量的任意组合,包括正交群[40–44],已将不变基完全列表化。因此,不变量基的构造只包括引用对应于相关对称群所需张量和向量数的表。因此,不变量的有限基是存在的,而且对于大多数感兴趣的对称性质来说,它的构造是简单的。这种创建输入基的系统过程避免了在给定正确的原始张量和向量输入集的情况下从输入集中省略关键不变量的可能性。然而,如果建模者忽略了在输入集中包含一个关键张量,那么创建一个不完整张量输入集的完整输入基仍然会导致信息丢失和模型性能差。还应注意的是,这些不变基并不唯一,机器学习模型的性能可能因基的选择而不同。因此,物理直觉仍然可以发挥作用,发展最终的输入基础。
对于给定的机器学习算法,通过训练过程建立模型。训练机器学习模型是使模型适合数据的方法;在回归或贝叶斯推理的背景下,这一过程通常被称为校准或拟合。训练数据是本次培训过程中使用的所有数据节点。比较了两种不同的系统不变性机器学习模型的教学方法。在第一种方法中,原始输入被转换为已知系统不变性的不变输入基。在此基础上对机器学习模型进行训练,有效地将不变性嵌入到模型中。在第二种方法中,根据已知的不变性对原始输入进行变换,并在此变换后的数据上训练模型。例如,在旋转不变性的情况下,将原始数据旋转指定的次数,并将所有旋转的数据编译成一个较大的训练集,用于学习不变性。数据围绕主轴以均匀间隔的外部欧拉角旋转:图1以框图的形式展示了这个工作流程。
图1.训练和评估机器学习模型的方法框图
研究了两种不同的机器学习算法。第一个算法是随机森林(RF)回归器,使用sci工具包learn开源Python库实现[45]。RFs由一组二叉决策树组成。每个决策树都是在训练数据的随机子集上训练的,这些数据是通过随机抽样和替换(即bagging)获得的。决策树的每个分支都使用一个if-then逻辑,该逻辑基于最小化基尼不纯度得分来确定一个输入和一个分割数据的阈值[46]。结果是,最终位于同一叶节点的数据点往往具有相似的输出值。在随机森林中,通过仅使用输入特征的随机子集来确定每个分支的分割标准,额外的随机性被纳入到树的生成过程中[47]。RF回归器的最终预测由集合中所有树的平均预测值给出。RFs是一个很有吸引力的选择,因为其鲁棒性和易于实现[48]。RF实现中只有两个可调的超参数:集成大小和最大树深度。最大树深度是一个关键参数,因为它在模型性能和内存使用之间进行权衡:全深度树将具有最大的性能,但可能导致内存使用过度。对于最大树深度没有上限的RFs,叶节点的数量往往与训练数据集的大小成线性比例(如果每个数据点向数据集添加新信息),并且树的深度与叶节点的数量大致成对数比例[49]。因此,在对原始训练数据集进行多次变换的RF进行训练的情况下,RF大小和存储器使用量将随着训练数据集中包含的变换的数量而增加。在极端情况下,树大小的增加会导致内存溢出问题。
为了探索施加最大树深的影响,在湍流模拟案例研究的第3.1节中,最大树深设置为15。之所以选择这个最大深度,是因为它对于不变输入量的RF训练来说已经足够了,相对于使用全深度树,误差只增加了2.5%。另一方面,在第3.2节,晶体弹性的案例研究中,没有施加最大树深,允许其发展到其全部深度。在这种情况下,在训练数据的许多轮换上训练的RFs变得越来越深入和完整,以适应大的训练数据大小。因此,可以将这两个案例研究的结果进行比较,以评估规定最大树深的效果。
一般来说,RF性能会随着集成中的树数的增加而提高,但回报率会降低。两个案例研究的集合大小都规定为500,因为在这个大小下,模型性能不再强烈依赖于集合大小。
第二个被评估的算法是神经网络(NN)[50,51]。虽然NNs既不像RFs那样健壮,也不像RFs那样易于实现,但它具有深度学习的能力,在深度学习中,低层特征被组合并转化为高层特征。这种能力可以让他们更容易地学习诸如对称性或不变性之类的元属性。多层感知器是通过fnetopen源Python包实现的[52]。这些网络由神经元层组成。每个神经元通过sigmoid函数非线性组合其输入,其输出用作下一层的输入。这些层是紧密相连的:每一层神经元的输出被用作下一层神经元的输入。
网络体系结构是通过一种构造方法确定的,首先是一个只有一个隐藏层的小网络。一般来说,具有更多隐藏节点的网络可以捕获更复杂的行为,但会增加过度拟合数据的风险[53]。当添加更多的节点和隐藏层时,网络的性能将受到监视,直到添加更多的节点或隐藏层并没有提高模型在验证点上的性能。每层神经元的数量与输入特征的数量成正比,。在湍流模型的案例研究中,网络结构是(在这里的意思是第一层的节点数,是第二层,是第三层,等等)在晶体弹性的案例研究中,网络结构是。网络训练是通过一个随机截断牛顿优化方案来完成的,在fnetpython库中并行实现[52]。
通过使用早期停止标准避免了过度拟合[54]。当训练集上的模型错误率低于验证集上的模型错误率时,会发生过度拟合。10%的训练数据被保留,不用于训练,并且在训练期间监视此子集上的模型性能。在训练过程中,该子集上的模型错误率的增加表明了过度拟合的开始,并触发了训练过程的停止,从而防止了过度拟合。应该注意的是,训练数据的这一保留子集与后来用于评估模型性能的验证数据是分开的。
我们提出了两个不同的案例来说明构造不变输入基的过程,并研究使用不变输入基的模型与使用非不变输入基的模型的比较性能。我们的第一个例子是湍流模型,我们讨论了从平均应变率和旋转率张量预测雷诺应力张量的各向异性。我们的第二个例子是从晶体弹性出发,研究了具有晶体对称性的原子材料的应变能函数。这些案例研究证明了这些方法的广泛适用性:它们不仅来自不同的领域,而且使用不同的数据生成方法,具有不同的对称类型。这两个案例研究首先概述了感兴趣的数量及其典型的建模方法,然后讨论了系统的物理不变性,并详细说明了不变输入基的构造。最后,讨论了机器学习算法的精度和计算代价。
雷诺平均纳维斯托克斯(RANS)湍流模型依赖于雷诺应力的经验闭包,由于湍流波动而产生的动量传递。雷诺应力的一个非常常见的闭合是Boussinesq假设[2]:
式(2)中,为速度场的脉动分量,为湍流动能,为单位矩阵,为涡粘性,为对称平均应变率张量。这个约束很简单,有助于收敛。然而,在许多流动中,它对雷诺应力各向异性的预测很差。无量纲雷诺应力各向异性张量由。在具有显著各向异性的流中,依赖于Boussinesq假设的RANS模型容易出现较高的不确定性[55]。Ling和Templeton[15]开发了一个机器学习模型,用于预测具有高各向异性的流动区域,以此作为RANS预测具有高不确定性的指标。他们使用各向异性张量的第二个不变量,,量化各向异性程度[2]。为了量化给定RANS模拟结果的不确定性,给出流场的RANS模拟结果,预测雷诺应力各向异性是非常有用的。因此,在本研究中,机器学习模型的目标量是雷诺应力各向异性的第二个不变量。根据DNS(直接数值模拟)数据计算的真实值,用来训练和评估机器学习模型。机器学习模型的输入张量是RANS预测的平均速度场梯度。为了建模需要,为了方便通常将速度梯度分解为对称和反对称分量,分别是和。Pope[56]建议对这些张量进行以下非量纲化:和。为了与Craft等人[57]、Pope[56]和其他人[58,59]的非线性涡流粘度建模工作保持一致,本案例研究中的输入是根据这些无量纲和制定的。
Navier-Stokes方程遵循伽利略不变性:参考系的惯性变换不会改变运动定律。在这个问题的背景下,这种不变性表明,如果参考系被平移、匀速移动、旋转或反射,流动中给定点处的雷诺应力各向异性不变量不会改变。和对平移和等速偏移不变,但对反射或旋转不不变。因此,由这两个张量形成的适当不变量必须是正交群的不变量。全正交群由转置等于逆的矩阵组成。S和R对平移和等速偏移不变,但对反射或旋转不不变。因此,由这两个张量形成的适当不变量必须是正交群的不变量。全正交群由转置等于逆的矩阵组成。这个群组包括所有反射矩阵和旋转矩阵。
关于正交群的和的不变输入基可以使用Johnson[40]中的表来构造,该表列举了对称和反对称张量的相关不变量:
图2.横流结构的壁挂立方体示意图。实心底墙和立方体显示为灰色。在中间平面上显示的流线速度等值线,流线用黑色覆盖
(3)
在不可压缩流中,连续性要求,因此这个完整性基础可以简化为6个非零不变量:。
因此,当应用第2.1节中描述的嵌入和学习不变性方法时,机器学习模型可以使用9个不同的张量分量(6个来自对称,3个来自斜对称)或使用6个完整的不变输入基来训练。
在这个案例中,用来训练和评估机器学习模型的数据集是壁挂立方体横流的RANS和DNS。这些模拟结果先前已由Rossi等人提出,计算设置的细节载于参考文献[60,61]。在FLUENT 12.0中使用k–模型进行RANS仿真。基于自由流速度和立方体高度的雷诺数为5000。图2显示了该流结构的示意图,中面处的平均流向速度等高线使用DNS计算。如图所示,立方体下游有一个实质性的再循环区域。Ling和Templeton[15]表明,在该流动中存在明显的雷诺应力各向异性区域,特别是在立方体上游的停滞区域。这种流动结构具有三维性、流动曲率、滞止和分离等特点,是训练和测试雷诺应力各向异性机器学习模型的一个具有挑战性的例子。这种流动结构具有三维性、流动曲率、滞止和分离等特点,是训练和测试雷诺应力各向异性机器学习模型的一个具有挑战性的例子。从壁挂式立方体数据集中随机抽取15000个点。在这些点上,计算张量和,以及雷诺应力各向异性不变量。然后对这15000个点进行随机划分,其中10000个点用于训练机器学习模型,另外5000个点用于验证模型性能。
首先评估了随机森林算法的性能。根据式(3)中的不变量对RF进行训练,并使用标准化误差度量在训练集(产生训练误差)和验证集(产生验证误差)上评估其性能:
在等式(4)中,是各向异性不变量的DNS值,是机器学习模型中不变量的预测值,其和在所有数据点上。实际上,这个误差度量给出了真实各向异性和预测各向异性之间的平均差值大小,并用各向异性的平均值进行了归一化。
图3(a)描绘了基于不变输入基训练的RF和基于原始张量分量训练的RF的误差E。在原始张量分量上训练的RF使用旋转指定数量的训练数据来训练,以训练算法学习旋转不变性。作为第一步,RF只进行了二维旋转训练(仅旋转在欧拉角),并对20个实现随机旋转的验证数据进行了测试。二维旋转的情况很有意义,因为学习二维旋转不变性是一个比较容易的问题,它揭示了性能和计算要求是如何随不变性的复杂性变化而变化的。作为第二步,对RF进行了全三维旋转训练,并对20个随机三维旋转实现验的证数据进行了测试。这两个步骤的结果如图3所示。在3D旋转的情况下,该图显示了每个欧拉角中的训练旋转数,因此每个Euler角中的10个旋转对应于训练数据的1000个总旋转。
(a)Random Forest(随机森林) (b)Natural Network(NN神经网络)图3.湍流模拟案例研究中(a)随机森林和(b)神经网络的训练旋转次数的函数误差。基于不变量(黑线,无符号)训练的模型不在任何旋转数据上训练,因为它们对旋转是不变的。在原始张量分量上训练的模型在二维(圆形)和三维(正方形)中训练数据的等间距旋转。训练错误用虚线表示,验证错误用实线表示。误差条表示误差的标准偏差。
如图所示,基于不变量训练的RF的验证误差约为0.32。这个相对较高的误差水平反映了这样一个事实,即S和R的局部值永远无法完全预测雷诺应力,因为非局部效应在湍流中是不可忽略的。在对原始张量分量进行二维旋转训练的情况下,RF能够较好地学习不变性当训练数据至少旋转10次时。在3D旋转的情况下,RF无法成功地学习旋转不变性。训练误差随着训练旋转次数的增加而显著增加,这很可能是由于树的最大深度限制了模型的复杂性。
图3(b)给出了基于不变量和原始张量分量训练的神经网络的误差。基于不变量训练的RF和NN具有相似的性能。在原始张量分量上训练的神经网络在训练数据旋转10次后,学习对二维旋转的不变性。事实上,这种神经网络能够获得比基于不变基训练的神经网络更低的验证误差。这是可能的,因为在2D不变的情况下,不变基是过度约束的,因为这个基对整个3D旋转组是不变的。在三维旋转的情况下,在原始张量分量的每个欧拉角上进行10次旋转训练的神经网络仅能获得5%的验证误差,比在不变基础上训练的神经网络的误差要大。这些结果表明,只要训练数据旋转足够多次,NNs就能够学习旋转不变性。
值得注意的是,将神经网络训练到初始训练数据集的1000倍,以获得这种三维旋转不变性,大大增加了网络训练的计算成本。表1详细说明了RF和NN的计算要求,包括训练算法所需的CPU时间和存储训练模型的最终内存要求。训练是在一个每个节点有32 GB RAM和12个2.2 GHz处理器的系统上并行进行的。如表所示,训练NNs的计算成本通常远高于训练RFs的计算成本。
图4.误差是仅使用来自S而不是R的信息的随机森林的2D中训练旋转次数的函数。显示了在S的不变量(黑线,无符号)以及原始张量分量(圆)上训练的RF的结果。训练错误用虚线表示,验证错误用实线表示。误差条表示误差的标准偏差。
RF训练采用贪婪算法,提高了计算效率,而训练NNs需要迭代求解非凸优化问题。在原始张量分量的10个3D旋转上训练的RF和NN要比基于不变量训练的RF和NN的时间长几个数量级。
即使最大树深度限制在15,RFs的内存使用量也明显超过NNs。特别是,当RF使用3维旋转数据时,存储训练RF所需的内存超过10gb。内存使用量的增加是由于树节点数量的增加。树的深度由连接任何叶节点到根节点的最大分支数确定。但是,一个叶节点很可能通过15个分支连接到根,而另一个叶节点只通过2个分支连接到根。深度为15的树可以有多达2^15=32768个叶节点,而不变的RF树平均只有2370个叶节点,这表明许多叶节点通过不到15根分支与根相连。另一方面,使用3维旋转数据训练的RF模型中平均每个决策树拥有17500叶节点,在这种情况下占了更高的内存使用率。相比之下,所有NNs使用的内存都小于0.01gb。
一个有趣的问题是,在机器学习模型学习到不变性之前,控制所需训练旋转次数的是什么。在这种情况下,为了学习旋转不变性,每一个欧拉角需要大约10次旋转训练。为了更好地理解这种依赖性,研究了一个子问题,其中只允许依赖于S,而不允许依赖于R。在这种情况下,一个RF使用S的6个不同的张量分量训练,另一个RF使用S的2个非零不变量训练。这种情况下的结果如图4所示。如图所示,在S的张量不变量上训练的RF模型比在S和R的张量不变量上训练的RF模型具有更高的错误率,从而证实R包含有用的信息内容。在S的原始张量分量上训练的RF在10次旋转训练后学习到了不变性,和当使用s、R两个的分量时,学习不变性所需的旋转次数相同,所需的旋转训练次数似乎与问题的复杂性和所使用的算法无关。大约10次旋转就是旋转训练数据集产生精确结果的某个点。
到目前为止,焦点一直集中在旋转不变性上。对于全伽利略不变性,还需要参考系映射下的不变性。方程(3)中提出的不变输入基在包含映射的全正交群下是不变的。完全正交群可以由适当正交群(仅旋转矩阵)和中心反演(单位矩阵的逆)的乘积生成[62]。因此,训练一个机器学习模型来服从映射的不变性需要两倍训练数据集的大小,以同时包括旋转训练数据的中心反转变换。评估了NNs学习全正交群(包括映射)不变性的能力。对神经网络进行了10次三维欧拉角旋转训练,并对每一次旋转进行了中心反演(共2000个原始训练数据的转换变种)。然后在20个随机旋转和验证数据的映射上测试神经网络。以这种方式训练和测试的神经网络,其验证误差是E=0.40;比仅训练和测试无映射三维旋转的神经网络高出8%,比不变输入基训练的神经网络高出14%。因此,训练服从三维映射和旋转不变性神经网络要求训练数据集的大小有大幅增加,并且不能完全等同于基于不变量训练的神经网络的性能。
在固体力学中,材料的应力应变本构关系是预测材料变形所必需的。对于弹性材料,可以引入应变能函数 W,其中 W 是变形梯度 F 的函数,F 是当前材料位置相对于其参考位置的导数。应变能函数可以相对于 F 来区分,以恢复应力[63]。因此,对于弹性材料,定义本构关系的问题可以简化为确定 F 的函数值 W 的问题。因此,机器学习模型预测的目标量是应变能函数,张量输入是变形梯度。
在这种情况下,应变能函数具有两个不变性。首先,W是刚体转动的不变量。因此,对于适当正交群中的任意 Q,。第二,在这个案例研究中,感兴趣的材料具有立方对称性,因此如果晶体被立方对称群的元素 G 旋转,W 不会改变:。立方对称群,也称为八面体群,有48个成员,生成关于坐标轴的四分之一旋转和反转。
利用文献[64]中的表格,建立了刚体转动和立方对称群的六个不变输入基:
(5)
在式5中,是右柯西-格林变形梯度张量。是立方对称群的四阶结构张量特征。运算符 :表示双内积。例如,对于张量和,以及结构张量,。对于立方结构张量,这个表达式可以进一步简化为:。
因此,机器学习模型要么在等式(5)中指定的6个不变量上训练,要么在F的9个分量上训练。
用于训练和验证机器学习模型的数据是使用Nickel [65]的小面心立方晶格与嵌入原子方法(EAM)相互作用生成的。为了给机器学习模型一个简化的学习数据集,温度被设置为零。而在湍流模拟案例研究中,训练集是通过一次模拟运行生成的,其中不同的数据点代表了流动中的不同位置,在本案例研究中,训练集是由应变能函数的各个样本构成的,用于不同的晶体取向和拉伸。理想晶格首先旋转,然后三轴拉伸,两种键能之和等于应变能。这个过程如图5所示。
采用与湍流模拟案例研究相同的方法,从该数据集中随机抽取15000个点,其中10000个点用于训练,其余5000个点用于验证。
图5.2 2D晶体弹性案例研究数据生成过程示意图分别研究了变形梯度张量左乘正交群元素和变形梯度张量右乘三次对称群元素,这两种不变性。图6显示了RFs和NNs在学习刚体旋转不变性方面的性能。由于温度设定为零,基于不变量训练的神经网络和RF的误差很小。不同于湍流模型的实例研究,W(F)存在一个精确的函数形式,因此理论上误差可以归零。Cauchy-Born模型能准确地描述理想晶体均匀变形的应变能响应。Cauchy-Born模型的应变能是由变形梯度拉伸的特定势能给出的键能之和。图6还显示了在张量不变量上训练的线性模型的误差。在线性模型的情况下,训练误差与验证误差相差不到1%,这表明这个非常简单的模型没有出现过拟合。由于该材料具有非线性本构方程(由于所施加力范围的EAM势的形式),线性模型比基于不变输入基训练的RF和NN具有更高的误差,因为这些算法能够更好地捕捉这种非线性。
(a)Random Forest随机森林 (b)Natural Network 神经网络图6.固体力学案例研究中随机森林(a)和神经网络(b)训练轮换次数的函数误差。基于不变量(黑线,无符号)训练的模型不在任何旋转数据上训练,因为它们对旋转是不变的。使用不变基作为输入的线性回归模型的结果显示为比较(三角形)。在原始张量分量上训练的模型在二维(圆形)和三维(正方形)中使用等间距旋转的训练数据进行训练。训练错误用虚线表示,验证错误用实线表示。误差条表示误差的标准偏差。
在这种情况下,由于RFs没有规定的最大深度,因此即使训练中旋转的次数增加,训练误差仍然很低。通过160次2D旋转训练,RF学习到了对2D刚体旋转的不变性,验证误差仅为5%。然而,在内存溢出之前,RFs无法学习到对3D刚体旋转的不变性。表2给出了本案例研究中各种算法的计算成本。再次,RFs的计算时间明显小于相应NNs的计算时间。然而,在这种情况下,由于树允许生长到全深度,当RFs在训练数据的多个旋转上进行训练时,它们占用的内存迅速上升。对于不变输入基的RF训练,平均树深为20,平均每棵树的叶数为2650。在每个三维欧拉角上进行5次旋转的RF训练,平均树深为24,平均每棵决策树的叶节点数为238000。这种树大小上的差异表现为在3D旋转上训练的RF模型的内存使用增加到超过60GB。具有如此高内存使用率的模型在许多实际应用程序中部署起来将非常困难。
另一方面,NNs能够学习二维和三维刚体旋转的不变性,如图6(b)所示。神经网络的误差小于线性模型的误差,说明神经网络在一定程度上也捕捉到了非线性行为。然而,在旋转原始数据上训练的神经网络不能像在张量不变输入基上训练的神经网络那样达到较低的误差。
图7.应变能函数Wpredicted-Wtrue预测值的误差散点图,作为Wtrue的函数。在验证数据集上,不变输入基(填充圆)和原始张量分量在每个欧拉角中三维旋转10次(空正方形)的训练NNs的结果显示。结果还显示了线性拟合到不变基(三角形)。图7将W的预测值中的误差与真值进行比较。给出了基于不变输入基训练的神经网络、基于不变输入基训练的线性拟合和基于原始张量分量训练的神经网络在三维欧拉角上旋转10次的预测结果,如图所示,没有一个模型是完美的,它们都有非零误差。然而,在不变输入基上训练的神经网络在W的非常高和非常低的值上具有迄今为止最精确的预测。虽然在原始张量分量上训练的神经网络的性能略优于线性拟合,但这两个模型都不能完全捕获W中的非线性行为。总体而言,在不变量的线性拟合与旋转原始张量分量训练的神经网络之间的误差为 。因此,即使在对1000个旋转的训练数据进行训练后,神经网络也只能勉强超过不变输入基的简单线性回归的性能。
一个相关的问题是,为什么在原始张量分量上训练的神经网络不能完全捕捉到W对F的非线性依赖性。一个可能的解释是,神经网络有固定数量的神经元,因此在训练时,它使用这些神经元尽可能有效地最小化损失函数。如果神经网络没有学习旋转不变性,图6显示结果模型具有非常高的误差(>100%)。另一方面,非线性影响相对较小(线性模型结果显示,误差贡献小于10%)。因此,在最小化损失函数的前提下,神经网络可以在非线性项出现之前学习到旋转不变性。
另外,还研究了神经网络学习立方对称性的能力。立方对称群有48个元素。如果神经网络没有接受训练数据的任何立方变换的训练,而是接受验证数据的立方变换的测试,则误差非常大(E>2)。当对训练数据的48次立方变换进行训练时,立方变换数据的验证误差降低到E=0.085(仍然是基于不变基训练的神经网络的3.3倍)。因此,为了使神经网络只学习刚体旋转不变性,它需要在3个方向上进行大约1000次总的旋转训练(通过变形梯度张量被适当正交组元素左乘来实现),并且为了使神经网络只学习立方对称性,它必须训练48个立方旋转和训练数据的映射(通过变形梯度张量被八面体群元素右乘来实现)。因此,要同时学习刚体不变性和立方对称性,大约需要原始训练数据集的48000倍。训练数据集规模的巨大增长将导致网络训练时间的显著增加。
高性能计算的兴起为将机器学习应用于物理系统开发基于高保真仿真结果的先进数据驱动经验模型开辟了新的可能性。使用数据驱动模型时的一个关键问题是,专业知识应该在多大程度上嵌入到模型中,而不是通过暴露在训练数据中学习。在许多物理系统中,对称性和不变性是先验的,经验模型遵循这些性质是非常重要的。本文研究了随机森林和神经网络两种不同的机器学习算法学习不变性的能力。
探讨了两种不同的方法来将不变性特性引入机器学习模型。一种方法是建立一个不变输入的函数基,从而将不变性嵌入到模型中。本文讨论了利用群论和不变理论的概念构造这种不变输入基的理论和方法。已有文献[10,12,15,30]提出了数据驱动模型,其中非不变特征或不完全不变基作为模型输入集。构造不变量的完整功能基的方法为建立输入特征集提供了一个更加系统和详尽的过程,这对于机器学习实践者为物理系统建立模型具有直接的实用价值。虽然这种建立不变基的过程并不新鲜,但在机器学习的背景下,它是新颖的。第二种方法是在数据的许多转换版本上训练机器学习模型,直到它学习到不变性。对这两种方法分别进行了湍流模拟和晶体弹性模拟。
将随机森林和神经网络的结果进行比较,结果表明,当在不不变输入基上训练时,两种算法在两个案例研究中的性能非常相似。然而,在训练原始张量分量时,NNs比RFs有更好的性能。当为RFs设置最大树深度时,随着数据的旋转版本被添加到训练数据集中,训练误差和验证误差都会迅速增加。另一方面,当没有施加最大树深度时,RF内存使用量变得过大。NNs能够更好地学习不变性并不奇怪,因为NNs以其深度学习能力而闻名。这些结果表明,当使用不变输入基训练算法时,算法要求明显放宽,即使是简单的模型也能有良好的性能。事实上,在固体力学的案例研究中,基于不变输入基训练的线性回归模型的性能几乎与基于原始张量分量训练的神经网络一样好。由于线性回归和RFs都比NNs容易实现,因此在不变输入基上训练时,这些算法的良好性能是不变输入基方法嵌入对称性的一个显著优势。
在这两种情况下,神经网络需要在每个欧拉角上大约10个训练旋转来学习旋转不变性。如第3.1节所述,所需的旋转训练次数的确切依赖性尚未完全理解,但似乎在很大程度上独立于问题的复杂性。旋转的次数可以对应于使用Sigmoidal激活函数建立精确间插所需的训练数据点的数目。每个Euler角需要10个训练旋转,使得网络在3D中学习旋转不变性的训练数据集增加了3个数量级,而且,在这两种情况下,额外的对称性使得训练数据集的大小进一步增加。训练数据集大小的增加导致训练时间相应增加。因此,虽然这些案例研究表明,NNs能够在一个足够大的训练数据库中学习不变性,但计算量可能会变得过大。而且,得到的神经网络性能比不变输入基训练的网络要差。与通过反复暴露旋转训练集来教授模型不变性相比,使用不变输入基会产生更好的不变性,这并不意外,因为使用不变输入基将准确而直接地嵌入不变性属性,并且通常会减少输入的数量。更有趣的是在不变基础上训练的模型有多好。他们使用不到1%的计算能力进行训练,但在两个案例研究中都获得了更高的精度。
需要注意的是,没有尝试优化旋转训练的采样。训练集的旋转在三个欧拉角上均匀分布。更复杂的采样策略最有可能用用较少的旋转训练次数训练神经网络学习旋转不变性。然而,这些结果表明,对于具有多个不变性的系统,由于训练时间的爆炸性,通过扩展训练集来训练神经网络学习这些特性变得很难。这些结果证明了构造不变输入基和在此基础上训练机器学习算法的重要实用性。
未来工作的一个有趣领域是将特征选择算法应用于不变基,并将不变基中的顶级特征与之前研究中通过物理直觉选择的特征进行比较,如Duraisamy等人的研究[12]以及Ling和Templeton的研究[15]。为了训练数据驱动的模型在尽可能少的旋转训练次数内具有旋转不变性,探索训练周期的最优采样方案也是一个有趣的问题。
作者感谢J.Ostein和K.Matulef对本文草稿的宝贵评论。这项工作的经费由桑迪亚国家实验室LDRD项目提供,并感谢其支持。桑迪亚国家实验室是一个多项目实验室,由美国能源部国家核安全管理局(National Nuclear Security Administration)根据合同DE-AC04-94AL85000管理和运营,该公司是洛克希德马丁公司的全资子公司。SAND2016-0249 J。
[1]P. Spalart, S. Allmaras, A one-equation turbulence model for aerodynamic flows, AIAA Pap. 439 (1992), http://dx.doi.org/10.2514/6.1992-439.
[2]S. Pope, Turbulent Flows, Cambridge University Press, 2000.
[3]R. Ogden, Large deformation isotropic elasticity-on the correlation of theory and experiment for incompressible rubberlike solids, Proc. R. Soc. Lond. A, Math. Phys. Eng. Sci. 326 (1972) 565–584.
[4]K. Valanis, R. Landel, The strain energy function of a hyperelastic material in terms of the extension ratios, J. Appl. Phys. 38 (1967) 2997–3002.
[5]H. Leclerc, J. Perie, S. Roux, F. Hild, Voxel-scale digital volume correlation, Exp. Mech. 51 (2011) 479–490.
[6]B. Bay, T. Smith, D. Fyhrie, M. Saad, Digital volume correlation: three-dimensional strain mapping using X-ray tomography, Exp. Mech. 39 (1999) 217–226.
[7]F. Scarano, Tomographic PIV: principles and practice, Meas. Sci. Technol. 24 (2013) 012001.
[8]C. Elkins, M. Alley, Magnetic resonance velocimetry: applications of magnetic resonance imaging in the measurement of fluid motion, Exp. Fluids 43 (2007) 823–858.
[9]M. Milano, P. Koumoutsakos, Neural network modeling for near wall turbulent flow, J. Comput. Phys. 182 (2002) 1–26.
[10]B. Tracey, K. Duraisamy, J. Alonso, Application of supervised learning to quantify uncertainties in turbulence and combustion modeling, AIAA Aerospace Sciences Meeting, AIAA-2013-0259, 2013.
[11]B. Tracey, K. Duraisamy, J. Alonso, A machine learning strategy to assist turbulence model development, AIAA SciTech, AIAA-2015-1287, 2015.
[12]K. Duraisamy, Z. Shang, A. Singh, New approaches in turbulence and transition modeling using data-driven techniques, AIAA SciTech, AIAA-2015-1284, 2015.
[13]Z. Zhang, K. Duraisamy, Machine learning methods for data-driven turbulence modeling, AIAA Aviation, AIAA-2015-2460, 2015.
[14]A. Elsheikh, R. Tavakoli, M. Wheeler, I. Hoteit, Boosting iterative stochastic ensemble method for nonlinear calibration of subsurface flow models, Comput. Methods Appl. Mech. Eng. 259 (2013) 10–23.
[15]J. Ling, J. Templeton, Evaluation of machine learning algorithms for prediction of regions of high RANS uncertainty, Phys. Fluids (2015) 085103.
[16]J. Ghaboussi, J. Garrett Jr., X. Wu, Knowledge based modeling of material behavior with neural networks, J. Eng. Mech. 117 (1991) 132–153.
[17]J. Ghaboussi, D. Sidarta, New Nested Adaptive Neural Networks (NANN) for constitutive modeling, Comput. Geotech. 22 (1998) 29–52.
[18]G. Ellis, C. Yao, R. Zhao, D. Penumadu, Stress–strain modeling of sands using artificial neural networks, J. Geotech. Eng. 121 (1995) 429–435.
[19]T. Furukawa, G. Yagawa, Implicit constitutive modelling for viscoplasticity using neural networks, Int. J. Numer. Methods Eng. 43 (1998) 195–219.
[20]Y. Sun, W. Zeng, Y. Zhao, Y. Qi, X. Ma, Y. Han, Development of constitutive relationship model of Ti600 alloy using artificial neural network, Comput. Mater. Sci. 48 (2010) 686–691.
[21]S. Jung, J. Ghaboussi, Neural network constitutive model for rate-dependent materials, Comput. Struct. 84 (2006) 955–963.
[22]X. Feng, C. Yang, Genetic evolution of nonlinear material constitutive models, Comput. Methods Appl. Mech. Eng. 190 (2001) 5957–5973.
[23]Y. Shen, K. Chandrashekhara, W. Breig, L. Oliver, Finite element analysis of V-ribbed belts using neural network based hyperelastic material model, Int. J. Non-Linear Mech. 40 (2005) 875–890.
[24]G. Liang, K. Chandrashekhara, Neural network based constitutive model for elastomeric foams, Eng. Struct. 30 (2008) 2002–2011.
[25]G. Piatetsky-Shapiro, Knowledge discovery in real databases: a report on the IJCAI-89 workshop, AI Mag. 11 (1990) 68.
[26]R. Michalski, Understanding the nature of learning: issues and research directions, Mach. Learn., Artif. Intell. Approach 2 (1986) 3–25.
[27]M. Grzes, D. Kudenko, Plan-based reward shaping for reinforcement learning, Int. Syst. 2 (2008) 10–22.
[28]E. Noether, Invariante variationsprobleme, Nachr. Ges. Wiss. Gött. Math.-Phys. Kl. (1918) 235–257.
[29]t.A. Deriglazov.
[30]M. Lefik, B. Schrefler, Artificial neural network as an incremental non-linear constitutive model for a finite element code, Comput. Methods Appl. Mech. Eng. 192 (2003) 3265–3283.
[31]H. Baird, Document image defect models, in: Structure Document Image Analysis, Springer, Berlin, 1992.
[32]P. Simard, B. Victorri, Y.L. Cun, J. Denker, Tangent prop—a formalism for specifying selected invariances in an adaptive network, Adv. Neural Inf. Process. Syst. (1992) 895–903.
[33]D. Decoste, B. Scholkopf, Training invariant support vector machines, Mach. Learn. 46 (2002) 161–190.
[34]S. Farfade, M. Saberian, L. Li, Multi-view face detection using deep convolutional neural networks, International Conference on Multimedia Retrieval, arXiv:1502.02766, 2015.
[35]J. Wood, Invariant pattern recognition: a review, Pattern Recognit. 29 (1996) 1–17.
[36]M. Hamermesh, Group Theory and Its Application to Physical Problems, Courier Corporation, 1989.
[37]R. Cahn, Semi-Simple Lie Algebras and Their Representations, Courier Corporation, 2014.
[38]J. Boehler, Applications of Tensor Functions in Solid Mechanics, Springer, Wien, 1987.
[39]D. Hilbert, B. Sturmfels, Theory of Algebraic Invariants, Cambridge University Press, Cambridge, 1993.
[40]R. Johnson, The Handbook of Fluid Dynamics, CRC Press, 1998.
[41]A. Spencer, R. Rivlin, Isotropic integrity bases for vectors and second-order tensors, Arch. Ration. Mech. Anal. 9 (1962) 45–63.
[42]G. Smith, On isotropic integrity bases, Arch. Ration. Mech. Anal. 18 (1965) 282–292.
[43]A. Spencer, Isotropic polynomial invariants and tensor functions, in: Applications of Tensor Functions in Solid Mechanics, Springer, Vienna, 1987.
[44]Q. Zheng, Theory of representations for tensor functions—a unified invariant approach to constitutive equations, Appl. Mech. Rev. 47 (1994) 545–587.
[45]F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay, Scikit-learn: machine learning in Python, J. Mach. Learn. Res. 12 (2011) 2825–2830.
[46]D. Steinberg, P. Colla, CART: classification and regression trees, in: The Top Ten Algorithms in Data Mining, Chapman and Hall, Boca Raton, FL, 2009.
[47]L. Breiman, Random forests, Mach. Learn. 45 (2001) 5–32.
[48]R. Banfield, L. Hall, K. Bowyer, D. Bhadoria, W. Kegelmeyer, S. Eschrich, A comparison of ensemble creation techniques, Mult. Classif. Syst. (2004) 223–232.
[49]F. Provost, V. Kolluri, A survey of methods for scaling up inductive algorithms, Data Min. Knowl. Discov. 2 (1999) 131–169.
[50]C. Bishop, Neural Networks for Pattern Recognition, Oxford University Press, Cambridge, UK, 1995.
[51]K. Gurney, An Introduction to Neural Networks, CRC Press, New York, 1997.
[52]M. Wojciechowski, Feed-forward neural network for python, Tech. rep., TechnicalUniversityofLodz, Lodz,Poland, 2011.
[53]S. Gallant, Neural Network Learning and Expert Systems, MIT Press, Boston, 1993.
[54]L. Prechelt, Automatic early stopping using cross validation: quantifying the criteria, Neural Netw. 11 (1998) 761–767.
[55]C. Gorle, J. Larsson, M. Emory, G. Iaccarino, The deviation from parallel shear flow as an indicator of linear eddy-viscosity model inaccuracy, Phys. Fluids 26 (2014) 051702.
[56]S. Pope, A more general effective-viscosity hypothesis, J. Fluid Mech. 72 (1975) 331–340.
[57]T. Craft, B. Launder, K. Suga, Development and application of a cubic eddy-viscosity model of turbulence, Int. J. Heat Fluid Flow 17 (1996) 108–115.
[58]K. Abe, Y.-J. Jang, M. Leschziner, An investigation of wall-anisotropy expressions and length-scale equations for non-linear eddy-viscosity models, Int. J. Heat Fluid Flow 24 (2003) 181–198.
[59]C. Speziale, A consistency condition for non-linear algebraic Reynolds stress models in turbulence, Int. J. Non-Linear Mech. 33 (1998) 579–584.
[60]R. Rossi, D. Philips, G. Iaccarino, A numerical study of scalar dispersion downstream of a wall-mounted cube using direct simulations and algebraic flux models, Int. J. Heat Fluid Flow 31 (2010) 805–819.
[61]R. Rossi, G. Iaccarino, Numerical analysis and modeling of a plume meandering in passive scalar dispersion downstream of a wall-mounted cube, Int. J. Heat Fluid Flow 43 (2013) 137–148.
[62]R. Rivlin, Non-Linear Continuum Theories in Mechanics and Physics and Their Applications, Springer, Heidelberg, Germany, 2011.
[63]A. Spencer, Continuum Mechanics, Longman Group UK Limited, Essex, England, 1980.
[64]N. Kambouchev, J. Fernandez, R. Radovitzky, A polyconvex model for materials with cubic symmetry, Model. Simul. Mater. Sci. Eng. 15 (2007) 451.
[65]S. Foiles, M. Baskes, M. Daw, Embedded-atom-method functions for the fcc metals Cu, Ag, Au, Ni, Pd, Pt, and their alloys, Phys. Rev. B 33(12) (1986) 7983.