机器学习与物理科学(二)(Machine learning and the physical sciences)

Machine learning and the physical sciences

    • 摘要
    • Ⅱ.统计物理(STATISTICAL PHYSICS)
      • A.发展历史(Historical note)
      • B.深度学习中的理论难题(Theoretical puzzles in deep learning)
      • B.无监督学习中的统计物理( Statistical physics of unsupervised learning)
        • 1.有助于理解基本的无监督方法 ( Contributions to understanding basic unsupervised methods)
        • 2.受限玻尔兹曼机(Restricted Boltzmann machines)
        • 3.现代无监督学习与生成模型(Modern unsupervised and generative modelling)
      • D.监督学习中的统计物理学(Statistical physics of supervised learning)
        • 1.感知器和GLM( Perceptron and GLMs)
        • 2.多层神经网络的物理研究结果)( Physics results on multi-layer neural networks)
        • 3.信息瓶颈(Information Bottleneck)
        • 4.深度学习的场景和复杂性( Landscapes and glassiness of deep learning)
      • E.机器学习在统计物理中的应用( Applications of ML in Statistical Physics)
      • F.展望与挑战(Outlook and Challenges)

作者:Giuseppe Carleo ,Ignacio Cirac ,Kyle Cranmer ,Laurent Daudet ,Maria Schuld ,Naftali Tishby ,Leslie Vogt-Maranto ,Lenka Zdeborová
翻译:Wendy

摘要

  机器学习包含用于大量数据处理任务的广泛算法和建模工具,这些已进入近年来最科学的学科。我们以选择性的方式回顾了有关机器学习与物理科学之间的交叉领域的最新研究。这包括以物理见解为动力的机器学习(ML)的概念性发展,机器学习技术在物理学中多个领域的应用以及这两个领域之间的交叉应用。在给出了机器学习方法和原理的基本概念之后,我们描述了如何 使用统计物理学来理解机器学习中的方法的示例。然后,我们将描述 ML方法在粒子物理学和宇宙学,量子多体物理学,量子计算以及化学和材料物理学中的应用。我们还将重点介绍旨在 加速ML的新型计算体系结构的研究和开发。 在每个部分中,我们都描述了最近的成功以及特定领域的方法和挑战。

Ⅱ.统计物理(STATISTICAL PHYSICS)

A.发展历史(Historical note)

  虽然机器学习作为物理学研究的一种广泛使用的工具是一个相对较新的现象,但两个学科之间的交叉应用可以追溯到很远的时期。尤其是统计物理学家为我们对学习的理论理解做出了重要贡献(正如“统计学”一词无疑暗示的那样)。

  当从示例中进行统计学习接管了基于逻辑和规则的AI时,统计力学与学习理论之间的联系就开始了,这是在1980年代中期。两篇开创性的论文标志着这种转变,Valiant的可学习理论(Valiant,1984年)为AI进行严格的统计学习开辟了道路,Hopfield的联想记忆神经网络模型(Hopfield,1982年)激发了概念的广泛应用 ,从旋转玻璃理论到神经网络模型。这一点由Amit,Gutfreund和Sompolinsky(Amit等人,1985年)对Hopfield模型的存储容量计算以及随后的工作进行了见证。伊丽莎白·加德纳(Elizabeth Gardner)的开创性工作在学习模型上进行了更为严格的应用,他利用重复实验的技巧(Gardner,1987,1988)为有监督和无监督学习模型计算了简单前馈神经网络的权重空间中的体积。

  Gardner的方法能够明确地计算学习曲线,即典型的训练和泛化误差与训练样本数量的函数,非常特殊的锥度和两层神经网络(Györgyi和Tishby,1990; Seung等,1992a; Sompolinsky等,1990)。这些分析性的统计物理学计算表明,学习动态可以表现出比最坏情况下的自由PAC边界所预测的行为更为丰富的行为(PAC表示可证明是近似正确的)(Valiant,1984年)。特别地,学习可以表现出从不良到良好概括的阶段性转变(Györgyi,1990)。如各种模型所示,这种 丰富的学习动力和曲线可能会出现在许多机器学习问题中,请参见例如 最近的综述(Zdeborová和Krzakala,2016年)。学习统计物理学在1990年代初达到顶峰,但对机器学习从业者和理论家的影响较小,他们专注于与输入分配无关的一般性广义界限,其特征是: 假设类别的Vapnik-Chervonenkis维数(VC维)或Rademacher复杂度。

B.深度学习中的理论难题(Theoretical puzzles in deep learning)

  在新千年中,机器学习的特征是更大范围的学习问题,其中输入/模式的训练数据的尺度和可调整参数的数量从数百个变为数百万个。大规模前馈神经网络模型的回归,以及具有更多隐藏层的深度神经网络模型,得到了极大的证明。这些深度神经网络本质上与80年代已经提出的前馈卷积神经网络相同。但是不知何故,由于有了更大规模的输入和庞大而干净有效的训练数据(以及更多的技巧和黑客手段),大约 2010年及以后,这些网络在许多不同的模式识别和其他机器学习竞赛中开始击败最新技术。深度学习的惊人性能,采用相同的随机梯度下降(SGD)错误反向传播算法进行训练,使每个人都感到惊讶

  困惑之一是,现有的学习理论(基于最坏情况的类似PAC的泛化界限)无法解释这种惊人的成功。现有理论无法预测为什么可调整参数/权重的数量/维数远高于训练样本数量的深层网络具有良好的泛化特性。如今,在一篇经典文章中(Zhang等人,2016年)弥补了这种理论上的不足,作者在数字上证明了用于分类的最新神经网络能够对完全随机生成的标签进行分类。在这种情况下,现有的学习理论不能对泛化误差提供任何有用的限制。然而实际上,当在真实标签上训练时,我们观察到了相同深度神经网络的良好概括。

  继续讨论未解决的问题,我们对哪些学习问题在计算上是可以解决的没有很好的理解。这一点特别重要,因为从计算复杂性理论的角度来看,在最坏的情况下,我们遇到的大多数学习问题都是NP难题。当前深度学习的另一个关键问题是关于超参数和体系结构的选择,到目前为止,超参数和体系结构的选择是由大量的反复试验和研究人员令人印象深刻的经验共同指导的。在ML的应用扩展到许多领域的同时,该领域也要求采用更加系统化和基于理论的方法。 在当前的深度学习中,基本问题(例如,为了能够以良好的精度学习给定任务而需要的最小样本数是多少)是完全开放的。

  同时,有关深度学习的最新研究充斥着 有趣的数值观察和需要解释的实验。对于物理学的听众来说,可以将这种情况与量子力学刚刚发展之初的基础小规模物理学的最新水平进行比较。该领域充满了无法解释的实验,正在逃避现有的理论理解。显然,这是一些物理学思想研究神经网络以复活和重新审视机器学习中当前存在的问题和方向的最佳时机。

  鉴于统计物理学中神经网络研究的悠久历史,我们不会针对这一研究方向进行全面综述。我们将选择性地关注物理学方面的最新贡献,我们认为这些贡献对当前的学习和机器学习理论具有重要影响。出于本次综述的目的,我们还搁置了在统计物理学中针对循环神经网络的大量工作,并考虑到了生物学应用。

B.无监督学习中的统计物理( Statistical physics of unsupervised learning)

1.有助于理解基本的无监督方法 ( Contributions to understanding basic unsupervised methods)

  跨学科无监督学习的最基本工具之一是 基于观察到的数据矩阵的低秩分解的方法数据聚类,主成分分析(PCA),独立成分分析(ICA) ,矩阵完成和其他方法是此类中的示例。

  在数学语言中,低秩矩阵分解问题表示如下:我们观察到n个p维数据xi∈Rp的样本,i = 1,…,n。低秩分解方法的基本思想表示X为数据的n×p矩阵,它假定X(或X的某些分量函数)可以写为带有噪声的秩为r的矩阵样本,其中r《 p; r《 n,即等级远低于维数和样本数,因此名称为低等级。一个特别具有挑战性但又相关且有趣的机制是,当维数p可与样本数量n相比较时,并且当噪声水平很大时,无法对信号进行完美估计。事实证明,可以将高维噪声状态下的低秩矩阵估计建模为具有r维矢量变量和特殊构造的自旋玻璃的统计物理模型。具体而言,可以在师生情景中定义该模型,在该情景中,教师根据给定的概率分布Pu(u * i)生成三维潜在变量u * i∈Rr,i = 1,…,n, 从给定的概率分布Pv(v i)取r维潜变量vj∈Rr,j = 1,…,p。 然后,教师根据某些给定的条件概率分布Pout(Xij | u * i·v * j)生成数据矩阵X的分量。 然后,学生的目标是从X和分布Pout,Pu,Pv的知识中尽可能精确地恢复潜变量u ∗和v ∗。

  自旋玻璃理论可用于在极限p,n→∞,n / p =α=Ω(1),r =Ω(1)的情况下获得对低秩矩阵估计的师生模型的完全理解。人们可以用复制法计算出在理论上估计u *和v *的最佳信息误差,这是学生可能达到的,因为在(Barkai and Sompolinsky,1994; Biehl and Mietzner, 1993;沃特金和纳达尔(1994)。这些关于物理学的早期工作的重要性在有关统计学的一些里程碑式的论文中得到了认可,例如 (Johnstone and Lu,2009)。但是,由于缺乏数学上的严格性以及对算法可处理性的理解有限,导致这些工作对机器学习和统计的影响仍然有限。

  对统计物理方法进行低秩矩阵分解的兴趣的复活来自 对稀疏网络中的集群/社区进行检测的随机块模型的研究。在统计物理学中,对启发式算法和算法进行了广泛的研究,对社区检测问题进行了研究(Fortunato,2010年)。然而,随机块模型的精确解和对算法局限性的理解来自(Decelle等,2011a,b)中的自旋玻璃理论。这些工作(非严格地)计算了渐近最优性能,并通过置信传播(belief propagation ,BP)算法(Yedidia等人,2003)清晰地界定了可达到此性能的参数区域。模型中出现的二阶相变与可以通过BP有效地进行聚类的区域相分离,在该阶段聚类不能比通过随机猜测更好地进行。然后,一阶相变及其旋节线之一将区域分开,在该区域不可能进行聚类,使用BP算法可能但不能进行聚类,而使用BP算法则容易进行聚类。参考(Decelle等,2011a,b)还推测,当BP算法无法在模型的大型实例上达到最佳性能时,则其他多项式算法都将无法实现。这些作品吸引了数学,统计学,机器学习和计算机科学界的大量后续工作。

  对 随机块模型 的统计物理学理解以及关于置信传播算法在所有多项式中都是最优的猜想,激发了 发现稀疏数据(即当矩阵X稀疏时)的一类新的光谱算法的发现(Krzakala等人, 2013b)。频谱算法是基于矩阵X或X函数的奇异值分解的数据分析的基本工具(Ng等,2002; Von Luxburg,2007)。但是对于稀疏矩阵X,已知频谱具有领先的奇异值,而局部奇异矢量与潜在的基础结构无关。通过将置信度传播线性化,可以获得更鲁棒的光谱方法,从而获得了所谓的 非回溯矩阵(Krzakala等人,2013b)。基于Bethe自由能的Hessian的算法解释的这种光谱方法的变体也起源于物理学(Saade等,2014)。

  这一由统计物理学启发的研究领域正在成为统计学和机器学习的主流。这很大程度上要归功于以下方面的最新进展:(a)通过对近似消息传递(analysis of approximate message passing,AMP)算法的分析,我们对算法的局限性有所了解(Bolthausen,2014; Deshpande和Montanari,2014; Javanmard和Montanari,2013; Matsushita和Tanaka (2013年; Rangan和Fletcher,2012年)进行低秩矩阵估计,该矩阵是Thouless-Anderson-Palmer方程(Thouless等人,1977年)的推广,在旋转玻璃上的物理文学中广为人知。 (b)以 数学上严格的方式证明 许多相应结果的进展。这方面的一些有影响力的论文(与低秩矩阵估计有关)(Barbieret等人,2016; Coja-Oghlan等人,2018; DeshpandeandMontanari,2014; Lelargeand Miolane,2016)证明了该公式在复制信息理论上的最佳性能。

2.受限玻尔兹曼机(Restricted Boltzmann machines)

  Boltzmann机器和特别是受限的Boltzmann机器是机器学习中经常使用的另一种无监督学习方法。从方法的名称可以明显看出,它与统计物理学有很强的联系。的确,玻尔兹曼机在物理学研究中通常被称为 伊辛逆模型,并在一定范围内广泛使用,有关玻尔兹曼机的最新研究见(Nguyen等,2017)。

  关于受限的玻尔兹曼机器,物理学上有许多研究阐明了这些机器如何工作以及可以学习什么结构。在(Cocco 等,2018; Tubiana and Monasson,2017)中研究了随机受限的Boltzmann机器模型,在该模型中权重被施加为随机且稀疏且未学习。相对于隐藏单元上的一系列潜力而言,这项工作显着地揭示了即使单层RBM也能够表示成分结构。这项工作最近被用于根据其序列信息对蛋白质家族进行建模(Tubiana等人,2018)。对RBM学习过程的分析研究极具挑战性,这通常是使用 基于Gibbs抽样的对比发散算法 完成的(Hinton,2002年)。在学习过程的开始阶段(Decelle等。,2017)中研究了第一步,其中可以 使动力学线性化。统计物理学的另一个有趣方向是用 Thouless-Anderson-Palmer方程(Thouless等,1977)代替对比发散训练算法中的吉布斯采样。这已经在(Gabrié等,2015; Tramel等,2018)中完成,其中证明了这种训练具有竞争力,并讨论了该方法的应用。 带有随机权重的RBM及其与Hopfield模型的关系 在(Barra 等,2018;Mézard,2017)中得到了证实。

3.现代无监督学习与生成模型(Modern unsupervised and generative modelling)

  深度学习的曙光为无人监督和生成模型学习带来了令人兴奋的创新。 例如,一些经典和较新概念的物理友好概述(Wang,2018)。

  具有线性激活功能的自动编码器与PCA密切相关。 变分自动编码器(VAE)(Kingma and Welling,2013; Rezende 等,2014)是更接近物理学家思维模式的变体,其中自动编码器通过图形模型表示,并使用先验的潜变量和变分进行训练推理。具有单个隐藏层的VAE与信号处理中其他广泛使用的技术(例如字典学习和稀疏编码)紧密相关。字典学习问题已通过统计物理技术进行了研究(Kabashima等人,2016; Krzakala等人,2013a; Sakata和Kabashima,2013)。

  生成对抗网络(GANs) –(Goodfellow 等人,2014)的工作中出现了一组强大的想法,旨在生成与训练集中类型相同的样本(例如,酒店客房的图像)。以物理为灵感的GAN研究开始出现,例如 (Wang等人,2018)对GAN的可解模型所做的工作是对感知器中在线学习的早期统计物理学工作的有趣概括。

  我们还想让读者注意 自回归生成模型(Larochelle和Murray,2011; Papamakarios等,2017; Uria等,2016)。自回归模型的主要思想来自于以下事实:它们是显式概率模型的一个家族,为此可以进行直接和无偏采样。 这些模型的应用已经实现了统计学(Wu等人,2018)和量子物理学问题(Sharir等人,2019)。

D.监督学习中的统计物理学(Statistical physics of supervised learning)

1.感知器和GLM( Perceptron and GLMs)

  可以说,监督学习最基本的方法是线性回归,其中的一个目的是找到一个系数w的向量,以使其与数据点Xiw的标量积对应于所观察到的标签y。这通常通过最小二乘法来解决,其中|| y-Xw || ² 2在w上取最小值。 在贝叶斯语言中,最小二乘法对应于假设高斯相加噪声ξ,因此yi = Xiw +ξi。在高维度设置中,使用权重的正则化几乎总是必不可少的。 在贝叶斯解释中,最常见的岭正则化在权重之前对应于高斯。可以通过假设一般先验PW(·)和由条件概率分布Pout(yi | Xiw)表示的一般噪声来概括这种概率思想。所得模型称为广义线性回归或广义线性模型(generalized linear model,GLM)。数据分析和学习中感兴趣的许多其他问题可以表示为GLM。 例如,稀疏回归仅要求PW在零上具有大权重,对于阈值为κ的感知器,输出具有特殊形式在这里插入图片描述
用神经网络的语言,GLM表示单层(无隐藏变量)完全连接的前馈网络。

  对于一般的噪声/激活通道Pout,统计中的传统理论不适用于非常有限的数据体制,在这种情况下,维数p和样本数n都变大,而它们的比率n / p =α仍然是固定的。基本问题如下:最佳可得的泛化误差如何取决于样本数,仍然是未知数。然而,与该方案和相关的问题引起了极大的兴趣,并且在GLM的背景下很好地理解它们似乎是了解更多相关问题的前提,例如深度学习方法。通过考虑将数据视为随机独立的均匀分布(iid)矩阵,并对在教师环境中创建的标签进行建模,可以使用统计物理方法来获得有关高维GLM的特定结果。教师生成权重为w的实验真向量,以使wj〜Pw,j = 1,…,p。 然后,教师使用此向量和数据矩阵X生成从Pout(yi | Xiw ∗)中提取的标签y。然后,学生知道X,y,Pw和Pout,并应该学习老师使用的规则,即理想情况下学习w *。随着样本数量的变化,这种 具有随机输入数据的设置 已经为问题的算法可处理性提供了有趣的见解。

  这方面的工作是由伊丽莎白·加德纳(Elisabeth Gardner)(Gardner and Derrida,1989)所开创的,并且在过去对Pout和PW的特殊情况进行了积极的物理学研究,例如 (Györgyi和Tishby,1990; Seung等,1992a; Sompolinsky等,1990)。复制方法可用于计算该师生模型中X和y之间的互信息,这与物理学中的自由能有关。然后,可以得出向量w *的最佳估计误差以及最佳的泛化误差。(Barbier 等人,2019)最近取得了显着进步,已证明复制方法可以为GLM提供正确的结果,并为通用Pout和PW随机输入。将这些结果与对近似消息传递算法的分析(Javanmard和Montanari,2013年)相结合,可以推断出 AMP算法 能够达到最佳性能的情况以及无法达到最佳性能的区域。在这种情况下,AMP算法被认为是所有多项式算法中最好的。 因此,从业人员可以使用教师-学生模型来了解在只有非常有限数量的样本的情况下通用算法离最优性还有多远

2.多层神经网络的物理研究结果)( Physics results on multi-layer neural networks)

  深度神经网络中学习和泛化属性的统计物理分析是一项艰巨的任务。 在几个互补的方向上已经取得了进展。影响力之一是涉及线性深度神经网络的研究。虽然线性神经网络不具有表示通用函数的表达能力,但梯度下降算法的学习动力学与非线性网络的学习动力学非常相似。同时,可以通过封闭形式的解决方案来描述深度线性神经网络中的学习动力学(Saxe等,2013)。线性神经网络的学习动力学也能够重现关于在非线性网络中进行数值观察的泛化和过度拟合的一系列事实,请参见例如 (Advani and Saxe,2017)。

  已经详细分析的另一种特殊情况称为 ***委员会机器(committee machine)***,有关详细内容,请参见例如 (Engel and Van den Broeck,2001)。委员会机器是一个全连接的神经网络,它在随机输入数据上学习教师规则,只学习第一层权重,而随后的权重则固定下来。该理论被限制在这样的极限上,即隐藏神经元的数量k = O(1),而输入p的维数和样本数量n都发散,其中n / p =α= O(1)。随机梯度下降(aka在线)学习(Saad和Solla,1995a,b)和最佳批量学习泛化误差都可以在这种情况下以封闭形式进行分析(Schwarze,1993)。最近,已经严格建立了最佳泛化特性的副本分析(Aubinet等,2018)。委员会机器的关键特征是它显示了所谓的专业化阶段过渡。当样本数量较少时,通过对每个隐藏单元都相同的权重配置来实现最佳误差,从而有效地实现了简单的回归。只有当隐藏单元的数量超过专业化阈值时,不同的隐藏单元才能学习到不同的权重,从而改善了泛化误差。 关于委员会机器的另一个有趣的观察结果是,随着潜在单元数量的增加,从理论上讲可以很好地实现一般性的信息,但是在处理上却难于把握的困难阶段变得更大。委员会机器还用于分析神经网络中过度参数化的后果(Gold等人,2019a,b)。

  最近的一系列工作分析了两层神经网络的另一个显着局限性(Mei等人,2018年; Rotsko Rot和Vanden-Eijnden,2018年)。在这些工作中,对网络进行了限制,其中隐藏单元的数量很大,而输入的维数则固定不变。在这个极限范围内,权重之间的相互作用很小(导致平均场) ,并且它们的演化可以通过类似于玻璃系统研究的普通差分方程来追踪(Dean,1996)。当隐藏层较大时,对极限的一种相关但不同的处理是基于围绕初始条件的动力学线性化,从而导致与高斯过程和核方法的关系,例如 (Jacot等人,2018; Lee等人,2018)

3.信息瓶颈(Information Bottleneck)

  信息瓶颈(Tishby等人,2000年)是统计物理学中衍生出的另一个概念,它在寻求理解深度学习成功背后的理论方面具有重要意义。深度学习的信息瓶颈理论(Shwartz-Ziv和Tishby,2017; Tishby和Zaslavsky,2015)旨在量化神经网络中的各层在保持有关输入的足够信息以至于输出标签之间进行交易的概念 可以进行预测,同时获取尽可能多的不必要信息,以使学习的表示保持简洁

  信息理论分析的有趣结果之一是,网络的传统容量或表达性维度(例如VC维度)被输入和压缩隐藏层表示之间的 互信息指数 所取代。这意味着表示压缩的每一位等效于训练数据对泛化误差的影响加倍。

  (Shwartz-Ziv and Tishby,2017)的分析还表明,这种表示压缩是通过随机梯度下降(SGD)通过在相关维数软问题中的扩散实现的。据此,通过权重的分散,通过逐层降低不相关尺寸的SNR,可以实现任何单位非线性的压缩。对这种见解的一个有趣的预测是,收敛到良好的泛化尺度的时间是层数的负幂定律。该理论还预测了 隐藏层与信息瓶颈表示的分叉或相变之间的联系

  尽管内部表示的互信息本质上很难直接在大型神经网络中进行计算,但上述预测均不依赖于互信息值的显式估计。

  统计物理学中的相关工作旨在提供可靠的可伸缩近似值和模型,其中互信息易于处理。互信息可以在线性网络中精确计算(Saxe等,2018)。它可以在神经网络模型中可靠地近似,其中在学习权重矩阵足够接近旋转不变性之后,然后在复制理论中加以利用以计算所需的互信息(Gabrié等,2018)。

4.深度学习的场景和复杂性( Landscapes and glassiness of deep learning)

  训练深度神经网络通常是 通过损失函数的非凸态下的随机梯度下降(SGD) 来完成的。统计物理学在研究复杂的能源格局及其与动力学行为的关系方面具有长期的经验。梯度下降算法与Langevin 动力学密切相关,后者在物理学中经常被考虑。 一些物理学启发的作品(Choromanska等人,2015)广受欢迎,但在探索这种类比时有些天真。

  关于玻动力与深度神经网络学习之间关系的有趣见解在(Baity-Jesi 等,2018)中提出。尤其要强调的是,过度参数化在使景观看起来不那么玻璃化的过程中起到了作用,并且与参数化不足的网络形成了对比。(Baldassi等,2016,2015)探索了将神经网络中的学习与景观特性相关联的另一项有趣的工作。这项工作基于以下认识:在二元感知器的简单模型中,学习动力学以具有许多低损耗近距离配置的权重空间的一部分结束。它继续表明学习在权重空间中偏爱这些较宽的部分,并认为这可以 解释为什么算法被广泛的局部极小吸引,以及为什么这样做会提高其泛化特性。该理论的一个有趣的自旋是(Chaudhari 等,2016)中提出的随机梯度下降算法的一种变体。

E.机器学习在统计物理中的应用( Applications of ML in Statistical Physics)

  当理论物理学的研究人员遇到深度神经网络时,早期的层正在学习比后面的层更精细的尺度来表示输入数据,她立即考虑将重归一化组用于物理学中,以便从微观规则中提取宏观规律。例如(Bény,2013年; Mehta和Schwab,2014年)对此类比进行了探索。(Bradde and Bialek,2017)报告了 重归一化组与主成分分析之间的类比

  一个自然的想法是 使用神经网络来学习新的重新规范化方案。 对此方向的首次尝试出现在(Koch-Janusz和Ringel,2018; Li and Wang,2018)中。但是,这是否会导致先前尚不为人所知的模型带来新的物理发现还有待观察。

  相变是物质不同相之间的边界。 它们通常使用顺序参数确定。 在某些系统中,如何确定适当的顺序参数尚无先验。一个自然的想法是,神经网络无需先验的物理知识就可以学习适当的阶次参数并定位相变。这个想法在(Carrasquilla and Melko,2017; Morningstar and Melko,2018; Tanaka and Tomiya,2017a; Van Nieuwenburg等,2017)中进行了探索,使用了一系列模型,这些模型使用从感兴趣模型中统一采样的配置(使用Monte方法获得) 在不同的阶段或在不同的温度下使用Carlo学习),并使用监督学习对配置进行分类。扩展到训练集中未使用的配置可能导致确定研究模型中的相变。 这些通用指导原则已在许多应用中用于分析合成数据和实验数据。 IV.C节详细介绍了多体量子物理学中的特定情况。

  在识别以前未知的阶跃参数方面,以及对它们 是否能够可靠地区分真正的热力学相变和仅仅是交叉现象,尚需进一步详细了解这些方法的局限性。在(Mehta 等,2018)中对Ising模型进行的实验提供了有关该方向的一些初步想法。 在(Kashiwa等,2019)中讨论了一些潜在的机制。在(Greitemann等,2019; Liu等,2019)中引入并研究了 基于内核的学习方法,该方法用于学习受挫磁性材料中的相,该方法更易于解释并且能够识别复杂的阶次参数。

  还研究了有序的玻璃状固体,其中阶数参数的识别特别具有挑战性。特别是(Nussinov等,2016; Ronhovde等,2011)使用多尺度网络聚类方法来识别眼镜的空间和时空结构(Cubuk等,2015),学会识别结构流缺陷,(Schoenholz等,2017)认为要确定一个参数,该参数可以捕获无序系统的历史依赖关系。

  为了超越监督学习的局限性来进行阶段分类和确定阶段过渡,目前正在探索无监督学习的几个方向。例如,在(Wetzel,2017)中用于Ising和XY模型,在(Wang and Zhai,2017,2018)中用于沮丧的自旋系统(frustrated spin systems)。(Martiniani等,2019)的工作探索了从简单压缩基本配置中识别阶段的方向。

  机器学习还提供了令人兴奋的工具集,用于研究,预测和控制非线性动力系统。 例如(Pathak等,2018,2017)使用称为回波状态网络的循环神经网络或储层计算机(Jaeger and Haas,2004)来预测混沌动力学系统的轨迹和用于天气预报的模型。(Reddy等人,2016,2018)的作者使用强化学习来教授自主滑翔机,利用大气中的热量来使滑翔机像鸟一样飞翔。

F.展望与挑战(Outlook and Challenges)

  所描述的统计物理学方法在处理高维数据集和模型方面非常强大。传统学习理论与统计物理学理论之间的最大区别在于,后者通常基于玩具生成数据模型。从某种意义上说,这可以得出可求解的模型,可以以封闭的形式(包括常数项)来计算感兴趣的数量(例如,可以实现的误差)。这与主流学习理论中的目的相反,后者旨在在对设置(数据结构或体系结构)的一般假设下提供错误的最坏情况界限。这两种方法是相辅相成的,一旦我们了解了实际情况接近于最坏情况的关键条件以及现实数据和功能的正确模型是什么,理想的情况是将来会遇到。

  统计物理方法的下一个挑战是 公式化和求解模型,这些模型属于感兴趣的实际设置的某种通用性类别。 这意味着它们再现了在神经网络的实际应用中观察到的行为的所有重要方面。为此,我们不再需要将输入数据建模为iid向量,而是将其建模为生成神经网络的输出(如Gabrié等人,2018年),或将其作为感知流形(如Chung等人,2018年) 。生成标签的教师网络(在受监督的设置中)需要适当地 对数据中的结构与标签之间的相关性进行建模。我们需要找出如何分析(随机)梯度下降算法及其相关变量。 在这个方向上有希望的工作是依赖于眼镜的动态均场理论的(Mannelli 等,2018,2019)。我们需要将现有方法推广到具有广泛隐藏层宽度的多层网络。

  回到将机器学习用于物理学的方向,机器学习在非线性动力系统和统计物理学研究中的全部潜力尚未发现。 上述作品无疑提供了令人兴奋的开胃菜。

你可能感兴趣的:(机器学习,物理学)