Understanding and mitigating gradient pathologies in physics-informed neural networks.

论文信息

题目:Understanding and mitigating gradient pathologies in physics-informed neural networks.

作者及单位:
Sifan Wang(Graduate Group in Applied Mathematics and Computational Science University of Pennsylvania Philadelphia)

Yujun Teng(Department of Mechanichal Engineering and Applied Mechanics University of Pennsylvania Philadelphia)

Paris Perdikaris(Department of Mechanichal Engineering and Applied Mechanics University of Pennsylvania Philadelphia)

期刊、会议:Machine Learning (cs.LG); Numerical Analysis (math.NA); Machine Learning (stat.ML)

时间:2020

论文地址:论文链接

代码:代码链接

基础

摘要

在这项工作中,回顾了科学机器学习的进展,特别是内嵌物理信息的神经网络在预测物理系统输出以及从噪音数据发现潜在的物理方面信息的有效性. 我们还将识别和分析这种方法的基本失效模式,它与在模型训练过程中导致不平衡的反向传播梯度的数值刚度(stiffness)有关. 为了解决这一局限性,我们提出了一种学习率退火算法,该算法在模型训练期间利用梯度统计量来平衡损失函数中不同项之间的相互影响. 我们还提出了一种新的神经网络结构,它对这种梯度病理(gradient pathologies)更有弹性

论文动机

  • 神经网络广泛用于各个领域并取得great sucess.这些模型在丰富的数据领域取得显著成果,但是模型的有效性在少量样本领域仍然是存在争议的,引发的问题是如何赋予这些强大黑盒函数估计器先验知识和适当的归纳偏差
  • 为了解决这个问题,目前有两种截然不同的思想流派。第一种是专注于设计专门的神经网络结构,这种结构隐含着与给定预测任务相关的任何先验知识和归纳偏差. 第二种思想学派
    是努力旨在通过适当惩罚传统神经网络逼近的损失函数,以一种软的方式施加这种约束,通过一组权重和偏差的逼近来参数化。这些惩罚约束导致损失函数的一般形式.
  • 其中PINN是第二种思路的典型方法,尽管解决这种方法看似简单,出现有成果显著一系列问题在计算科学与工程(19、20、21、22、23、24、25、26), 对损失函数中正则化的影响机制仍知之甚少,在一些情况下甚至可以导致不稳定和错误的预测.

Main contributions:

  • Our analysis reveals a fundamental mode of failure in physics-informed neural networks related to stiffness in the gradient flow dynamics.
  • This leads to an unstable imbalance in the magnitude of the back-propagated gradients during model training using gradient descent.
  • We propose a simple solution based on an adaptive learning rate annealing algorithm that aims to balance the interplay between data-fit and regularization.
  • We also propose a novel neural network architecture that has less stiffness than the convention fully-connected neural network.
  • We systematically +test the proposed ideas and demonstrate consistent improvements in the predictive accuracy of physics-informed neural networks by a factor of 50-100x across a range of problems in computational physics.

Related Work

问题背景与定义

本文方法

Relevant literature

数值实验

Neural Network Approximation Theorem for PDEs

总结:

你可能感兴趣的:(物理驱动的深度学习专栏,算法)