Intelligent fault diagnosis of machines with small & imbalanced data :A state-of-the-art review and possible extensions
具有小和不平衡数据的机器智能故障诊断:最新综述和可能的扩展
如今人工智能的故障诊断技术已经取得了显著的成就,但由于机械通常工作在正常条件下,这就导致对于很难收集到足够多的故障数据。小和不平衡数据(S&I-IFD)的智能故障诊断,涉及使用有限的机器故障样本建立智能诊断模型以实现准确的故障识别。如今,S&I-IFD的研究已经取得了丰硕的成果,但缺乏对最新研究成果的回顾,未来的研究方向也不是特别清晰。为了解决这一个问题,这一篇文章回顾了S&I-IFD的研究成果,并提供了一些未来的展望。目前已有的研究成果主要分成以下三个类:基于数据扩充的策略、基于特征学习和基于分类器设计。基于数据增强的策略通过增强训练数据改善了诊断模型的性能。基于特征学习的策略通过从小和不平衡的数据中提取特征准确的识别故障。基于分类器设计的策略通过从小和不平衡的数据构建分类器实现高的诊断准确率。最后,这篇文章指出了S&I-IFD研究面临的挑战,并指出了一些可能带来突破的方向,包括元学习和零试学习。
引言
深度学习网络例如深度自动编码器(DAE)、深度卷积神经网络(DCNN)、和其它的深度网络,已经被广泛的用来构建端到端的智能诊断模型,这减少了对人工和专家知识的依赖,并极大的促进了人工智能诊断技术的发展。
小和不平衡数据的智能诊断涉及用少量的机器故障样本构建智能诊断模型以实现准确的故障识别。通常意义上来说,深度网络的智能诊断模型建立在大量的机器监控数据分析的基础上。越充足的训练数据,训练集中越大量的故障类型,智能诊断模型的诊断准确率越高。然后在实际的工程情境中,很难为智能诊断模型建立一个理想的数据集用于训练,理由有如下三条:
(1)在工程场景中,机器通常工作在一个正常条件下并且故障很少。因此,由多个传感器组成的条件监控系统能够从机器持续监控系统,这主要接收的数据都是健康数据,故障数据的数量很少。因此,很难获取足够多的故障数据用于智能诊断模型的训练。
(2)在实验室里通过故障模拟实验收集故障数据非常昂贵。
(3)通过计算机模拟故障数据是不现实的。计算机软件无法模拟机器复杂的工作环境,而工作环境对于故障数据有着显著的影响。
总而言之,在工程情景下的智能故障诊断是一个典型的小和不平衡数据问题。如果直接用有限故障数据训练智能故障模型,该方法泛化能力差,故障识别准确率低。
如何解决S&I-IFD引起了学者们极大的兴趣。例如,一些研究人员使用人工少数类过采样法去扩充故障样本的数量或用支持向量机发展故障分类器,因此诊断模型在故障数据样本不充足的条件下取得相对高识别准确度。最近,通过使用新的机器学习算法,S&I-IFD问题的研究取得了不错成果。例如:研究人员通过使用生成对抗网络(GAN)去模拟机器故障样本的数据分布,以至于产生更多的故障样本去扩充有限的故障数据集。此外,与迁移学习相关的诊断模型将以前学习到的诊断知识重用到新的诊断任务中,因此也可以使用少量故障样本实现准确的故障识别。
目前,在S&I-IFD上有许多的研究成果,然而,未来发展的研究方向不是特别清晰,同时对现有结果的回顾也比较缺乏。尽管,一些关于智能故障诊断的回顾已经出版,但对于缺乏数据样本的问题所提不多。而且现存的回顾主要是研究方法的一个概括,没有将机械设备当作一个特定的研究对象。从数据分析的观点上来看,机械监控数据的分析通常涉及频域分析,这与其它的数据分析如图像数据分析不同。
文章贡献
第一,文章关注智能机器故障诊断的小和不平衡数据问题,这是一个重要的研究点,但是与智能故障诊断相关的综述较少。这篇文章根据机器故障诊断的一般处理将S&I-IFD的成果分成了三个类:基于数据扩充的策略,基于特征学习的策略和基于分类器设计的策略。如下图所示:
从数据预处理的观点来看,学者通过数据生成和数据过采样扩充有限的故障数据,并且扩充的数据可以直接被用来训练智能故障诊断模型。在特征提取方面,通过设计正则化神经网络或特征自适应,可以直接从有限的故障数据中学习故障特征而不需要进行数据扩充。在状态分类方面,可以通过设计适用于小数据和不平衡数据的故障分类器直接对机器的健康状态进行分类,而无需进行数据扩充或设计特征提取模型。还可以利用迁移学习来设计分类器。
第二,基于现有的研究结果和最新的机器学习理论,这一篇文章提供了一些研究挑战和未来发展的方向。具体来说,在数据增强方面,现有的研究主要集中在扩充故障样本的数量,然而需要更加关注如何测量和增强样本的质量。如何防止诊断模型中的负迁移是工程应用的关键。而且,作为一个新的机器学习理论,元学习已经初步显示了它在解决小样本问题方面的优点。最后零样本学习可能会在根本没有故障样本的极端情况下为S&I-IFD带来突破。
研究方法和初步分析
本文主要收集了从2010年到2020年之间出版的关于S&I-IFD的论文。本篇综述论文已小样本学习和不平衡数据学习作为关键词进行参考文献检索,关键词树如下所示:
下图显示了2010至2020年与S&I-IFD相关的出版物的数量:
基于数据增强的策略用于S&I-IFD
使用少量数据进行数据生成、数据过采样和数据重新加权,可以对有限数据集进行扩充,从而有效的训练智能诊断模型。
使用生成模型进行数据生成:近来以生成对抗网络(GAN)和变分自动编码器(VAE)为代表的数据生成模型得到了深入的研究,并在许多领域显示出了较好的结果。该方法也适用于机械信号的生成。
基于GAN的方法:GAN有两个多层神经网络模块分别叫做生成器和鉴别器,如下图所示:
生成器从分布中采样随机噪声并生成数据 ,而鉴别器输出一个概率标量来区分真实数据和生成数据 。假设是生成器中的运算,是鉴别器中的运算,是生成器的目标函数。
GAN具体的训练过程描述如下:
自从GAN诞生,学者基于原始的GAN已经做出了许多的改进并产生了许多的变体。例如:深度卷积GAN(DCGAN)利用深度卷积神经去构建生成器和鉴别器,使他有可能产生高质量的图片。Wasserstein GAN利用Wasserstein距离修改原始损失函数,这使得训练过程比原始GAN更加稳定。还有其它许多的方法,GAN的程序流程和各种变形结构的流图如下:
GAN在数据生成中的运用:研究结果显示,在轴承故障数据有限的情况下通过GAN扩充的故障数据能够有效的改善齿轮、轴承、转子和其它元部件的故障识别性能。根据数据维度,这些研究结果可以被分成两个类:一维样本生成(1-D)和二维样本生成。在他们之间,一维数据的生成可以被分成三个类型。第一个是直接生成原始信号。采用GAN及其变体生成机器的监测信号,生成的信号可以被直接用来训练智能诊断模型。第二种是生成监测信号的频谱。与原始的监测数据相比,频谱也包含大量的故障信息并被广泛的运用于机器故障识别。第三是生成提取的数据特征。生成的故障特征也可以被直接用来训练故障分类器。由于特征的维度通常比原始数据的维度要低,生成数据特诊要比生成原始数据要更快、更容易。然而,生成的故障特征中所包含的信息可能不如原始数据中的信息丰富,这也是故障特征生成的缺点之一。
在另一方面,GAN最初用于2维图片的生成,因此,它便于处理2维数据。在机器故障诊断领域,研究者通常使用小波变换(WT)和其它的方法去获取原始信号的时域-频域特征,这些是原始信号的二维数据。GAN能够生成原始监测信号的时-频域特征,从而为智能诊断模型的训练服务。
作为一种流行的数据生成方法,GAN有能力生成与从工程情景中收集的真实故障样本相似的故障样本,因此能够扩展智能诊断模型的训练数据集。然而,GAN被应用于故障数据的生成时仍然存在两个问题。
首先,GAN很难训练。为了生成足够的故障数据,GAN需要消耗大量的计算资源并且需要很长的训练时间。其次,尽管GAN能够扩展故障数据的量,当训练数据不够充足时数据的生成能力会被限制。具体来说,GAN需要大量的数据来进行训练。训练数据越多,GAN学习的数据分布越接近真实的数据分布。然而,当只有少量的训练数据可以使用时,它很容易进入崩塌模式。在这种情况下,生成的样本接近于真实样本的副本,这意味着生成数据中所包含的故障信息非常有限。因此,使用这种低质量的生成样本作为训练数据,诊断模型的故障识别精度无法满足工程要求。因此,尽管GAN已经取得了许多成果,如何减少计算时间的消耗和在训练数据不充足时改善数据生成的能力仍然有巨大的研究空间。
基于VAE(变分自动编码器)的方法:变分自动编码器(VAE)是另一个常用的深度生成模型,处理流程如下图所示:
在数据生成方面,VAE可以从隐藏变量采样然后生成更多的数据。编码器的输入是数据,输出是由 和组成的隐藏变量z,编码器的权重和偏置是 。在训练时,编码器将学习后验分布。隐藏变量z将会输入编码器去重构数据,解码器的权重和偏置是 。解码器将会学习分布。
这里是隐藏变量的先验分布。表示Kullback–Leibler发散。
在VAE中是正态分布, 是正态分布。因此,和之间的可以被描述为:
这里J是隐藏变量z的维度。在上边公式中,和 可以通过编码器直接计算。隐藏变量z计算如下:
这里的ε 是一个噪声变量。
在VAE中,输出数据与输入数据有着较高的相似度因为数据重构损失在训练过程中被优化。同时,由于添加了噪声变量ε,生成的数据将与输入数据不完全一致,从而实现数据扩充。
VAE数据生成的应用:在智能故障诊断中,VAE被用来生成齿轮箱和轴承的故障数据。与GAN相比较,VAE的训练过程更加稳定,而且没有崩溃模式的问题。然而由于损失函数的不同,VAE生成的数据通常不像GAN生成的数据那样真实。因此,GAN进行数据增强的应用比VAE的更加流行。一些学者已经尝试联合VAE和GAN去生成机械数据。在未来如何使VAE生成的数据样本更加真实是一个需要解决的问题。
使用采样技术进行数据过采样:尽管如GAN和VAE之类的深度生成模型能够生成故障数据去支撑智能诊断模型的训练,但这些深度生成模型通常难以训练并且要求大量的计算资源。考虑到这一个问题,使用采样技术的数据过采样是另一个重要的方法用于扩充有限的数据。一些采样技术比如合成少数类超采样技术(SMOTE),在S&I-IFD问题上已经取得了许多成果。
一般来说,研究人员对少数类进行过采样或对主要类进行欠采样,以平衡数据集。然而下采样可能会丢失一些对数据分类可能有用的有价值信息。另一方面,过采样随机地复制训练数据,这可能导致分类器的过拟合。
通过分析少数类中的样本,SMOTE能够合成更多新的样本。SMOTE的处理过程如下图所示:
SMOTE在过采样数据中的应用:一些学者引入了SMOTE和它的改良变体去过采样机器故障样本。与深度生成模型相比较,SMOTE要求更小的计算资源,因此它能够合成大量的故障样本以满足智能诊断模型的要求。然而SMOTE当被应用于合成少数类中合成数据时存在数据分布边缘化的问题。具体而言,如果故障样本位于故障数据分布的边缘,则使用该故障样本合成的样本也将位于分布的边缘,这将模糊分类边界。因此,尽管SMOTE改善了训练数据集的平衡性,但当其陷入分布边缘化时,可能会增加故障分类的难度。
使用迁移学习的数据重加权:除了数据生成和数据过采样,在其它相关数据集帮助的下,还可以通过使用基于迁移学习的方法对数据样本重加权来实现数据扩充。
在缺乏故障数据的情况下,很难训练一个新的智能诊断模型。然而,如果通过训练的诊断模型学习的现有诊断知识可以重用,这个问题就可以得到解决。例如,我们可以使用实验室中收集到的轴承故障数据去训练一个诊断模型。该诊断模型学习的轴承故障诊断知识有助于工程场景下的轴承故障识别。迁移学习是实现这个目标有希望的方法,它意味着从一个任务学习的知识在另一个任务中再次运用。
一般来说,迁移学习有三个类:基于实例的迁移学习,基于特征的迁移学习和基于参数的迁移学习,具体取决于被迁移的组件。在他们之间,基于实例的迁移学习致力于从源域选取一些参数去改善在有限数据情况下的目标任务的性能。数据重加权是基于实例迁移最常用的策略。选定目标域数据样本的权重将会增加,而选定源域数据样本的权重将会减少。TrAdaBoost是迁移学习中最具代表性的数据重加权算法。
基于TrAdaBoost的方法:源域和目标域样本将会被TrAdaBoost重加权,从而平衡源域和目标域样本对训练模型的贡献。在AdaBoost中,如果目标域样本被诊断模型错误的分类,这个样本的权重将会被增加因为这个样本很难被正确的分类。另一方面,如果一个源域样本被诊断模型错误的分类,样本的权重将会减少因为该样本被认为对诊断模型的训练几乎没有帮助。因此,分类边界被移动到准确识别的目标数据的方向,如下图所示:
在智能故障诊断中,TrAdaboost算法被用来处理小样本情况。作为一种数据重加权算法,TrAdaBoost仅对数据进行操作,不参与特征提取和条件识别。因此,它很容易和多种先进的数据分类模型如深度信念网络和卷积神经网络相结合。然而,数据重加权的的性能与源域和目标域数据分布的相似性有关,如果他们之间有一个大的偏差,基于TradaBost的数据重新加权策略可能会导致目标诊断任务中的负迁移,这意味着从加权的故障样本将会导致一个差的诊断性能。
小结:在S&I-IFD中基于数据增强的策略有三个类:使用生成模型的数据生成,使用采样技术的数据超采样和使用迁移学习的数据重加权。前两种方法可以有效的扩充数据的体量。然而,他们有两个问题需要解决。首先,深度生成模型如GAN和VAE通常很难训练并且要求大量的计算资源,这意味着他们将很难进行实践应用。而且,但只有一个可用的训练样本时,生成的故障样本质量太低以至于不能满足智能诊断模型的要求,因为这些深度生成模型需要大量的数据去学习一个真实数据分布。其次,以SMOTE为代表的采样技术存在着数据边缘分布的问题,这可能增加准确识别故障的难度。基于迁移学习,数据重加权还可以通过在其它相关数据集的帮助下通过增加选定数据样本的权重扩充有限的数据样本。然而,数据重加权依赖源域和目标域数据分布的相似性,这容易降低诊断模型的性能。因此,有必要寻找新的高效数据扩充方法,以进一步提高S&I-IFD的诊断性能。
基于特征学习策略的S&I-IFD
此外除数据扩充之外,S&I-IFD问题也可以通过诊断模型从小和不平衡的样本中学习有效的故障特征进行解决。其方法主要分为两个类:(1)通过设计像稀疏神经网络这样的正则化神经网络,诊断模型能够从小和不平衡的数据中直接提取故障特征。(2)在其它相关数据集的帮助下,基于迁移学习的特征自适应也能够从小和不平衡的数据中学习故障特征以实现准确的故障识别。
使用正则化的神经网络进行特征提取:最近的研究结果显示,正则化的神经网络能够有效的处理小和不平横的数据。在这些研究成果中,深度自动编码器(DAE)和深度卷积神经网络(DCNN)作为基本模型收到青睐。
DAE:自动编码器是一个典型的无监督模型,如下图所示:
DCNN:与AE比较,卷积神经网络(CNN)只有较少的训练参数,但具有很强的特征提取能力。CNN包含卷积核池化层。CNN由卷积层核池化层构成,卷积层通过卷积操作学习输入数据的特征向量,另一方面,池化层用于欠采样,它能够减少特征向量的大小和参数的数量。整体过程如下图:
与DAE相同,DCNN能够通过堆叠卷积核池化层构建DCNN。
正则化DAE和DCNN在特征提取中应用:有着深度网络结构的DAE和DCNN通常需要大量的数据用于训练,因此他们并不适合直接处理小和不平衡的数据。幸运的是正则能够帮助DAE和DCNN用很少的训练数据进行训练同时确保泛化能力。在智能故障诊断中,正则化的神经网络能够从很少的样本中提取特征并实现准确的故障分类。有三种常用的正则化神经网络,即稀疏神经网络、归一化神经网络和集成神经网络。在他们中稀疏神经网络通过权重衰减减少网络参数以降低过拟合的风险,从而在有限训练数据的情况下确保了泛化能力。其次,归一化神经网络通过对权值进行归一化,减少了数据不平衡对训练过程的不利影响,保证了在数据分布不平衡的情况下具有很强的数据分类能力。最后,集成神经网络融合数据,防止网络在小样本情况下过拟合。特别是有两种融合数据,即提取特征和分类结果。
总的来说,DAE和DCNN拥有强大的数据处理能力,并能从大量的监测数据中自动地提取故障特征。然而,这种深度模型通过最小化经验风险来更新参数,这意味着当训练样本不足时他们可能出现过拟合。尽管最近研究显示正则化的网络能够改善他们的泛化能力,值得注意的是如何设计高质量的正则化方案用于深度神经网络是一个困难的问题,需要大量的研究经验,因为正则化的方法有很多的选择。此外,与其它标准的DAE和DCNN相比较,正则化的网络结构通常更加复杂和难以训练,由于引入了如稀疏惩罚项之类的因子。
基于其它算法的方法:除了正则化的DAE和DCNN,其它的神经网络在从小和不平衡数据学习特征也已经取得了一些成果。
使用迁移学习的特征自适应:除了直接提取特征,在其它数据集的帮助下特征自适应是一个从小和不平衡的数据提取故障特征的重要方法。在迁移学习场景中,目标域数据样本的数量通常比源域样本小得多。此外由于源域和目标域数据分布不同,他们的特征通常不同。基于迁移学习的特征自适应,尝试最小化两个域之间特征分布的差异,因此目标域的特征能够被模型很好的学习。如下图所示:
不仅迁移元素分析(TCA),通过使用联合分布适应(JDA)、深度神经网络(DNN)和其他方法,在S&I-IFD方面也取得了许多成就。
这里c类中的来自源域的样本数量为,来自目标域的样本数量为 。
TCA和JDA进行特征自适应的应用:一些学者引入TCA和JDA到他们迁移学习方案中进行特征自适应。传统的基于TCA和IDA的特征自适应方法计算简单并能够减少两个域之间特诊分布的差异。然而,两种方法都通过将低维原始数据映射到高维希尔伯特空间来缩小两个分布之间的不同。当遇到复杂高维的机器数据时,他们不能够很好的拟合。因此与TCA和JDA相关的模型在面对复杂诊断任务时诊断准确率通常较差。
基于深度神经网络的方法:与TCA和JDA不同,深度神经网络能够直接从原始数据样本中直接学习数据特征,通过最小化目标域和源域特征的分布差异。作为一种基础的分布差异距离度量,一些学者建立了基于Kullback–Leibler (KL) 散度的深度迁移诊断模型以实现特征自适应。例如一种叫做自动平衡KL发散(AHKL)的分布差异度量被提出来用于故障特征自适应。特征提取后,用AHKL测量两个域特征的一阶矩和高阶距差异,他们之间的差异将会通过如下方法减少:
除了KL发散,其它用于测量分布差异的距离度量是最大差异。许多基于深度神经网络特征自适应的研究成果已经将MMD应用于小样本问题的诊断。
除了最小化距离度量,其它使用深度神经网络用于特征自适应的方法是对抗训练。受GAN的启发,对抗训练也能够减少两分布之间的分布差异。
由于其强大的数据处理能力,基于深度神经网络的特征自适应方法通常比传统的TCA和JDA能输出更好的诊断结果。然而,特征自适应能力有时取决于距离度量。此外,基于深度神经网络的特征自适应方案假设两个领域的特征空间在一定程度上重叠,但现有研究无法判断它们之间是否存在重叠。如果不能明确描述特征分布的差异,诊断模型在目标诊断任务中可能表现不佳。
小结
基于特征学习的方法主要可以分为两类(1)使用正则化的神经网络直接从有限的故障数据中提取特征(2)在其它数据集的帮助下基于迁移学习的特征自适应。但基于特征学习的策略也存在着缺点。首先,少量的故障数据所能提供的故障信息通常是有限的,基于特征学习的模型提高的诊断性能也是有限的。其次,基于迁移学习的特征自适应要求不同数据集之间的特征分布具有相似性,这在真实的工程情景是很难满足的,而且需要选择合适的距离度量函数。
基于分类器设计的策略
在智能故障诊断中使用故障分类器进行进行故障分类为最后一步。根据是否使用辅助数据集,分类器的设计有以下两种思想:(1)使用小和不平衡数据直接修改初始的故障分类器,如:构建一个代价敏感故障分类器(2)用相关数据集提前预训练一个分类器再通过迁移学习达到好的分类性能。
使用小和不平衡数据集设计故障分类器:作为一个处理小样本的专业模型,支持向量机(SVM)和他的变体能够改善有限故障数据样本的故障分类准确率。此外,代价敏感学习致力于通过应用成本敏感损失函数从不平衡的数据分布中学习信息
基于SVM的方法:SVM致力于在特征空间中寻找一个超平面,从而尽可能正确的分类数据样本。如下图所示:
支持向量机在故障诊中的应用:一些研究者利用SVM和它的一些变体去分类有限的故障数据。通常,基于支持向量机的故障分类器通过最小化训练样本的整体结构风险进行优化。因此与通过最小化经验分享进行优化的深度神经网络相比,他们更适合解决有限故障数据的问题。然而,两个缺点约束了SVM的应用。首先,SVM的诊断准确率对于所设置的和参数敏感。其次,尽管SVM擅长处理小样本问题,它很难适应大量的监测数据。随着数据采集技术的发展,机器的监测数据迅速增加,这将给基于支持向量机的故障分类器带来计算挑战。
基于代价敏感的方法:代价敏感学习将会给出一个分类任务中不同类别的不同错误分类损失。代价敏感损失致力于减少在整个数据集上的所有错误分类代价。换言之,成本敏感学习将更多地关注少数类中的样本,以提高在不平衡数据集上的整体分类性能。
其中 代类k的样本数量, 是一个指示函数。基于数据不平衡率进行损失 的设计,这个分类模型会更注意少数类从而改善少数类的识别准确率。
总体而言,代价敏感学习通过错误分类损失分配更加关注少数类中的故障样本,保证了少数类故障样本的故障识别准确性。代价敏感故障分类器的输出对代价敏感损失函数的设计非常敏感。目前的研究成果大多是基于数据不平衡率建立成本敏感损失函数,这确实是有效的,但如何对其进行更新以获得更好的结果仍然值得探索。未来,可能的解决方案之一是使用注意机制自动设置代价敏感损失函数,该机制已成功应用于敏感信息选择和自适应权重分配。
基于参数迁移的方法:首先诊断模型的参数通过使用充足的源域数据进行预训练。之后,使用少量的目标域数据对预训练模型的分类层进行微调。这种基于参数迁移的方法相对简单,但被广泛使用。
一般来说,源域数据集的大小,将会影响通过基于参数迁移方法获得的故障分类器的识别准确率。用于预训练的源域数据集越大,获得的故障分类器的性能越好。然而在实际上很难构建一个理想的预训练数据集,这是基于参数迁移进行分类器设计应用的主要问题。如果源域数据集不够大,用这种方法得到的故障分类器对目标诊断任务的诊断性能会很差。
小结
根据是否使用辅助数据集,基于故障分类器设计的策略有两种。第一种方法是直接利用小数据和不平衡数据设计故障分类器,例如优化支持向量机或开发代价敏感的分类器。这种方法通常依赖于研究人员的工程经验,尤其是代价敏感损失函数的设计,因此很难获得最优结果。第二种方法是使用辅助数据集对诊断模型进行预训练,然后用少量故障数据对分类器进行微调,得到最终的故障分类器。以这种方式获得的故障分类器的性能取决于辅助数据集的质量。但辅助数据集不够大时,故障分类器的分类能力通常不够强。
S&I-IFD未来的挑战和可能的扩展
(1)如何改善S&I-IFD中增强样本的质量?
当训练样本太小时,生成模型生成的样本与真实样本太相似,这意味着通过这种方式增加的故障信息非常有限。目前的存在的而数据增强策略,通常是为每一个数据集特别制订的,不能够简单的用于其它数据集。
在未来的研究中,对于数据增强的方法,不仅要注重数量的扩充还需要注意质量的提升。可以采用自动增强技术,基于半监督学习的模型
其次,如何建立样本质量评价指标也是一个重要的议题。不能够进近局限于生成样本和真是样本之间的相似性,这会导致信息的冗余。
(2)如何防止S&I-IFD中基于迁移学习的方法出现负迁移?
迁移学习在三种策略中均有运用,对于处理S&I-IFD问题是一个重要的方法,但当出现负迁移时,该方法在缺乏数据样本的情况下表现很差。负迁移是指在源域提取的指示在目标任务造成损害。如果目标域和源域数据的分布差异过大负迁移将会出现。例如,源域数据时轴承故障样本而目标域数据是齿轮故障样本,从轴承故障样本中学习到的知识是毫无意义的,甚至对齿轮故障诊断有负面影响。
首先为了描述源域和目标域的分布差异,需要制订合理的测量规则。在未来的研究中,开发一个分布相似性度量是值得探索的。
其次为了建立有效的诊断模型,传递性迁移学习的也是不错的选择。与传统的只涉及两个领域的迁移学习方法不同,传递性迁移学习将多个相关领域连接起来,并以传递的方式更新所学知识,为构建基于迁移学习的S&I-IFD诊断模型提供了一种可行的思路。
(3)元学习的相关理论和在S&I-IFD上的应用
不同于传统的基于数据的学习,元学习变成了基于任务的学习,从多个相关任务中获取可以迁移的知识,并采用情景训练的策略,最终可以将学习到的知识应用到的任务且不需要微调。
通常来说,元学习可以分为三个类:基于优化的方法,基于模型的方法,基于度量的方法。其中基于优化的模型旨在学习元知识,这是网络的初始化参数,然后通过少量的训练样本进行迭代,以获得一个良好的分类器。基于模型的方法擅长数据高效的少样本学习。他们可以将当前的训练数据嵌入激活条件,并根据这个条件预测测试数据。循环神经网络、卷积神经网络和超网络是典型的基于模型的元学习结构。最后,通过比较训练数据集和验证数据集对基于度量的方法进行训练。孪生网络,匹配网络,原型网络和关系网络是典型的基于度量的元学习模型。
总体而言,基于元学习的模型有两个明显的特点。首先基于元学习的模型通过学习任务“N-way-K-shot”进行训练。其次,基于元学习的模型具有很强的泛化能力。一些模型,如匹配网络能够在包含新类型数据的分类任务中有很好的性能,这意味着元学习能够很好的解决工程情景中的实际问题。
(4)零试学习的理论及在S&I-IFD应用的可能
零试学习使用在实际工作中收集的可见数据进行训练,并实现对没有收集的不可见类数据进行识别。在工程场景中,许多收集到的数据在正常的工作条件下,故障数据很少。在极端情况下,研究者无法在一个确定的故障类型或工作条件下获取故障信号,这意味着诊断模型没有来自不可见数据类的训练样本。在智能故障诊断中,识别不可见数据类是一个很难的任务,使用一般的诊断模型很难完成。
零试学习通过从可见类到不可见类的推理来实现不可见类的识别,这在图像识别领域已经得到了广泛的运用。零试学习主要包含模型嵌入和特征生成。通过在可见类上的训练,模型可以学习到数据特征和他们属性(语义)之间的映射关系,同时预先定义属性(语义)和数据标签之间的相关性。
如何根据不同的监测目标和数据类型有效的描述数据属性(语义)是未来一个关键的研究方向。除此之外,如何学习和生成一般的数据特征是零试学习的重要基础。这些现有的研究成果主要是基于自动编码器来生成未知类中的数据特征。未来,如何利用GAN等其他模型实现特征学习和生成是一个必要的研究方向。
全文总结
长期以来,S&I-IFD一直受到学者们的关注。本文回顾了S&I-IFD的研究成果,将其分为三类:基于数据增强的策略、基于特征学习的策略和基于分类器设计的策略。具体而言,基于数据增强的策略通过生成、过采样或重新加权训练数据样本,提高了对小数据和不平衡数据的诊断性能。基于特征学习的策略使用正则化神经网络或特征自适应从小的不平衡数据中学习故障特征。基于分类器设计的策略通过设计适用于小数据和不平衡数据分类的故障分类器,实现了较高的诊断准确率。对于未来的研究,如何提高增强样本的质量是一个需要更多关注的问题。此外,如何防止基于迁移学习的诊断方案的负迁移是工程应用中的一个挑战。最后,元学习理论和零试学习理论在解决S&I-IFD问题上有很大的潜力,这可能会带来未来的研究突破。
附录:
对于本文所涉及的相关概念名词进行了简要归类
(1)迁移学习
(2)正则化的神经网络
(3)元学习