基于多尺度权值选择对抗网络的部分迁移故障诊断

基于多尺度权值选择对抗网络的部分迁移故障诊断_第1张图片
摘要:大多数域自适应方法都是针对两个域的标签空间相同的情况。然而,在实际工程中研究局部DA更有价值。在此基础上,提出了一种新的多尺度权重选择对抗网络(MWSAN),通过设计多尺度域对抗网络(MDAN),并结合实例和类的多尺度权重选择机制,构建了MWSAN。创新性地构建MDAN,避免了单个分类器的过拟合,增强了领域混淆。在实例权值的选择上,实例权值直接由MDAN的概率输出得到。在类权值的选择上,利用高斯混合模型估计目标域样本可能的高斯分布,利用最大似然估计计算源域样本的高斯分布,然后利用Wasserstein距离计算类权值。MWSAN采用多尺度骨干网络和加权机制,可以在更大程度上实现部分DA。将该方法应用于目标域样本未标记的行星齿轮箱部分传递故障诊断,实验结果表明,MWSAN方法优于其他典型DA方法。

一、问题背景

通常,基于DL的模型的能力主要取决于大量标记的训练样本。然而,收集足够的标记样品是极其昂贵和耗时的。特别是在工业中,大量的数据是未标记的,故障数据比健康数据少得多。此外,不同工况、不同故障严重程度或不同测量仪器采集的数据集可能具有不同的概率分布,这意味着这些数据集属于不同的领域。上述问题严重影响了传统的基于DL的诊断方法的性能。因此,迁移学习(TL)的建议,以提高诊断模型的泛化性能。它可以将大量已标记源域样本(训练数据集)学习到的知识转移到另一个相似但不同的未标记目标域样本(测试数据集),从而实现跨域故障诊断。域自适应(DA)是一种用于缓解源域和目标域之间的分布差异的TL方法。常用的 DA 方法通常分为基于统计度量的,基于对抗机制的和基于网络结构的。

尽管上述现有的DA方法在各个领域都取得了很大的成就,但是它们需要假设源域的标签空间与目标域的标签空间相同,即不同域的类别相同。在实际工程中,目标域标签空间可以仅是源域标签空间的子空间。在这种情况下,传统的 DA 机制不能很好地传递从源域样本中学习到的知识,因此研究部分DA是非常有价值的。

二、本文贡献

受集成学习的启发,构造了一种新的多尺度权重选择对抗网络(MWSAN),基于大部分机械振动信号由于随机噪声的量而近似服从正态分布的前提。在MWSAN中,建立了一个多尺度域对抗网络(MDAN),以避免单个分类器的过拟合,并学习更强大的域不变特征。MDAN具有多个分类器,因此它可以增强泛化能力和领域混淆。

利用多尺度分类器的输出,采用伪标签进行实例权重选择

为了实现类的权重选择,首先利用最大似然估计(MLE)和高斯混合模型(GMM)估计源域和目标域中每个类的高斯分布,然后利用Wasserstein距离(WD)定义两个域之间的类相似度,即类的权重。

通过多尺度权值融合,将得到的类和实例权值施加到DA过程中,并将所提出的权值选择机制与MDAN相结合,建立了多尺度权值分配网络。最后,所提出的方法的优势是验证了部分转移故障诊断的几个任务。本文的贡献如下:

  1. 通过设计多个多尺度分类器,建立了一种新的MDAN,以提高传递模型的鲁棒性和域混淆。
  2. 从样本分布的角度出发,提出了一种新的基于极大似然估计、广义矩估计和小波分解的多尺度权值选择机制来计算类权值
  3. 利用提出的MDAN和多尺度权值选择机制,构建了多尺度权值选择网络,实现了部分转移故障诊断,较好地解决了数据(类)不平衡问题。

三、基础知识

3.1.问题描述

为了清楚地说明所研究的诊断问题,
首先定义域 D = X , P ( x ) D = {X,P(x)} D=XP(x), 其中 X ∈ R m X ∈ R^{m} XRm 表示 m 维特征空间, 即 x = { x 1 , x 2 , ⋅ ⋅ ⋅ x m } ∈ X x = \{x^{1},x^{2},···x^{m}\} ∈ X x={x1x2⋅⋅⋅xm}X, P(x) 表示 x 的边际分布概率。
标记的源域被定义为 D S = { x S 1 , y S 1 } , ⋅ ⋅ ⋅ { x S n , y S n } D_{S} = {\{x^{1}_{S}, y^{1}_{S}\}, ···\{x^{n}_{S}, y^{n}_{S}\}} DS={xS1,yS1},⋅⋅⋅{xSn,ySn}, 其中 y S i ∈ C S y^{i}_{S} ∈ C_{S} ySiCS 表示对应于样本 x S i x^{i}_{S} xSi 的标记, 并且 |CS| 表示类别的数量。
类似地, 未标记的靶结构域表示为 D T = { { x T i } , ⋅ ⋅ ⋅ { x T n t } } D_{T} = \{\{x^{i}_{T}\}, ···\{x^{n_{t}}_{T}\}\} DT={{xTi},⋅⋅⋅{xTnt}}, 有 |CT| 个类别。

如图1所示, 当目标域和源域的标签空间相同时, 即 CT = CS, 传统的DA方法对于转移任务是有效的。但是, 如果目标域的标签空间是源域的子集, 即 C T ⊂ C S C_{T} \subset C_{S} CTCS, 可能存在负迁移。在部分集合的情况下, 源域的空间标签通常被划分为两个子空间, 即离群标签空间 C S C_{S} CS\ C T C_{T} CT和共享标签空间 C T C_{T} CT C S C_{S} CS

3.2.域对抗神经网络

DANN可以通过两人对抗游戏来学习从标记源域到未标记目标域的可转移知识。

DANN由三部分组成:特征提取器 Gf、分类器 Gc 和域鉴别器 Gd

  1. Gf 通过欺骗 Gd 来减轻两个域之间的分布差异;
  2. Gd 它尽力区分特征来自目标域还是源域;
  3. Gc 通过最小化用于分类的交叉熵误差来帮助Gf 学习区分性特征;
  4. 最后,通过 Gc、Gd 和Gf,DANN可以学习域不变但具有区分性的特征。

损失函数:
基于多尺度权值选择对抗网络的部分迁移故障诊断_第2张图片
其中 θf、θd 和θc 分别表示 Gf、Gd 和Gc 的参数;Lc 和Ld 分别表示 Gc 和Gd 的交叉熵损失;ns 和nt 分别是源域和目标域中的批量大小;yi 和di 表示 Gc 和Gd 的标记向量;λ 表示折衷参数。

通过(1),上述对抗机制被定义为:
基于多尺度权值选择对抗网络的部分迁移故障诊断_第3张图片
为了直接实现所有参数的梯度更新,将梯度反转层(GRL)引入到DANN中。DANN被广泛应用于源域和目标域共享同一标签空间的情况。然而,它对于部分DA具有低性能。

3.3.高斯混合模型

GMM是一种典型的无监督聚类算法,在数据挖掘中得到了广泛的应用。GMM是在所有样本服从正态分布的假设下建立的。给定观察变量X和潜在变量z,GMM由C个高斯分量定义,其被写为
基于多尺度权值选择对抗网络的部分迁移故障诊断_第4张图片
其中 θ 是一个参数矩阵;uc ∑ c \sum_{c} c 分别表示第 c 个高斯分量的均值和方差; Π c Π_{c} Πc 是第 c 个高斯分量的权重,满足 ∑ c = 1 C Π c = 1 \sum^{C}_{c=1}Π_{c} = 1 c=1CΠc=1;z是一个离散变量

对于一个样本集合 X = {x1, x2, ··· xn},利用对数最大似然估计,可以通过最大化对数似然函数 log P(X|θ) 来优化 (4) 中的参数,其公式为:
基于多尺度权值选择对抗网络的部分迁移故障诊断_第5张图片
不幸的是,通过 (5) 的偏导数求解 θ ⌢ \mathop{θ}\limits^{\frown} θ M L E _{MLE} MLE 是极其困难的。这里,通过詹森不等式和懒惰统计学家的规则,(5) 中的目标函数可以重写为:
基于多尺度权值选择对抗网络的部分迁移故障诊断_第6张图片
通过 (6),利用期望最大值算法迭代求解 (5)。

四、本文方法

4.1.MDAN的结构

与DANN一样,MDAN的结构也分为三个部分:特征提取器 Gf 域鉴别器 Gd 和多尺度分类器 Gy,如图2所示。MDAN中的特征提取器和域鉴别器与DANN中的特征提取器和域鉴别器具有相同的效果。受bagging和随机森林的启发,设计了多尺度分类器来抑制标记源域中的过拟合并改善部分DA。为了进一步增强骨干网络的鲁棒性和泛化能力,将dropout层和全局平均池层(GAP)引入网络。通过网格搜索方法获得的MDAN的参数在表I中给出,其中 FC和ReLU 分别表示全连接层和非线性激活函数。此外,批量归一化(BN)层用于减少内部协变量偏移,同时加速深度网络的训练过程。
基于多尺度权值选择对抗网络的部分迁移故障诊断_第7张图片

4.2.多尺度权重选择机制

如图2所示,提出了多尺度权重选择机制,用于通过 K 个分类器生成实例权重 wiI 和类权重 wc。在下文中,首先给出了计算对应于第 k 个分类器的实例和类权重的方法,然后通过多尺度权重融合来获得融合的实例和类权重

4.2.1.实例权重:

DA模型首先由标记的源域数据集进行监督训练,然后获得初步的特征提取器 Gf 和多尺度分类器 Gy。在将第 i 个目标域样本 x T i x^{i}_{T} xTi 馈送到网络中之后,第k个分类器的Softmax输出被公式化为
基于多尺度权值选择对抗网络的部分迁移故障诊断_第8张图片
其中, f T i f^{i}_{T} fTi 表示目标域样本 x T i x^{i}_{T} xTi 的特征向量,即特征提取器的输出;表示第k个分类器的输出特征向量;σ(·) 是Softmax函数,表示第k个分类器的Softmax输出,即与源域标签空间 CS 相关的概率分布。然后将得到的概率分布 y ^ T k i \hat{y}^{i}_{Tk} y^Tki 作为第k个分类器在源域标签空间中的实例权重向量 w ^ I k i \hat{w}^{i}_{Ik} w^Iki,即 w ^ I k i \hat{w}^{i}_{Ik} w^Iki = y ^ T k i \hat{y}^{i}_{Tk} y^Tki。通过所获得的实例权重 w ^ I k i \hat{w}^{i}_{Ik} w^Iki,可以在源域的标签空间上近似地区分共享类和离群类。

4.2.2.类权重:

在真实的工业中,机械振动信号往往混杂着大量的随机噪声,因此大多数机械振动信号近似服从正态分布。考虑到不同类别的样本之间的分布差异,我们探索了一种新的机制来获得类的权重。

  1. 首先,分别用极大似然估计和广义矩估计估计估计源域和目标域的高斯分布;
  2. 然后利用WD计算分布距离,即类权重由于多尺度特征包含分布特性并且能够降低计算复杂度;
  3. 因此第k个分类器的输出特征向量用于估计每类目标域或源域样本的高斯分布。

假设源域或目标域中的第k个分类器的输出服从高斯分布 N ( u k i , ∑ k i ) N(u^{i}_{k},\sum{^{i}_{k}}) N(uki,ki),其概率密度函数被定义为
基于多尺度权值选择对抗网络的部分迁移故障诊断_第9张图片
其中n是hi的样本量.

  1. 源域:由于源域被标记,第 c 类的高斯分布参数 N ( u S k c , ∑ S k c ) N(u_{Skc},\sum_{Skc}) N(uSkc,Skc),可以通过MLE直接获得。第 c 类的似然函数由下式给出:
    在这里插入图片描述
    其中 u S k c 和 ∑ S k c u_{Skc}和\sum_{Skc} uSkcSkc分别代表源域中第 c 类的均值和方差,nSc 是源于中第 c 类的样本量,满足:
    基于多尺度权值选择对抗网络的部分迁移故障诊断_第10张图片
    然后,通过计算(11)的偏导数,我们有
    基于多尺度权值选择对抗网络的部分迁移故障诊断_第11张图片
    通过 (11)-(13),可以获得 |Cs| 个样本类别的高斯分布参数 ( u S k c , ∑ S k c ) (u_{Skc},\sum_{Skc}) (uSkc,Skc).

  2. 目标域:与源域不同的是,由于目标域是未标记的,因此不能直接用极大似然估计来计算目标域中各个类的高斯分布参数。幸运的是,我们可以使用GMM来获得 |CT| 个目标域类别的高斯分量,然后可以估计每个类的分布参数。
    第 i 个高斯分量表示为 N ( u T ( j ) , ∑ T ( j ) ) N(u_{T(j)},\sum_{T(j)}) N(uT(j)T(j)),j = 1,2,…|CT|。这里应当强调的是,所获得的高斯分量的标签是未知的。
    在获得源域中每个类的分布参数和目标域样本的高斯分量之后,利用WD来区分从目标域数据集估计的每个高斯分量源域中的第 c 个高斯分布之间的相似性。必须强调的是,WD是对称的,具有普遍适用性,与著名的Kullback-Leibler分歧相比。因此WD更适合于相似度计算。
    两个高斯分布 N ( u 1 , ∑ 1 ) N(u_{1},\sum_{1}) N(u1,1) 以及 N ( u 2 , ∑ 2 ) N(u_{2},\sum_{2}) N(u2,2) 定义为
    基于多尺度权值选择对抗网络的部分迁移故障诊断_第12张图片
    经由(14),可计算目标域中的高斯分量与源域中的高斯分布之间的WDs,如图3所示。源域中的第i个高斯分布与目标域中的第 j 个高斯分量之间的 WD 由 WDi,j 表示。根据同一故障类型两个域之间的分布差异最小可传递性的前提下,通过最小 WD 可以确定目标域中的高斯分量的类别
    然后,第 k 个分类器的第 i 个目标域高斯分量在源域标签空间上的最大相似度可以通过下式计算:
    基于多尺度权值选择对抗网络的部分迁移故障诊断_第13张图片
    最后,第 k 个分类器的类权重向量 wck 被计算为:
    基于多尺度权值选择对抗网络的部分迁移故障诊断_第14张图片

  3. 多尺度权重融合: 利用上述方法,计算每个分类器的实例权重和类权重向量。为了增强域鉴别器的性能,通过多尺度权重融合获得第i个样本的最终实例权重 w I i w^{i}_{I} wIi 和类权重 w c w_{c} wc,它们分别被写为:基于多尺度权值选择对抗网络的部分迁移故障诊断_第15张图片

4.3.优化目标

在获得融合的实例和类权重之后,MWSAN的多尺度分类误差 Ly 和域区分误差 Ld 可以表示为:
基于多尺度权值选择对抗网络的部分迁移故障诊断_第16张图片
值得注意的是,设计的两种损失可以提高部分迁移任务的诊断准确率,避免源域的负迁移。同时,多尺度分类器可以有效地提高故障诊断的鲁棒性。此外,如图2所示,GRL仅在 Gf 的对抗训练过程中作用于 Ld,其用于域混淆。

使用 (19)和(20) 以及均方根prop(RMSProp)算法,可以迭代地更新 Gf,Gy 和Gd 的参数(θf, θy, θd),其公式为:
基于多尺度权值选择对抗网络的部分迁移故障诊断_第17张图片
其中 ε 表示学习速率,并且 λ 是折衷参数。通过对MWSAN的训练,提取出具有区域不变性和分类区分性的特征,实现了部分转移故障的诊断。

五、实验

你可能感兴趣的:(故障诊断论文,机器学习,人工智能,迁移学习)