论文阅读“Deep autoencoding gaussian mixture model for unsupervised anomaly detection”

Zong B, Song Q, Min M R, et al. Deep autoencoding gaussian mixture model for unsupervised anomaly detection[C]//International conference on learning representations. 2018.

摘要导读

对多维或高维数据的无监督异常检测在基础机器学习研究和工业应用中都具有重要意义,其中密度估计是一个这些算法的核心。虽然以往基于降维和密度估计的方法取得了富有成效的进展,但主要受限于优化不一致的解耦模型的学习 的目标使得其不能在低维空间中保存关键信息。本文提出了一种用于无监督异常检测的深度自编码高斯混合模型(DAGMM)。该模型利用一个深度自动编码器来生成一个低维表示和每个输入数据点的重构误差,进一步将这些特殊输入高斯混合模型(GMM)。DAGMM没有使用解耦的两阶段训练和标准的期望最大化(EM)算法,而是联合优化了深度自动编码器和混合模型模拟器的参数,利用一个单独的估计网络以端到端的方式来促进混合模型的参数学习。这种联合优化很好地平衡了自编码重构、潜在表示的密度估计和正则化,有助于自动编码器摆脱较低吸引力的局部选择,进一步减少了重建误差,避免了预训练的需要。

模型浅析

深度自编码高斯混合模型(DAGMM)主要由压缩网络和估计网络两大部分组成。DAGMM的工作原理如下: (1)压缩网络通过深度自动编码器对输入样本进行降维,从降维的空间和重构误差特征中准备它们的低维表示,并将表示输入后续估计网络;(2)估计网络利用输入,在高斯混合模型(GMM)的框架内预测它们的似然/能量。
下面分开介绍两个模型主体以及模型的联合优化目标。

  • 压缩网络
    压缩网络提供的低维表示包含两个特征来源: (1)由深度自动编码器学习到的简化的低维表示;和(2)由重建误差得到的特征。给定一个样本,压缩网络计算其低维表示如下:
    其中,是由深度自动编码器学习到的简化的低维表示,包括由重构误差得到的特征,和是深度自动编码器的参数,是的重构,表示编码函数,表示解码函数,表示计算重构误差特征的函数。具体来说,可以是多维的也可以是一维的,例如可以考虑多个距离指标,如绝对欧氏距离、相对欧氏距离、余弦相似度等。最后,压缩网络将提供给后续的估计网络。

这里值的注意的是,一般情况下,我们都是采用重构与输入之间的误差用于网络的参数优化。这里作者在保留原始MSE损失之外,将多个距离指标得到的重构误差作为特征用于后续GMM模型的参数估计过程中。在之后的实验中可以验证一下是不是对所有的后续估计都有效。

  • 估计网络
    给定输入样本的低维表示,估计网络在GMM框架下进行密度估计。
    混合成分分布、混合均值和混合协方差未知的训练阶段,估计网络GMM并非使用类似于EM的交替算法对参数进行估计,而是采用了评估似然的方式。具体来说,该估计网络通过利用多层神经网络来预测每个样本的混合隶属度来实现这一点。
    给定低维表示和一个整数作为混合成分的数量,估计网络进行隶属度预测如下:=MLP(),=softmax()。其中,是软混合成分隶属度预测的维向量,是由参数化的多层网络的输出。
    给定一批N个样本及其隶属度预测,,利用隶属度可以进一步估计GMM中的参数如下:
    其中,为低维表示的隶属度预测,、、分别为GMM中分量的混合概率、均值、协方差。
    根据估计的参数,可以进一步推断出样本的似然:
    对于异常点检测任务,在使用学习到的GMM参数的测试阶段,可以直接估计样本似然,并通过预先选择的阈值预测高能量样本为异常。
  • 联合目标函数
    给定一个N个样本的数据集,指导DAGMM训练的目标函数构造如下:

    (1) 是表征压缩网络中由深度自编码器引起的重构误差的损失函数。直观地说,如果压缩网络能使重构误差较低,那么低维表示可以更好地保存输入样本的关键信息。因此,对于压缩网络来说,通常期望一个较低的重构误差。这里一般使用L2范数。
    (2)建模了可以观察到输入样本的概率。通过最小化样本能量,寻找压缩和估计网络的最佳组合,以便最大化输入样本的概率。
    (3)DAGMM也有像在GMM中一样的奇异性问题:当协方差矩阵中的对角项退化为0时,就会触发平凡解。因此,目标函数中的最后一项是针对GMM的正则项。具体来说,通过惩罚对角线上的较小值:
    其中,为压缩网络提供的低维表示中的维数。

论文中作者还通过理论证明,可以将DAGMM的隶属度预测任务引入到神经变分推理的框架中。具体细节请移步原文。


对于神经网络和隶属度的结合很自然,同时还引入了误差特征实现对GMM参数的估计,改变了原始EM算法的交替式优化。对似然的构造使得整个模型在保留原本样本结构的同时实现了对GMM参数的估计从而实现对异常点的检测。模型的设计上形同IDEC,在特征层面,比IDEC多引入了误差特征;在任务对比上,对GMM参数的估计和似然函数的设计,可以类比于深度聚类层在聚类中的作用,实现了对参数的估计,最小化似然也可以达到同时优化压缩网络的作用。非常之巧妙。

你可能感兴趣的:(论文阅读“Deep autoencoding gaussian mixture model for unsupervised anomaly detection”)