【文章学习系列之模型】DAGMM

本章内容

  • 文章概况
  • 模型结构
  • 损失函数
  • 实验结果
  • 实验分析
  • 总结

文章概况

《Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection》是2018年发表于ICLR的一篇论文,该论文提出一种端到端的无监督异常检测方法DAGMM,取得了不错的效果。

文章链接
代码链接

模型结构

【文章学习系列之模型】DAGMM_第1张图片
深度自编码高斯混合模型(DAGMM)主要由压缩网络和评估网络两大部分组成。

上图左侧橙框,压缩网络通过自编码器对输入样本进行降维,从降维空间和重构误差特征中提取低维表示,并将表示提供给后续的评估网络

上图右侧红框,评估网络获取压缩网络提供的数据,并在高斯混合模型 (GMM) 框架中预测它们的可能性/能量。

压缩网络的特征提包含两个部分:由深度自动编码器学习到的低维特征 Z c Z_c Zc和重构误差得到的低维特征 Z r Z_r Zr,随后 Z c Z_c Zc Z r Z_r Zr组成 Z Z Z,提供给后续的评估网络,并经过多层全连接最终得到模型的输出值 π ^ \hat{π} π^,其中包含了经过 s o f t m a x softmax softmax后的类别概率 γ ^ \hat{γ} γ^

【文章学习系列之模型】DAGMM_第2张图片
获得模型的输出结果后,根据上图所示的多元高斯概率密度相关公式和评估能量公式,可以得到当前样本的能量,并通过预先选择的阈值预测高能量样本为异常。

损失函数

在这里插入图片描述
损失函数包含三个部分。

第一个是重构误差。若重构误差较小,则表明低维数据能够保存原始数据的关键信息并进行高效重构。

第二个是样本能量。通过最小化样本能量寻找压缩网络和评估网络的最佳组合。

第三个是正则项。协方差矩阵的每个元素都需要计算期望值,而期望值的计算需要大量的数据,当混合模型的点数不足时,协方差矩阵计算容易出现偏差,出现奇异性问题,因此添加一项正则项,一定程度上减弱奇异性带来的影响。

此外 λ \lambda λ为超参数,用于平衡损失函数的三个部分。

实验结果

作者没有使用预训练的方式对模型进行训练,而是采用端到端的方式训练整个网络,因为预先训练好的压缩网络性能有限,不利于后续评估任务的训练,相反,压缩网络和评估网络的端到端训练可以相互提高性能。
【文章学习系列之模型】DAGMM_第3张图片
作者使用多种模型和变体在多种数据集中进行对比,实验表明本文所提方法取得不错的检测效果。

实验分析

【文章学习系列之模型】DAGMM_第4张图片
为了测试模型抗污染能力,作者先选取50%的随机样本,再在剩下的样本中选择所有的正常样本和c%的异常样本。正如所料,随着异常样本占比增加,所有方法的检测性能均产生了显著的下降,在5%时,本文所提方法的各项指标依旧保持在0.85左右,远远优于其他方法的所有试验结果。这表明通过端到端训练学习到的DAGMM在公共基准数据集上达到了最先进的精度,并为无监督异常检测提供了一种很有前途的替代方法。

【文章学习系列之模型】DAGMM_第5张图片
上图可视化展示了DAGMM更好地将红蓝点进行划分,而其他三种表现类似,蓝红错杂程度更高。

总结

这篇论文的模型结构和训练方式对后来的研究者有着深远的影响,不少异常检测的无监督研究依旧是沿用这一套路线继续探索,并取得了不错的效果。从以下三个方面解决了无监督异常检测方面的挑战。
1.DAGMM在低维空间中保留了输入样本的关键信息,包括降维特征和重构误差特征。
2.DAGMM利用学习到的低维空间上的高斯混合模型(GMM)来处理具有复杂结构的输入数据的密度估计任务。
3.利用端到端的训练方式,DAGMM的估计网络引入的正则化极大地帮助压缩网络中的自动编码器避免陷入局部最优。

你可能感兴趣的:(深度学习零散记录,学习,深度学习,论文阅读)