Anomaly Detection 异常检测之 Self-Supervised Outlier Detection 论文解读

1. 异常检测背景介绍

符号说明
X X X:输入空间
Y Y Y:标签空间
P X × Y i n P^{in}_{X×Y} PX×Yin:分布内(in-distribution,ID) 数据(没有数据标签时: P X i n P^{in}_{X} PXin
P X o o d P^{ood}_{X} PXood:分布外(out-of-distribution,OoD) 数据
f f f:特征提取器 X → Z X→ Z XZ、 其中 Z ⊂ R d Z⊂ R^d ZRd(有监督学习中: g ◦ f : X → R c g◦ f:X→ R^c gf:XRc

问题表述
分布外(OoD)检测的目标为:给定从 P X i n × P X o o d P^{in}_X×P^{ood}_X PXin×PXood采集的样本,目标是正确识别每个样本的源分布,即 P X i n P^{in}_X PXin P X o o d P^{ood}_X PXood

2. SSD

S S D SSD SSD:常规的无监督学习,只包含 P X i n P^{in}_{X} PXin
S S D k SSD_k SSDk:包含k个OoD样本+无监督学习
S S D + SSD_+ SSD+:有监督学习,数据来源为 P X × Y i n P^{in}_{X×Y} PX×Yin
Anomaly Detection 异常检测之 Self-Supervised Outlier Detection 论文解读_第1张图片

2.1 训练阶段

如果是无监督学习 S S D SSD SSD),SimCLR自监督训练提取特征
在这里插入图片描述
其中 N N N是图像数量, h ( ⋅ ) h(\cdot) h()是projection header, T T T是温度

如果是有监督学习 S S D + SSD_+ SSD+):
在这里插入图片描述
其中 y y y代表标签, N y i N_{y_i} Nyi指批次中标签为 y i y_i yi的图像数量

2.2 测试阶段

1)用马氏距离计算特征之间的距离:

如果不知道OoD的样本 S S D SSD SSD),那么之计算ID的特征均值 μ \mu μ和协方差 ∑ − 1 \sum^{-1} 1
在这里插入图片描述
论文中,在这一步之前要进行kmeans聚类, m m m为聚类的类簇数量,但是实际上代码中取 m = 1 m=1 m=1,跟没有进行聚类是一样的,直接理解为对 P X i n P^{in}_{X} PXin整个数据集计算均值和方差就行了。

如果知道OoD的一些样本 S S D k SSD_k SSDk k k k为样本数),则分别计算ID和OoD的样本均值 μ \mu μ和样本协方差 ∑ − 1 \sum^{-1} 1
在这里插入图片描述
2)判别条件

ID和ODD的真实标签分别为1和0,预测结果分别为 s t e s t i s_{test}^i stesti s c a l s_{cal} scal,论文采用了FPR (当TPR=95%时),AUROC和AUPR的指标进行计算。

3 实验

SSD除了在各个常用的数据集上相比于其他AD方法取得了最好的效果,还对旋转损失等非对比的自我监督任务进行了对比,SSD平均AUROC高出9.6%

你可能感兴趣的:(计算机视觉,异常检测,聚类,机器学习,深度学习)