《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记

作者:Hanqiu Deng    Xingyu Li

出自:CVPR2022

Abstract:

        作者提出了一种由教师编码器和学生解码器组成的T-S模型,并引入了一种简单有效的“逆向蒸馏”范式。学生网络不直接接收原始图像,而是以教师模型的单类嵌入作为输入和目标,恢复教师的多尺度表示。此外,我们在T-S模型中引入了一个可训练的单类瓶颈嵌入(OCBE)模块。所得到的紧嵌入有效地保留了正常模式的基本信息,并抛弃了异常扰动。

Introduction:

        《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记_第1张图片

         作者提出了反向提取,我们的反向蒸馏中的T-S模型由异构架构组成:教师编码器和学生解码器。学生解码器不是直接将原始数据同时馈送给T-S模型,而是将低维嵌入作为输入,目标是通过恢复教师模型在不同尺度下的表示来模仿教师的行为。

        我们的逆向蒸馏有两个显著优势:i)非相似结构。在所提出的T-S模型中,可以将教师编码器视为下采样滤波器,而将学生解码器视为上采样滤波器。ii)紧性嵌入。馈送到学生解码器的低维嵌入充当正常模式恢复的信息瓶颈。让我们把异常特征表述为正常模式的扰动。紧嵌入有助于抑制异常扰动向学生模型的传播,从而增强T-S模型对异常的表征差异。

        我们引入一类瓶颈嵌入(OCBE)模块来进一步压缩特征代码。我们的OCBE模块由多尺度特征融合(MFF)模块和单类嵌入(OCE)模块组成,两者都与学生解码器联合优化。MFF模块聚合低层和高层特征以构造丰富的嵌入用于正常模式重构。OCE模块是保留有利于学生解读教师回答的基本信息。

        我们的逆向蒸馏冻结了一个预先训练好的模型作为教师。其次,在语义特征空间上进行异常检测,而不是像素级的重构误差。

Our approach:

      正常数据集训练集:

《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记_第2张图片

 包含正常和异常样本的测试集

 《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记_第3张图片

 《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记_第4张图片

        我们的逆向蒸馏框架由三个模块组成:固定预训练教师编码器E、可训练一类瓶颈嵌入模块和学生解码器D。 给定输入样本I ∈ It,教师E提取多尺度表示。训练学生D从瓶颈嵌入中恢复特征。在测试/推断期间,由教师E提取的表示可以捕获异常样本中的异常的、超出分布的特征。学生解码器D未能从对应的嵌入重构这些异常特征。

3.1. Reverse Distillation

        T-S模型采用编码器-解码器结构,将知识从教师的深层提取到其早期层,高级语义知识首先被传递给学生。作者遵循先前的工作并且使用在ImageNet [21]上的预先训练的编码器作为我们的骨干E,在知识蒸馏过程中冻结了教师E的所有参数。,学生解码器D的结构是对称的,但是与E相比是相反的。在我们的T-S模型中,成对激活对应关系为 {fkE =Ek(I), fkD = Dk(ϕ)},。对于T-S模型中的知识转移,下面为我们的2-D异常映射:

考虑到多尺度知识提炼,通过累积多尺度异常图得到学生优化的标量损失函数:

 3.2. One-Class Bottleneck Embedding

      我们引入了一个可训练的单类嵌入块来将教师模型的高维表示投影到低维空间。把异常特征表述为正常模式的扰动,我们采用ResNet [14]的第4个剩余块作为一类嵌入块。为了解决解码器D处的低级特征恢复的问题,MFF块在一个类嵌入之前级联多尺度表示。我们通过一个或多个步长为2的3×3卷积层对浅特征进行下采样,然后进行批量归一化和ReLU激活函数。然后采用步长为1的1×1卷积层和relu激活的批量归一化来获得丰富而紧凑的特征。

《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记_第5张图片

 MFF聚合低级和高级特征,为正常模式重构和OCE目标构建丰富的嵌入,以保留有利于学生解码教师回答的基本信息。图4中灰色的卷积层和绿色的ResBlock是可训练的,并且在对正常样本进行知识提取期间与学生模型D联合优化。

3.3.异常评分

《Anomaly Detection via Reverse Distillation from One-Class Embedding》论文阅读笔记_第6张图片

为了去除分数图中的噪声,我们使用高斯滤波器平滑SAL。我们将SAL的最大值定义为样本级异常评分SAD

4.实验和讨论

        在本实验中,我们采用WideResNet50作为T-S模型中的骨干网E ,我们还报告了ResNet18和ResNet50在消融研究中的AD结果。为了训练我们的储备蒸馏模型,我们使用β =(0.5,0.999)的Adam优化器[18]。学习率设置为0.005。我们训练200个历元,批量大小为16。σ = 4的高斯滤波器用于平滑异常评分图。

你可能感兴趣的:(论文阅读)