论文链接:点击
自学所用
提出一种反向蒸馏方式,学生网络接受教师网络的一类嵌入作为输入和目标,用以恢复教师的多尺度;
引入了一类瓶颈嵌入(OCBE)模块;
教师采用编码器和学生采用解码器,学生解码器将低维嵌入作为输入,通过恢复教师模型在不同尺度上的表示来模仿教师的行为;先蒸馏高级表示,然后是低级表示;非相似结构,教师编码器视为下采样滤波器,学生解码器视为上采样滤波器;紧凑性嵌入,馈送到学生解码器的低维嵌入充当正常模式恢复的信息瓶颈;紧凑嵌入有利于禁止异常特征作为不寻常扰动传播到学生模型,提高模型对异常的差异。
区域感知描述符;引入OCBE模块来进一步压缩特征代码;OCBE模块由多尺度特征融合块(MFF)和一类嵌入块(OCE)组成;MFF聚合了低级和高级特征,为正常模式重建构建了丰富的嵌入;OCE保留有利于学生解读教师反应的基本信息;
无监督异常检测原型是使用生成模型,如自动编码器(AE)和生成对抗网络(GAN),用于样本重建;
预训练的网络能够提取用于异常检测的判别特征,记住其无异常特征有助于识别异常样本;
问题表述: 作为无异常图像的数据集(1); 作为包含正常和异常的查询数据集(2);目标是训练一个模型来识别和定位查询数据集中的异常;在异常检测设置中,(1)(2)中的正常样本遵循相同的分布;分布外的样本被视为异常;
系统:
三个模块:一个固定的(冻结的教师网络?为什么要固定?下页红色字体已阐明)预训练教师编码器网络E;一个可训练的一类瓶颈嵌入模块;一个学生解码器D。
使用多尺度特征融合(MFF)块集成来自E的低级和高级特征,并通过一类嵌入(OCE)块将它们映射到紧凑代码上。训练期间,学生D通过最小化相似性损失L来学习模仿E的行为;推理过程中E真实地提取特征,而D输出无异常地特征;E和D对应位置的特征向量之间的低相似度意味着异常;最终的预测是通过多尺度相似度图M的累加计算出来的。
给定一个来自(1)的输入样本I,教师E提取多尺度表示;训练学生D从瓶颈嵌入中恢复特征;在测试/推理过程中,教师E提取的表示可以捕获异常样本中的异常、分布外的特征;学生解码器D无法从相应的嵌入中重建异常特征,在T-S模型中,异常表示的相似性较低,表明异常评分较高;可训练OCBE模块进一步将多尺度模式压缩到极低维空间中,用于下游正常表示重建。教师模型生成的异常会被OCBE模块抛弃。
反向蒸馏:采用编码-解码架构,知识从教师的深层提取到早期层,即高级语义知识首先传递给学生;教师编码器E的目标是提取综合表示;避免收敛到平凡的解决方案,所以要将教师E的所有参数在知识蒸馏过程中被冻结;resnet和wideresnet都可以作为网络架构。学生解码器D的架构是对称的,与E相比是反向的,反向设计有助于消除学生网络对异常的响应,而对称性使其具有与教师相同的表示维度。教师E中的下采样是通过一个内核大小1,步幅为2的卷积层实现的,学生D相应解码块采用内核大小为2,步长为2的反卷积层。
学生解码器D的目标(targets)是在训练期间模仿教师编码器E的行为;T-S模型中低级和高级特征的低相似性分别表明局部异常和区域/全局结构异常;ф表示原始数据I到一类瓶颈嵌入空间的投影;
T-S模型中的成对激活对应关系: , , 和 分别代表教师和学生模型中的第k个编码和解码块。
,C、H、W表示第k层激活张量的通道数、高度和宽度;对于模型中的知识转移,余弦相似度作为损失函数,因为它能更精确地捕捉高维和低维信息中的关系。对于特征张量 、 ,计算他们沿通道轴地向量余弦相似度损失并获得二维异常图 :
通过累加多尺度异常图得到学生优化的标量损失函数: ,k表示实验中使用的特征层数。
一类瓶颈嵌入:
为了解决“大容量模型获得的高维描述符可能具有相当大的冗余,表示的高度自由和冗余不利于学生模型解码基本的无异常特征”的不足,引入一个可训练的一类嵌入块,将教师模型的高维表示投影到低维空间中;将异常特征表述为对正常模式的扰动;紧凑嵌入当信息瓶颈,有助于禁止异常扰动传播到学生模型,采用resnet的第四个残差块作为一类嵌入块。
为了解决解码器D的低维特征恢复问题,MFF块在一类嵌入之前连接多尺度表示;通过一个或多个
3×3卷积层,步长为2,对浅层特征进行下采样,然后进行批量归一化和ReLU激活函数,在特征连接中实现表示对齐;然后利用步幅为1的1×1卷积层和具有relu激活的批量归一化来获得丰富而紧凑的特征。
OCBE模块:MFF聚合了低层次和高层次特征,以构建用于正常模式重建的丰富嵌入,OCE目标保留有利于学生解码教师反应的基本信息。
MFF对齐来自教师E的多尺度特征,OCE将获得的丰富特征浓缩为紧凑的瓶颈代码ϕ。MFF和OCE模块可在正常样本的知识蒸馏过程中与学生模型D一起训练和优化。
异常评分:
从异常图 中的值反映了第k个特征张量的逐点异常,为了定位查询图像中的异常,我们将 上采样到图像大小; 表示使用的双线性上采样操作;将所有异常图按像素累加,得到精确评分图 :
,去除评分图中的噪声,使用高斯滤波平滑 ;将 中的最大值定义为样本级异常评分 。
实验和讨论
MVTec所有图像调整到特点分别率(128×128,256×256),T-S模型中采用wideresnet50作为骨干E;Adam优化器:β = (0.5,0.999);Ir = 0.005;200 epoch,批次大小为16;σ = 4的高斯滤波器用于平滑异常评分图;异常检测,AUROC(Image)作为指标;异常定位,AUROC(逐像素的pixel)与PRO;
异常定位的定量结果(AUROC、PRO):
复杂性分析:
局限性:
晶体管数据集上的定位性能相对较弱,性能下降是由于预测和注释之间的误差造成的,缓解这个问题需要将更多的功能与上下文关系联系起来;更高层次的特征层和更宽的感知域可以提高性能(如使用第二和第三层特征的异常检测AUROC达到了94.5%,而只使用第三层特征的性能达到了97.3%);降低图像分辨率也可以达到高性能。
评估方法的通用性,对MNIST、FASHION MNIST、CI-FAR10进行检测实验;
研究OCE和MFF对异常检测的有效性,预训练的残差块作为基线;
不同的骨干网络作为教师模型的定性比较
不同的网络层对异常检测的影响,多尺度融合有助于覆盖更多的类型的异常