MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection

Abstract

    MIST多实例自训练框架来有效提炼仅具有视频级注释的特定人物区别性表示。MIST由两部分组成(1)多实例伪标签生成器,该生成器采用稀疏连续采样策略产生更可靠的clip-level伪标签。(2)self-attention feature encoder,该encoder目的是自动关注帧中的异常区域,同时提取特定的任务表示。作者采用自训练方案优化两个组件,最终获得任务特定的特征encoder。

1、Introduction

视频异常检测VAD目标是对视频中的异常进行时间或空间定位。    弱监督异常检测WS-VAD,获得video-level标签更容易,并且产生可靠的结果。现有的WS-VAD分为两类:encoder-agnostic(与编码器无关) and encoder-based methods(基于编码器方法)。

弱监督方法分类:

(1)与编码器无关的方法。encoder-agnostic方法使用比如C3D或I3D这样的编码器来提取视频的任务无关特征,从而估计异常得分。这类方法只训练分类器。Sultani[23]等人提出了一个深度MIL排序框架来检测异常,Zhang[32]等人使inner-bag score gap regularization。Wan[27]引入了动态MIL loss和center-guided regularization。

(2)基于编码器的方法。encoder-based 方法同时训练feature encoder和classifier。最先进的encoder-based method是label noise clearner,从由label noise cleaner network过滤的noisy label中进行学习。然而,label noise是在一开始的videl-level标签分配给每一个clip时产生的,所以,模型一开始会被这些label noise所影响。Zhu[38]等人提出了基于注意力的MIL模型与基于光流的auto-encoder结合来编码运动感知特征。Zhong[35]等人将弱监督VAD作为标签噪声学习任务,提出使用GCN过滤标签噪声来迭代模型训练,但迭代效率低,进展缓慢。有些工作侧重以离线方式[26,29]或粗粒度方式[23,26,29,32,38]检测异常,这不符合现实监控应用。

    作者发现现有方法没有充分考虑训练task-specific feature encoder来为事件提供可区分的表示。为克服这一难题,作者开发了一个两阶段的自训练网络,目的是训练一个只有video-level的弱标签的特定任务的encoder。这是一个多实例自训练框架,包含多实例伪标签生成器和self-attention的 feature encoder Esga。

(1)伪标签生成器。基于多实例的方法可以比哪些简单的将video-level标签分给每个clip的方法更好地生成伪标签。采用稀疏连续采样策略(sparse continuous sampling strategy)来使network将注意力关注在异常发生地方的上下文。(2)self-attention引导的feature encoder。监控视频中的异常可能发生在任何地方,任何大小,而在动作识别的视频中,动作经常以大的运动出现。因此,作者利用提出的self-guided attention module来强调异常区域而没有外部注释,而是正常视频的clip-level注释和异常视频的clip-level伪标签。这里也采用一个深度MIL排序损失来训练多实例伪标签生成器。这里与noise cleaner的区别是,采用稀疏-连续采样的策略来更加关注异常实例的上下文。

    作者使用生成器G为异常视频生成对应的clip-level伪标签,采用这些伪标签和对应的异常视频以及正常视频来refine特征编码器ESGA。因此,可以得到一个基于特定任务的特征任务编码器,伪监控视频提供有区别的表示。这是什么意思?为什么就是特定任务了???????还有稀疏连续采样策略和self-guided attention module是怎么工作的??

    作者使用了两种encoder,C3D和I3D。基于encoder来做,而且使用学习到的伪标签来优化特征编码器Esga。设计了一个两阶段的自训练方法来优化Esga和伪标签生成器G,而不是迭代优化。

Multiple Instance Learning

    MIL使一种流行的弱监督方法,在与视频相关的任务中,MIL将 a video视为一个bag,把clips in the video as instances,通过特定的特征/分数聚合功能,video-level标签可以用于间接监督instance-level learning。聚合函数有很多,例如max pooling,attention pooling、作者在这里的多实例伪标签生成器中采用稀疏连续采样策略,以迫使网络更加关注最异常部分周围的上下文。????什么意思。

Self-training

    自训练方法通过在未标记数据上生成伪标签来增加标记数据,从而利用标记和未标记数据上的信息。

    作者提出一个多实例自训练框架,通过一个多实例伪标签生成器为异常视频中的所有clip分配clip-level伪标签。作者利用所有视频中的信息来微调一个self-guided attention feature encoder。

2、Approach

    VAD依赖于清晰的表示场景中事件的区别性表示,而动作识别数据集预处理的特征编码器对于监控视频来说并不完美,因为存在domain gap的问题。为解决这一问题,作者引入一种自训练策略来改进所提出的特征编码器Esga。


流程图

    MIST在伪标签生成器G的作用下为异常视频里的每个实例分配一个clip-level label。之后,MIST会利用所有的视频信息来微调encoder Esga。

2.1 Overview

    a video  with N clips,video-level label 表示异常事件是否发生在视频中。

V是一个bag,clip vi是一个instance。a negative bag(Y=0)表示 里没有任何异常实例。positive bag(Y=1)表示里至少有一个异常实例。

(1)针对两个包提取特征,为和。这里feature encoder可以使用C3D或I3D,是预训练好的E。

(2)把提取的特征放入伪标签生成器G中,得到每个clip的异常得分和

(3)对估计的得分使用smoothing和normalization来产生用于异常视频的伪标签。注意到这里G只是为仅具有video-level标签的异常视频生成clip-level标签。而伪标签生成器G的参数通过深度MIL排序损失来更新。

(4)伪标签用来监督self-guided attention feature encoder的学习,从而形成两阶段的自训练方案。这个Esga是通过添加self-guided attention module从I3D或C3D改编来的。

MIST Overview
MIST Algorithm

    主要有一下几个问题:(1)self-guided attention module是怎么帮助feature encoder来更关注视频中的异常区域,从而产生有区别性的表示。(2)伪标签生成器G中引入稀疏连续采样策略,以强制网络更关注最异常部分周围的上下文。这是怎么做到的?(3)引入MIL排序损失来优化生成器G(4)交叉熵损失函数来训练作者提出的由异常视频的伪标签和正常视频的clip-level label监督的特征编码器。

2.2 Pseudo Label Generation via Multiple Instance Learning

    Zhong[35],label noise cleaner中,只是简单的把video-level label分配给每一个clip,之后在最开始训练一个普通的feature encoder。作者引入了基于MLP的伪标签生成器生成伪标签来微调Esga。

    现有的方法大多以粗粒度的方式把视频分割为固定片段,不管片段的持续时间如何,都倾向于将异常模式隐藏为通常构成大多数的正常帧,即使是在异常视频中。然而,通过以细粒度的方式以较小的时间尺度进行采样,网络可能会过分强调最异常的部分,而忽略周围的上下文。事实上,异常通常会持续一段时间。在假设异常持续时间最短的情况下,MIL网络被迫更加关注最异常部分的上下文。

    为适应未修剪视频持续时间和类别数量的不平衡,作者引入了一个稀疏连续采样策略:

从E提取的,从视频clip中采样L个子集,每个子集包含T个连续clip,L个子包表示为:。T是一个超参数,也即是异常最小持续时间的一个假设。为每个子包打分,结果是T个连续clip的平均值,

    经训练的G为所有异常视频的clip打分,异常视频标记为:,减小异常得分的抖动:。之后,{V,Y}作为标签去微调Esga。

2.3 Self-Guided Attention in Feature Encoder

    

你可能感兴趣的:(MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection)