论文:Object-centric Auto-encoders and Dummy Anomalies for Abnormal Event Detection in Video阅读遇到的问题及解答

论文链接:https://arxiv.org/abs/1812.04960

1、为什么叫以对象为中心?

使用目标检测将感兴趣的对象裁剪出来,然后对裁剪之后的图像进行操作。

2、提出的无监督框架训练数据是什么(只是正样本还是正样本负样本都有)?无监督框架是什么样的?

首先使用在COCO数据集上预训练的FPN对每帧进行目标检测,提取出感兴趣的对象。训练数据是使用提取出的感兴趣对象,只是正常样本。无监督框架包含三个卷积自编码器,有两个提取运动信息,一个提取外观信息,运动卷积自编码器输入数据是裁剪后的感兴趣对象的梯度,该梯度分别是[t,t-3],[t,t+3]时刻梯度的融合,外观卷积自编码器输入数据是t时刻的裁剪后的感兴趣对象图片。CAE输入图片大小是64641,每个自编码器的输出都是1024长度的特征向量,模型输出的特征向量总长度是3072,自编码器训练时使用均方误差损失函数。输出的特征向量再用来聚类。

3、进行聚类时聚类数目怎么选择?聚类使用哪种方法?是对重构后的特征聚类吗?

做了消融实验,{5,10,15,20,25,30},最后当k=10时效果最好。聚类使用kmeans,使用kmeans++进行初始化,是对无监督框架中那三个卷积自编码器提取的隐藏层特征进行聚类。

4、训练一对多分类器是怎么训练的?分类器的输出是什么?输出怎么与异常挂钩?

分类器的输出是标量值,是分类分数,如果一个测试样本的分类器输出的最高分类分数是正数,则这个样本属于正常事件,如果最高分数为负数,则代表该样本不属于任何一类正常事件,所以它属于异常事件。

5、该方法在各个数据集上的表现怎么样?有什么优缺点?

在各个数据集上的表现都优于当下最好的异常事件检测模型。缺点是当检测目标的包围框中有两个及以上目标时,容易出现假阳性。

你可能感兴趣的:(论文阅读,深度学习,计算机视觉,神经网络,pytorch)