ACT-detector论文笔记

Action Tubelet Detector for Spatio-Temporal Action Localization

论文原文地址:https://arxiv.org/abs/1705.01861

任务:分析视频序列,检测某些动作发生的时空位置(起止时间和每一帧视频中的发生位置),即spatio-temporal action localization。

论文创新点:

1.推广了anchor,兼顾时空域,

2.基于1,推广SSD算法进行spatio-temporal action localization,兼带的好处就是,视频中丰富的时控信息被利用。

(如果不了解SSD的同学可以先看一下SSD)

缺点:

推广方式较为简单,有一定的问题,只适用于动作变化不剧烈的场合。

实际的网络结构如下图,这里简单描述一下,有什么问题,请及时提出,我会进行更正:



ACT-detector论文笔记_第1张图片
ACT-detector网络结构

1.将每一帧的视频按照时序输入到SSD网络

2.将SSD网络中的各层特征图按照STACK排列,简单说就是,将各层特征按照,同层特征横向排列,不同层特征纵向排列。这样就将各层的特征按照时序组织起来了。

3.推广anchor的概念,对于单个anchor的候选框而言,假设其候选框在较短的时间内变化不大,因此每个候选框都相当于一个立体矩形,这样的anchor被称为anchor cuboid。

4.对于每个anchor cuboid,在每个时序点上进行调整,调整的依据是STACK上的特征图,方法是根据特征图进行卷积运算,回归出对应anchor的活动(activity)的分类和相对原来anchor的坐标位置。

你可能感兴趣的:(ACT-detector论文笔记)