时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization

一、摘要:

密歇根大学和谷歌的工作,提出一个把Faster-rcnn思想从目标检测领域迁移到时序动作定位任务的方法,之前有直接改Faster-rcnn的R-C3D,本文对faster-rcnn做了修改,使之更适用于时序动作定位任务,目前是Thumos14的最好效果,tIOU=0.5的时候达到了42.8%(直接从去年最佳的CBR提高了11.8个百分点,很强)。

时序动作检测简介:https://blog.csdn.net/qq_33278461/article/details/80720104
TAL-net(本文):https://arxiv.org/abs/1804.07667?context=cs

提出一个TAL-Net,这个网络应用了三个方法解决之前工作的不足:

1)提出一个感受野对齐方法:应用多尺度的结构来适应时间片段的极端变化
2)通过扩展感受野来更好的利用上下文信息
3)融合光流信息,并证明晚融合效果更好。

二、引言:

1.解决动作上时序片段变化大的问题?

时间段的变化比目标检测的区域变化范围更大,可能一个动作1秒到几分钟之间,Faster- rcnn评估不同尺度的proposals用的是共享的特征,时间段的范围和anchor的跨度不能对齐。
作者提出多尺度的网络结构(mutilti-tower)和扩张卷积(dilated temporal conv)来扩大感受野并对齐。

2.解决利用上下文的信息问题?

时间上的动作开始之前和之后的这些上下文信息对时序定位任务的作用比空间上的上下文对目标检测的作用要大的多。Faster-rcnn没有利用到上下文。
作者提出通过扩展在生成proposals和动作分类时的感受野解决这个问题。

3.怎么能最好的融合多流信息?

目前在动作分类上的任务效果好的都是混合了FLOW和RGB特征,Faster-rcnn没有融合。
作者提出一个分类结果上融合的晚融合的方法,并且证明了这个方法比在特征上在早融合在处理的方法效果好。

三、Faster-rcnn:

图1中左图是原Faster-rcnn用在2-D的目标检测上的结构,右图是直接用来时序动作检测任务,直接把anchor、proposals、pooling全变成了对1-D时间维度的处理
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第1张图片

四、TAL-Net

1.感受野对齐:

faster-rcnn在目标检测上利用共享的顶层特征,然后用设置K个1*1过滤器对应K个尺度找类别不可知的proposals是可以的,但是时序动作定位任务片段跨度太大,thumos14数据集上1秒到1分多钟的片段都有,所以需要范围更宽的尺度,但是感受野太小,可能没有提取到足够的特征给长时间段的anchor;感受野太大对短时间anchor又不利。
解决这个问题关键的两步骤:

1)multi-tower ;
2)dilated temporal convolutions:

输入1-D特征图,作者提出的Segment proposal network是K个temporal convnets的集合,每个负责分类特定尺度的anchor segments,每个temporal convnet感受野的尺寸和anchor尺寸要重合。每个卷积网络最后用两个kernel size为1的卷积层对anchor分类和对边界回归。
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第2张图片
接下来要设计与感受野s对应的temporal convnet,一个方法是多叠加几层卷积,这个方法容易过拟合并且增加很多参数;还有一个方法是增加池化层,这个方法会降低输出特征图的分辨率吧。
为了避免增加模型参数并且想保持住分辨率,这里提出用dilated temporal convolutions(扩张时序卷积)。和普通卷积类似,只不过计算的不是相邻位置,而是计算的时候增加了一些空洞(间隔)。
这里每个temporal convnet只有两层dilated conv layers,目标感受野尺寸s,定义两层的dialation rate :r1=s/6 ,r2=s/6*2,为了平滑输入,在第一个conv层前加了一个kernel size s/6的最大池化

2.上下文信息提取

上一步提到的生成proposal方法只计算了anchor内的,没有考虑上下文,为了对anchor分类和回归的时候加入上下文信息。在anchor前后各取s/2长度加入一起计算,这个操作可以通过dilated rate*2来完成,r1=s/6*2,r2=s/6*2*2,最大池化的kernel size也要加倍s/6*2
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第3张图片

3.特征晚融合

先用两个网络分别提取1-D的RGB和FLOW特征,输入生成proposal生成网络(rpn)最后两个分数做均值产生proposals,这时候把proposals结合各自网络特征最分类(fast-rcnn部分)在把两个网络结果做均值。

作者证明了这种方法比特征早融合,然后用这个特征一直计算到结果的方法效果好一些。
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第4张图片

五、实验

时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第5张图片
上图证明了multi-tower和dilated组合效果最好
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第6张图片
上图证明了multi-tower+dilated+context效果最好
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第7张图片
上图证明了计算之前加上上下文池化效果好
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第8张图片
上图证明了特征晚融合>早融合>FLOW>RGB
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第9张图片
上图证明作者方法在proposals数目少的时候找的比较全,即proposal质量高
时序动作定位:CVPR2018-Rethinking the Faster R-CNN Architecture for Temporal Action Localization_第10张图片
目前该方法效果超过之前方法很多,IOU=0.7都有20.8

你可能感兴趣的:(深度学习)