Temporal Segment Networks for Action Recognition in Videos论文阅读笔记

这篇文章解决的问题是视频分类

 

TSN模型的主要思路是,先将视频分为若干个等长的片段(Segment),然后从对应片段中随机抽样一个小片段(Snippet),对应于每个小段都会产生一个预测,再用聚合函数来合并这些小段的预测进一步得到对于整个视频的预测,对于聚合函数,作者提出了五种,

⑴Max pooling:实际上,最大池化更多地利用的是对于一个动作类别最具识别力的小片段,但没能综合利用多个小片段;

⑵Mean pooling:平均池化综合利用到了一个视频中所有小片段,但未处理的视频中会有较多与动作无关的背景帧,将这些背景帧的小片段也跟其他小片段同样考虑进去,将会影响模型的最终识别性能;

⑶Top-K pooling:这种方法权衡了平均池化和最大池化的优点,既能够综合利用多个小片段的信息,也避免了无关背景帧的影响。这种方法的思路是对于每个动作类别,选取K个最具识别力(discriminative)的小片段,然后对这些小片段进行平均池化。显然,当K=1,这种方法等同于最大池化,当K等于小片段的数量,这种方法等同于平均池化;

⑷Linear weghting:不同小片段占不同大小的权重。这个公式的基本假设是:一个动作可以被分解为多个阶段,不同阶段在识别动作类别中将起到不同作用。聚合函数将学习动作类别的不同阶段的权重。但这个权重更新策略是与数据无关的,因此无法考虑到不同视频间的不同。

⑸Attention weighting:这个方法也是不同小片段占不同大小的权重,与(4)的不同之处在于这里各个小片段的权重是根据视频内容用attention机制学习得到的。

 

注:(4)与(5)较为相似,最大的不同在于,(4)中小片段x的权重是根据这个小片段的得分向量得到的,而(5)中小片段x的权重是将这个片段输入attention模型得到的。因此说(5)考虑了不同视频间的不同。

 

实验部分,作者在处理过的视频(HMDB51,UCF101)和没处理过的视频(THUMOS14,ActivityNet)上都做了实验。在处理过的数据集上,评判标准是Accuracy,在未处理过的数据集上,评判标准是mAP。Accuracy就是预测对了的视频数量/总视频数量,mAP是怎么计算的呢?网上对于mAP大致有两种解释,一是mAP=所有类别的平均精度求和除以所有类别 ;二是mAP的大小等于P-R曲线下的面积。但总感觉不直观。关于mAP下次会单独写一篇博客。

你可能感兴趣的:(论文学习,论文学习)