版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/sinat_30281495/article/details/82854935
论文地址:http://cn.arxiv.org/pdf/1711.07430
作者:Weiyao Lin 1∗ , Yang Mi 1 , Jianxin Wu 2 , Ke Lu 3 , Hongkai Xiong 1
1 Department of Electronic Engineering, Shanghai Jiao Tong University, China.
2 National Key Laboratory for Novel Software Technology, Nanjing University, China.
3 University of Chinese Academy of Sciences, China
{wylin, deyangmiyang, xionghongkai}@sjtu.edu.cn, [email protected], [email protected]
提出一种新的基于深度的动作识别框架,通过(1)导出用于表示动作的更精确特征,(2)减少不同信息流之间的异步,来改善识别准确度。
首先介绍一个从粗到细的网络,它以不同的动作类粒度提取共享的深度特征,并逐步对它们进行集成,以获得更准确的输入动作特征表示。其次介绍了异步融合网络。 它通过在不同时间点异步整合流方式特征来融合来自不同流的信息,从而更好地利用不同流中的补充信息。
最近的一些研究试图通过
包含额外的信息源
[Duta et al. 2017] Duta, I. C.; Ionescu, B.; Aizawa, K.; and Sebe, N. 2017. Spatio-temporal vector of locally max pooled features for action recognition in videos. In CVPR.
[Shi et al. 2017] Shi, Y.; Tian, Y.; Wang, Y.; and Huang, T. 2017. Sequential deep trajectory descriptor for action recognition with three-stream CNN. IEEE Trans. Multimedia.
[Kataoka et al. 2016] Kataoka, H.; He, Y.; Shirakabe, S.; and Satoh, Y. 2016. Motion representation with acceleration images. In ECCVW.
选择时空关注部分
[Kar et al. 2017] Kar, A.; Rai, N.; Sikka, K.; and Sharma, G. 2017. Adascan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos. In CVPR.
[Sharma, Kiros, and Salakhutdinov 2015] Sharma, S.; Kiros, R.; and Salakhutdinov, R. 2015. Action recognition using visual attention. In CoRR abs/1511.04119.
[Zhu et al. 2016] Zhu, W.; Hu, J.; Sun, G.; Cao, X.; and Qiao, Y. 2016. A key volume mining deep framework for action recognition. In CVPR.
合并更多适当的时间信息
[Wang et al. 2016b] Wang, L.; Xiong, Y.; Wang, Z.; Qiao, Y.; Lin, D.; Tang, X.; and Van Gool, L. 2016b. Temporal segment networks: Towards good practices for deep action recognition. In ECCV.
[Cherian et al. 2017] Cherian, A.; Fernando, B.; Harandi, M.; and Gould, S. 2017. Generalized rank pooling for activity recognition. In CVPR.
来改进行动的深度特征表示。
然而,由于他们中的大多数专注于学习特征以直接描述动作的个体动作类,因此由于大的类内变化和微妙的动作间类差异,它们在精确区分动作类之间的模糊性方面存在局限性。
图1.关于粗到细网络与异步信息流介绍
文章提出了一个从粗到精的网络,它首先从不同的动作类粒度中提取深层特征,然后逐步将它们从粗粒度集成到精细粒度,以获得输入动作的精确特征表示。应当注意,由于每个粒度中的动作类仅用于导出适当的特征,因此它们是针对不同的输入视频剪辑自动确定和动态的。
其次,结合多个信息流已经表现出强大的性能,因此已成为行动识别的主流框架。
[Simonyan and Zisserman 2014] Simonyan, K., and Zisserman, A. 2014. Two-stream convolutional networks for action recognition in videos. In NIPS.
但是,大多数现有作品只关注引入更多信息流
[Shi et al. 2017] Shi, Y.; Tian, Y.; Wang, Y.; and Huang, T. 2017. Sequential deep trajectory descriptor for action recognition with three-stream CNN. IEEE Trans. Multimedia.
[Kataoka et al. 2016] Kataoka, H.; He, Y.; Shirakabe, S.; and Satoh, Y. 2016. Motion representation with acceleration images. In ECCVW.
或加强流之间的相关性
[Wang et al. 2016b] Wang, L.; Xiong, Y.; Wang, Z.; Qiao, Y.; Lin, D.; Tang, X.; and Van Gool, L. 2016b. Temporal segment networks: Towards good practices for deep action recognition. In ECCV.
[Wu et al. 2015] Wu, Z.; Wang, X.; Jiang, Y.; Ye, H.; and Xue, X. 2015. Modeling spatial-temporal clues in a hybrid deep learning framework for video classification. In ACM MM.
[Sun et al. 2017] Sun, L.; Jia, K.; Chen, K.; Yeung, D. Y.; Shi, B. E.; and Savarese, S. 2017. Lattice long short-term memory for human action recognition. In ICCV.
而不同信息流之间的异步问题研究较少。
行为识别相关研究发展:
hand-crafted features(专注于开发用于表示动作的良好手工制作功能such as 3D SIFT and dense trajectory。由于手工制作的特征的差异化能力有限,这些方法的性能通常受到限制) → deep ConvNets → two-stream framework → improve the effectiveness of ConvNet features(通过:学习特征;多个信息流的正确组合)
现有方法存在的问题:
1.学习特征用于直接描述动作的各个动作类,而不同动作类粒度的共享特征研究较少。 这限制了他们精确区分模棱两可的行为之间的细微差别。
2.绝大多数信息流的组合处理中存在着类似的问题——在处理信息流之间的长期异步模式方面存在局限性。
文章将展示出,信息流之间的异步是一个非常重要的因素,它可以为行动识别带来显着的性能提升。
所提出的框架方法:
从输入video中获取外观流与运动流信息 → 将外观流输入的每个空间帧和运动流输入的每个短期光流输入到coarse-to-fine网络(它集成了多个动作类粒度的深层特征,并创建了更精确的特征表示) → 将提取的特征送入到异步融合网络(其中每个异步融合网络在一个时段内的不同时间点集成流方向特征,并获得动作类预测结果)中 → 组合来自不同异步融合网络的动作预测结果来决定输入video的最终动作类。
需要注意的是,我们的方法框架是集成的,其中粗到精和异步融合网络中的主要组件可以联合训练。
图2.Framework of the approach