Dividing and Aggregating Network for Multi-view Action Recognition阅读笔记

1 Abstract

  (1)作者提出了一个Dividing and Aggregating Network (DA-Net)用于多视角人体学习。
  (2)DA-Net中,先在底层的网络学习每一个view都适用的view-independent representations。同时(while)然后在高层的网络为每一个view都学习一个 view-specific representation
  (3)作者在这个训练的过程当中训练两个分类器:
   ①为每一个视角都训练了一个view-specific的动作分类器
   ②基于低层的view-independent representations训练了一个view classifierview classifier用于预测每个视频属于每个view的可能性。最后,在融合 view-specific的动作分类器的预测分数时,使用view classifier的预测结果作为权重
  (4)作者还提出了一种基于条件随机场(CRF)公式的新方法,在来自不同分支view-specific representation之间传递消息,以相互帮助.

2 Introduction

  (1)这篇paper的一个方面是学习特定于视图的深度表示。这与现有的使用global codebooks或dictionaries提取视图不变特征的方法不同。由于不同view的较大差异,visible regions是不同的,这使得学习不同view之间的invariant features变得困难。所以为每一个视角去学习特定的features提取方法是比较合理的。
  (2)这篇paper的另一个方面是:同一个类别,不同视角之间的view-specific representation的特征可以用来相互帮助的。
  (3)总的来说,这篇paper有3个贡献:
  ①文章作者提出了一种用于多视图动作识别的多分支网络。在这个网络中,较低的CNN层是被共享的学习与view无关的特征表示。以共享的特征作为输入,每个view都有自己的CNN分支来学习其这个视角所特有的view-specific representation
  ②引入条件随机场(CRF),在来自不同分支的view-specific 的特征之间传递消息
  ③提出了一种新的fusion方法(融合方法)。作者同时学习多个view-specific classifiersthe view classifier。每个分支可以获得一个动作预测得分,并以视图预测概率作为权重融合多个动作预测分数

3 Related work

你可能感兴趣的:(多角度人体动作识别专栏,编辑器,前端)