P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

论文下载链接:https://arxiv.org/pdf/1911.11462.pdf

1 摘要
大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的关系。然而,proposal之间的关系实际上在行动定位中扮演着重要的角色,因为一个有意义的行动总是由一个视频中的多个proposal组成。在本文中,我们提出利用图卷积网络(GCNs)来挖掘proposal - proposal关系

首先,我们构造一个action proposal图,其中每个proposal表示为一个节点,两个proposal之间的关系表示为一条边。这里,我们使用两种类型的关系,一种用于捕获每个proposal的上下文信息,另一种用于描述不同action之间的关联。我们在图上应用GCN,以对不同proposal之间的关系进行建模,学习了动作分类和定位的强大表示。实验结果表明,我们的方法在THUMOS14上显著优于最先进的方法(49.1% versus42.8%)。此外,ActivityNet上的增强实验也验证了action proposal关系建模的有效性。
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第1张图片
2 背景

对于一个视频,会产生很多个Proposal,如图中的P1——P4。

一方面,P1,P2,P3有一定重叠,描述同一动作实例的不同部分(开始阶段、动作中间、结束阶段)。传统的方法直接用P1的特征来预测,导致结果精度不高。如果把P2,P3的特征也考虑进去,则可以获得P1附近的文本信息,对于时序边界的回归是大有裨益的。

另一方面,P4描述的背景信息(如运动场),但它的内容对于P1的正确分类是很有帮助的,即使P4和p1在时序上是分开的。

3 方案对比(self-attention VS GCN)

目的都是获取Proposal-proposal之间的交互信息,
self-attention是通过自动学习的聚合权重把其他所有proposal的信息都聚合到一个proposal上,因为proposal数量通常很多,使得计算量巨大,成本太高。

而 GCN只是聚合相邻node的信息,使得计算量大幅度降低。

4 整体方案
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第2张图片
两条支路:
支路1:对原始视频提取相应的proposal,处理后获取特征送入GCN网络,输出动作的分类;

支路2:对原始视频提取相应的proposal,并前后延伸包含更多的上下文语境信息,处理后获取特征送入GCN网络,输出动作的边界信息;

5 方法原理

5.1 数据预处理:
1)视频处理
同BSN、BMN(年前我介绍的百度的两篇文章,之后的DBG(腾讯的AAAI2020)又是在BMN上继续改进的),将视频有重叠的隔64帧作为一个视频片段,然后用I3D方法提取RGB+Flow双流特征,分别为100*1024维,100是时序长度;

2)proposals提取
通过TAG(Temporal action detection with structured segment networks.2017CVPR)从video中提取出若干proposals
在这里插入图片描述
每一个video生成的proposals为:
在这里插入图片描述
在这里插入图片描述
5.2 图的构建:
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第3张图片
每个proposal作为图的一个节点, proposal-proposal之间的关系用图的edge来表示。因此,edges的构建对于proposal-proposal之间的关系特征十分重要。方案一是把所有的proposal彼此连接,但是会巨大的计算量,对于动作定位,把一些不应该连接的proposal连接起来,也会产生冗余的、有干扰的信息,影响最后的准确率。
方案二(论文方法)是通过proposal之间的相关性、远近来决定彼此是否连接。并定义了两种edge:Contextual Edges和Surrounding Edges

Contextual Edges:
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第4张图片
即像之前组会讲过的(Re-thinking the faster r-cnn architecture for temporal action localization.2018 CVPR)类似的融入上下文语境信息,给后期的定位提供更多的信息,从而获取更准确的动作边界。

Surrounding Edges:
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第5张图片
r(pi,pj)=0,也就是proposal之间没有交集,这个时候通过选择中心坐标差(即距离)小的proposal彼此连接,这些附近的proposal往往包含背景信息(如篮球场等),这对于动作的分类十分有用。

5.3 Graph Convolution for Action Localization
GCN和CNN、RNN一样,都是用来提取特征的。
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第6张图片
目前GCN通常为2层,即K=2。
对比实验中发现最后GCN输出之后,级联上最开始的输入X(0)效果更好。其实这就类似于目标检测中的ResNet思想。

P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第7张图片
支路1:动作分类
在这里插入图片描述
GCN输出跟一个FC,然后用softmax分类,得到支路一的输出,即动作分类。

支路2:动作定位
在这里插入图片描述
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第8张图片
支路2的图和支路1的图一样,但是输入的特征X不同。支路2的X前后各延伸1/2的Proposal长度从而包含更多的上下文语境信息。

GCN输出之后,跟两个FC,一个用来输出动作的开始和结束边界,另一个用来输出新的“分类得分”(completeness label ci,表明该proposal是否完整),因为有研究表明不完整的proposal虽然和ground truth的tIOU比较小,但是可能有比较高的分类得分,所以单单使用支路1的分类得分来排名选取proposal是不妥的。实验中将两者相乘。

5.4 训练中的采样策略
在这里插入图片描述
用于所有proposals计算量过大,故采用SAGE method(Inductive representation learning on large graphs. 2017)进行随机采样。
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第9张图片
Ns即采样个数,论文中为4。只在training中采样,test中不采样。

6 整体算法
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第10张图片
7 实验效果
THUMOS14 mAP=49.1% when tIoU=0.5,当前最好。ActivityNet效果有竞争力。
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第11张图片
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV_第12张图片
8 结论

1)第一个将proposal-proposal relations运用到temporal action localization中
2) 构建图网络来传递proposal之间的信息

图网络对于处理图片之外的非规则的数据,如社交关系、知识图谱等具有CNN、RNN等特征提取器明显不具备的优势,发展空间很大,这两年在各领域得到了大量研究和应用。这篇运用到Action detection上也取得了比较好的效果,是我后期工作的思路之一。
也欢迎感兴趣的朋友关注公。众号StrongerTang更多交流讨论,相互学习!

你可能感兴趣的:(视频动作检测)