论文下载链接:https://arxiv.org/pdf/1911.11462.pdf
1 摘要
大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的关系。然而,proposal之间的关系实际上在行动定位中扮演着重要的角色,因为一个有意义的行动总是由一个视频中的多个proposal组成。在本文中,我们提出利用图卷积网络(GCNs)来挖掘proposal - proposal关系。
首先,我们构造一个action proposal图,其中每个proposal表示为一个节点,两个proposal之间的关系表示为一条边。这里,我们使用两种类型的关系,一种用于捕获每个proposal的上下文信息,另一种用于描述不同action之间的关联。我们在图上应用GCN,以对不同proposal之间的关系进行建模,学习了动作分类和定位的强大表示。实验结果表明,我们的方法在THUMOS14上显著优于最先进的方法(49.1% versus42.8%)。此外,ActivityNet上的增强实验也验证了action proposal关系建模的有效性。
2 背景
对于一个视频,会产生很多个Proposal,如图中的P1——P4。
一方面,P1,P2,P3有一定重叠,描述同一动作实例的不同部分(开始阶段、动作中间、结束阶段)。传统的方法直接用P1的特征来预测,导致结果精度不高。如果把P2,P3的特征也考虑进去,则可以获得P1附近的文本信息,对于时序边界的回归是大有裨益的。
另一方面,P4描述的背景信息(如运动场),但它的内容对于P1的正确分类是很有帮助的,即使P4和p1在时序上是分开的。
3 方案对比(self-attention VS GCN)
目的都是获取Proposal-proposal之间的交互信息,
self-attention是通过自动学习的聚合权重把其他所有proposal的信息都聚合到一个proposal上,因为proposal数量通常很多,使得计算量巨大,成本太高。
而 GCN只是聚合相邻node的信息,使得计算量大幅度降低。
4 整体方案
两条支路:
支路1:对原始视频提取相应的proposal,处理后获取特征送入GCN网络,输出动作的分类;
支路2:对原始视频提取相应的proposal,并前后延伸包含更多的上下文语境信息,处理后获取特征送入GCN网络,输出动作的边界信息;
5 方法原理
5.1 数据预处理:
1)视频处理
同BSN、BMN(年前我介绍的百度的两篇文章,之后的DBG(腾讯的AAAI2020)又是在BMN上继续改进的),将视频有重叠的隔64帧作为一个视频片段,然后用I3D方法提取RGB+Flow双流特征,分别为100*1024维,100是时序长度;
2)proposals提取
通过TAG(Temporal action detection with structured segment networks.2017CVPR)从video中提取出若干proposals
每一个video生成的proposals为:
5.2 图的构建:
每个proposal作为图的一个节点, proposal-proposal之间的关系用图的edge来表示。因此,edges的构建对于proposal-proposal之间的关系特征十分重要。方案一是把所有的proposal彼此连接,但是会巨大的计算量,对于动作定位,把一些不应该连接的proposal连接起来,也会产生冗余的、有干扰的信息,影响最后的准确率。
方案二(论文方法)是通过proposal之间的相关性、远近来决定彼此是否连接。并定义了两种edge:Contextual Edges和Surrounding Edges。
Contextual Edges:
即像之前组会讲过的(Re-thinking the faster r-cnn architecture for temporal action localization.2018 CVPR)类似的融入上下文语境信息,给后期的定位提供更多的信息,从而获取更准确的动作边界。
Surrounding Edges:
r(pi,pj)=0,也就是proposal之间没有交集,这个时候通过选择中心坐标差(即距离)小的proposal彼此连接,这些附近的proposal往往包含背景信息(如篮球场等),这对于动作的分类十分有用。
5.3 Graph Convolution for Action Localization
GCN和CNN、RNN一样,都是用来提取特征的。
目前GCN通常为2层,即K=2。
对比实验中发现最后GCN输出之后,级联上最开始的输入X(0)效果更好。其实这就类似于目标检测中的ResNet思想。
支路1:动作分类
GCN输出跟一个FC,然后用softmax分类,得到支路一的输出,即动作分类。
支路2:动作定位
支路2的图和支路1的图一样,但是输入的特征X不同。支路2的X前后各延伸1/2的Proposal长度从而包含更多的上下文语境信息。
GCN输出之后,跟两个FC,一个用来输出动作的开始和结束边界,另一个用来输出新的“分类得分”(completeness label ci,表明该proposal是否完整),因为有研究表明不完整的proposal虽然和ground truth的tIOU比较小,但是可能有比较高的分类得分,所以单单使用支路1的分类得分来排名选取proposal是不妥的。实验中将两者相乘。
5.4 训练中的采样策略
用于所有proposals计算量过大,故采用SAGE method(Inductive representation learning on large graphs. 2017)进行随机采样。
Ns即采样个数,论文中为4。只在training中采样,test中不采样。
6 整体算法
7 实验效果
THUMOS14 mAP=49.1% when tIoU=0.5,当前最好。ActivityNet效果有竞争力。
8 结论
1)第一个将proposal-proposal relations运用到temporal action localization中
2) 构建图网络来传递proposal之间的信息
图网络对于处理图片之外的非规则的数据,如社交关系、知识图谱等具有CNN、RNN等特征提取器明显不具备的优势,发展空间很大,这两年在各领域得到了大量研究和应用。这篇运用到Action detection上也取得了比较好的效果,是我后期工作的思路之一。
也欢迎感兴趣的朋友关注公。众号StrongerTang更多交流讨论,相互学习!