【论文阅读】时序动作检测系列论文精读(2019年)

文章目录

  • 1. BMN: Boundary-Matching Network for Temporal Action Proposal Generation
    • 论文目的——拟解决问题
    • 贡献——创新
    • 实现流程
    • 详细方法
  • 2. MGG: Multi-granularity Generator for Temporal Action Proposal
    • 论文目的——拟解决问题
    • 贡献——创新
    • 实现流程
    • 详细方法
  • 3. P-GCN: Graph Convolutional Networks for Temporal Action Localization
    • 论文目的——拟解决问题
    • 贡献——创新
    • 实现流程
    • 详细方法

1. BMN: Boundary-Matching Network for Temporal Action Proposal Generation

论文目的——拟解决问题

  • Current bottom-up proposal generation methods can generate proposals with precise boundary, but cannot efficiently generate adequately reliable confidence scores for retrieving proposals.【目前自下而上的提案生成方法可以生成具有精确边界的提案,但不能有效地生成足够可靠的信心分数来检索提案。】

贡献——创新

  • 提出Boundary-Matching机制,利用2d图表示连续且密集分布的候选框的得分。
  • 提出高效且端到端的候选框生成网络BMN(Boundary-Matching Network)。

实现流程

【论文阅读】时序动作检测系列论文精读(2019年)_第1张图片
BMN网络同时生成边界概率序列 (Boundary Probability Sequence) 和边界匹配置信图 (Bounding-Matching confidence map)

BM confidence map: 同一行的proposal具有相同的时间长度,同一列的proposal具有相同的开始时间。
【论文阅读】时序动作检测系列论文精读(2019年)_第2张图片

详细方法

  • Boundary-Matching Mechanism:
    首先,BMN: Boundary-Matching Network for Temporal Action Proposal Generationtemporal proposal ϕ 表示为其起始边界ts和结束边界te的匹配对。BM机制的目标是生成二维的BM置信度图Mc,它是由具有不同起始边界和时间长度的BM对构建的。【论文阅读】时序动作检测系列论文精读(2019年)_第3张图片
  • Boundary-Matching Network:
    BMN模型包含三个模块。Base Module 处理输入的特征序列,输出的序列特征被下列两个模块共享;Temporal Evaluation Module 评估视频中每个动作定位的开始和结束概率,生成边界概率序列;Proposal Evaluation Module 包含BM层,将特征序列转移到BM特征图,并包含一系列3D和2D卷积层,生成BM confidence map。
    【论文阅读】时序动作检测系列论文精读(2019年)_第4张图片

挖个坑:读的云里雾里,看了一些博客,自己也还是没懂,后续会继续多次阅读。

2. MGG: Multi-granularity Generator for Temporal Action Proposal

论文目的——拟解决问题

两大类生成候选框的方法都有各自的优点和缺陷。

  • segment proposals: 由于片段是有规律的分布或手动定义的 (固定的),生成的候选框自然有不精确的边界信息。
  • frame actionness: 密集地评估每一帧的置信度分数,并将连续的帧作为候选框分组(grouping)。然而,这种方法往往对长的视频片段产生较低的置信度,导致遗漏真正的动作片段,从而导致低召回率。

贡献——创新

  • 提出了端到端MGG(multi-granularity generator),用于temporal action proposal,使用了一种新的整合视频特征和位置嵌入信息的(position embedding information)方法。
  • 提出了一个双线性匹配模型,以利用视频序列中丰富的局部信息( local information),然后通过以下SPP和FAP加以利用。
  • SPP是在一个具有横向连接的U型结构中实现的,以高召回率捕获各种跨度的候选框,而FAP评估每一帧作为起始点、结束点和中间点的概率
  • 通过利用帧动作性中的互补信息对段建议边界进行时间上的调整

实现流程

【论文阅读】时序动作检测系列论文精读(2019年)_第5张图片

  • video visual features 首先与position embedding 信息相结合,形成视频表征video representations;
  • 利用BaseNet进一步提取视频特征;
  • 使用候选框产生器(Segment Proposal Producer, SPP)提取粗糙的候选框;
  • 使用图像动作得分产生器(Frame Actionness Producer, FAP)在精细尺度上获取每一帧的开始/结束/动作得分;
  • 最后利用时序边界调整模块(Temporal Boundary Adjustment, TBA)综合以上两步信息得到最终的准确的动作框输出。

详细方法

  • 利用ConvNet将视频序列video sequence:s 转化为视觉特征序列 visual feature sequence fn。通过计算不同波长的余弦和正弦函数,将视觉特征 fn 的位置信息嵌入到维度特征 pn 中。将fn和pn连结以生成新的特征向量(维度n*dl,dl=df+dp),输入BaseNet用ln = [fn, pn] 表示。【嵌入了位置信息来明确描述每个视觉特征的序列信息,这被认为有利于action proposal的生成】

  • BaseNet两层卷积输出的特征H1和H2,利用双线性模型融合H1和H2得到T。实现中使用因式分解加速计算:T-n表示第n个特征,并作为以下SPP和FAP的输入来生成候选框。
    【论文阅读】时序动作检测系列论文精读(2019年)_第6张图片

  • Segment Proposal Producer:(SPP)
    【论文阅读】时序动作检测系列论文精读(2019年)_第7张图片将产生的匹配视频表征T作为输入,SPP首先堆叠一个卷积层和两个最大池化下采样,以减少维度并相应增加感受野的大小。维度为ls/8的时间特征Tc被作为U型结构的输入。
    U-shape结构由contracting path、expansive path 和lateral connections组成。关于contracting path,通过重复的卷积与stride为2的下采样,得到特征金字塔(FP)。对于expansive path,在多层上采用stride为2的反卷积。通过lateral connections,来自扩展路径的高层特征与相应的低层特征相结合,不同尺度的特征金字塔具有不同的感受野,负责定位不同时间跨度的提议。
    对于得到的金字塔特征,在不同尺度的金字塔子特征上应用anchor以获取候选框,候选框进入后续的两个branch分别进行动作种类判断和边界回归。在动作种类判断branch,采用交叉熵损失函数;在边界回归branch,采用L1 smooth损失函数。
    实验证明SPP的U结构有助于将高层语义信息传递到较低层,这对检测持续时长较短的动作大有帮助。

  • Frame Actionness Producer:(FAP)
    FAP利用三个不共享权重的双卷积层获得各帧的开始/进行/结束得分。FAP采用交叉熵损失函数。与SPP产生的片段建议相比,FAP产生的帧动作性以更精细的方式对每一帧进行了密集的评估。

  • Temporal boundary adjustment: (TBA)
    在两阶段融合策略中实现的时间边界调整(TBA)模块,以提高帧动作性方面的片段建议的边界准确性。
    Stage1:对SPP得到的候选框进行NMS筛选,随后依据TAP得分调整候选框边界(将候选框开始/结束点调整至邻域内开始/结束得分最大的时间点),最终得到候选框集合。
    Stage2:利用动作进行得分,使用类似于TAG的分组方案,将具有中间概率高的连续帧归入区域,作为候选框集合φ(tag)。计算φ( p)中候选框p与φ(tag)中所有元素的tIoU,如果有tIoU大于阈值的,以φ(tag)对应框替换p

3. P-GCN: Graph Convolutional Networks for Temporal Action Localization

论文目的——拟解决问题

  • 现有的TAD方法在训练时对每个候选框单独处理,忽略了候选框之间的联系。

贡献——创新

  • 第一个利用候选框之间的关系进行视频中的时序动作定位的研究。
  • 为了对提案之间的互动进行建模,通过建立边(contextual edges、surrounding edges) 来构建一个提案图,然后应用GCN来做候选框之间的信息融合

实现流程

如下图所示,候选框2、3提供的上下文特征有利于候选框1的边界回归,候选框4提供的背景信息(eg动作发生的场景)有助于网络理解候选框1具体发生的动作。
【论文阅读】时序动作检测系列论文精读(2019年)_第8张图片
若在现实世界中使用GCN,过大的图可能会导致计算十分低效,常使用采样 (sampling strategy) 等方法尽可能降低其计算复杂度,本文使用了node-wise的近邻方法SAGE。

详细方法

【论文阅读】时序动作检测系列论文精读(2019年)_第9张图片

  • 构建一张有关候选框的图,每个候选框(proposal)是一个节点(node)两个候选框之间的联系(relation)是边(edge)
    联系分两种,一种是获取每个候选框前后的上下文信息(例如首图中P1和P2、P3的关系),称为contextual edge;一种是获取临近但不相交的候选框间的关联性(例如首图中P1和P4的关系),称为surrounding edge
    GCN的核心逻辑就是利用了候选框之间的联系,即采用临近框提供的上下文信息完善当前框的信息。使用两个独立的GCN分别进行候选框的分类和回归;在训练时使用了采样策略,可在保持性能的同时显著降低计算复杂度。PGCN的核心思路就是构建一张能合理拟合候选框关系的图。
  • 采用I3D提取视频特征,用TAG方法预先提取些候选框,将特征和候选框作为GCN的输入,用GCN输出的增强后的候选框特征进行动作种类和动作边界的合理预测。在此过程中,GCN的目标是学习候选框间的联系。【论文阅读】时序动作检测系列论文精读(2019年)_第10张图片在这里插入图片描述
  • 简单地将所有候选框相连既会增加不必要的计算量,也会引入冗余信息和噪声。本文中只连接两种边,contextual edge和surrounding edge。
  • Proposal Graph Construction:
    contextual edge的连接条件是两个候选框的tIoU大于阈值,符合此情况的候选框大概率归属于同一动作。 基于此边,有重叠的候选框就会自动共享语义信息,这部分信息将在图卷积GCN中得到进一步处理;
    surrounding edge的连接条件是两个无重叠的候选框距离小于阈值(候选框距离 = 候选框中心点距离 / 两个候选框长度和),符合此情况的候选框大概率归属于不同动作,或归属于动作及其背景。基于此边,无重叠但临近的候选框就会跨动作实例地进行信息分享。
  • Graph Convolution for Action Localization:
    使用GCN在图的基础上学习候选框的联系并得到TAD结果。论文应用了K层GCN+ReLU的结构,每层结束后对网络输出和隐藏层的特征进行concate操作,将合并后的特征作为新一层的输入。
    【论文阅读】时序动作检测系列论文精读(2019年)_第11张图片
    使用两个GCN分支分别进行种类和边界回归的任务:一个GCN branch处理候选框内部的特征(intern feature),通过softmax+FC层后输出动作种类;一个GCN branch处理延展后的候选框特征(intern & context feature),通过三个FC层分别输出开始边界/结束边界/动作完整性。

你可能感兴趣的:(#,Temporal,Action,Detection,论文阅读)