MS-TCN

文章目录

    • Abstract
    • Introduction
    • Temporal Action Segmentation
      • Single-Stage TCN
      • Multi-Stage TCN
    • Experiments
      • number of stages
      • Muti-Stage TCN vs. Deeper Single-Stage TCN
      • 传递特征的影响
      • 时间分辨率的影响
      • number of layers
      • 微调特征的作用

Abstract

传统方法遵循两步流程:

  1. 生成逐帧概率;
  2. 提供给高级时间模型。

最近方法:使用时间卷积直接对视频帧进行分类。

本文:引入多阶段结构,直接对视频帧进行分类。

Introduction

研究对象:未修剪的长视频中检测和定位动作片段。

本文模型:每一层生成一个预测,由下一阶段进行细化。

虽然结构很好,但是在训练期间进一步采用了平滑损失,惩罚预测中的过度分割问题。

贡献有两个:

  1. 提出了多阶段模型;
  2. 引入了平滑损失。

Temporal Action Segmentation

Single-Stage TCN

单阶段模型仅有时间卷积层组成。

不使用池化层(会降低时间分辨率);不使用全连接层(参数量大)。

没有使用因果卷积。(啥是因果卷积?)

结构为:
MS-TCN_第1张图片

数学表达式为:

MS-TCN_第2张图片

其中,每层的感受野为:

在这里插入图片描述
在每一阶段最后都会进入Softmax层,输出类别概率。

Multi-Stage TCN

每一阶段从前一阶段获得初始预测,并对其进行改进。

使用多阶段结构有助于提供更多的上下文来预测每一帧的类标签。

由于每个阶段的输出是初始预测,网络能够捕获动作类之间的依赖关系,并学习合理的动作序列,有助于减少过度分割错误。

Experiments

number of stages

单阶段效果不佳。
增加至两到三个阶段准确性大幅度提升。
增加至四个阶段,性能提升,但是不大多。
增加至五个阶段,过拟合,性能下降。

Muti-Stage TCN vs. Deeper Single-Stage TCN

为了弄明白,这样一种性能的增长,是因为多阶段的原因,还单单只是因为增加了参数的数量。

事实证明,多阶段,就是好!

传递特征的影响

此处研究了概率+特征作为输入的效果。

将最后一个扩张卷积层的输出连接到下一阶段。

结果发现,性能大幅度下降。

作者认为,导致性能下降的原因是许多动作类具有相似的外观的动作。通过在每个阶段添加此类的特征,模型会被混淆,并产生与过度分割效应相对应的小的分离的错误检测的动作片段。

仅传递概率会迫使模型关注相邻标签的上下文,这些标签由概率明确地表示。

MS-TCN_第3张图片

时间分辨率的影响

本文方法可以处理15fps。

实验结果表明:

MS-TCN_第4张图片
较低的分辨率可以给出更好的编辑距离和分段F1分数。
较高的分辨率会提高逐帧的精度。

低分辨率的代价是,失去了动作段之间边界的精确位置,甚至丢失了小的动作段。

number of layers

6~10层,随着层数增加,提高性能。这主要是基于感受野的增加。
超过十层,不会提高逐帧的精度,但是会提高F1分数。

MS-TCN_第5张图片
视频越长,性能越差,因为感受野有限。

微调特征的作用

本实验直接使用了I3D特征。
MS-TCN_第6张图片
显然,微调特征的效果不大好,这是因为时间模型对于分割比识别更重要。

你可能感兴趣的:(视频分割,深度学习,计算机视觉,cnn)