Temporal Convolutional Networks for Action Segmentation and Detection论文阅读笔记

IEEE, 2016

 

现有的动作识别问题基本分为三种,(1)用滑动窗口来检测动作(2)用分段模型将视频分为多段再识别每段的动作(3)循环模型。(1)没有捕捉长范围的时序信息(2)没有考虑段间关系(3)关注范围有限且难以训练。

 

由此,作者提出了两种TCN模型:

(1)ED-TCN:使用编码解码结构,只用了卷积、池化和上采样,但能够有效捕捉长范围的时序信息,并且层数相对较少,但每层包含一组长卷积核。

(2)Dilated TCN:不使用池化和上采样,而使用空洞卷积,并在层间加入skip connection。这个模型是对WaveNet的改进,与ED-TCN也有相同点,但这个模型是为语音处理问题设计的。Dilated TCN的层数更多,但每层的空洞卷积的时间步很小。

 

两种TCN结构都能捕捉分段模型的特征,如动作持续时间,片段之间的转换和类似于循环模型的长范围的时序信息。两种TCN结构的特性有:

(1)计算是按层执行的,每个时间步同时更新,而不是按帧顺序更新;

(2)卷积是随着时间计算的;

(3)每帧的预测是固定长度的时间(被称为感受野)的函数

TCN的输入是一组视频特征(如CNN的输出)

 

ED-TCN结构:

Temporal Convolutional Networks for Action Segmentation and Detection论文阅读笔记_第1张图片

ED-TCN结构包含编码器解码器,编码器有L层,每层用E(l)∈RFl×Tl表示,其中Fl是第l层卷积核的数量,Tl是对应时间步的数量。每层都有卷积、一个非线性激励函数和最大池化。定义每层的卷积核的集合为W={W(i)},i等于1到Fl,{W(i)}的维度为d×Fl-1,对应的偏置向量b的维度为Fl。第l层的激励计算公式为:

池化操作的参数等于2,因此Tl=Tl-1/2,池化操作使得能够在长的时序窗口上计算激励。

解码器与编码器相似,但没有使用池化,而是使用了上采样,此时操作的顺序是上采样、卷积和激励函数。解码器的每层用D(l)∈RFl×Tl表示,l等于L到1,。这里的索引与编码器中的索引是正好相反的,因此第一个编码层中的滤波器计数与最后一个解码器层中的滤波器计数相同。

感受野:对于第L层,duration等于d,感受野的大小等于d(2L-1)+1

 

Dilated TCN:

Temporal Convolutional Networks for Action Segmentation and Detection论文阅读笔记_第2张图片

Yt表示t时刻的当前动作。Dilated TCN中定义了一系列block,每个block都包含L个卷积层。第l层第j个block中的激励被表示为S(j,l),其维度为Fω×T,每层都同样有Fω个卷积核,这使得我们之后能够合并不同层的激励。每层都有一组参数为s的空洞卷积,一个非线性激励函数和一个合并了层输入和卷积信号的残差连接。卷积核可以表示为W={W(1),W(2)},W(i)的维度为Fω×Fω,偏置向量b的维度为Fω

(3)表示时刻t空洞卷积的结果,(4)表示加上了残差连接的结果。

用V和e来表示残差部分的权重和偏置,V的维度为Fω×Fω,e的维度为Fω。每层的W,b,V,e都是相互独立的。空洞因子随层数增加而增加,满足sl=2l,这使得我们能够大量增加感受野,而不会显着增加参数的数量。每个block的输出都用一系列skip connections加起来了,如:

对于权重矩阵和偏置,有一组隐藏状态,每个时刻t的预测由下式给定:

其中U为权重矩阵,维度为C×Fω,c为偏置,维度为C,C是类别的数量

感受野:Dilated TCN每层中的卷积核比ED-TCN中的小,所以为了得到相同大小的感受野就需要更多层或block。感受野的大小等于B*2L,B为block的数量,L为每个block的层数

 

实验部分

动作分段问题(识别动作是否发生)和动作识别问题(识别动作的开始、结束和标签)的评价标准通常不一样,这篇文章提出了用F1得分作为评判标准,可以用于这两个任务。

 

你可能感兴趣的:(论文学习)