MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation

论文题目:Multi-Stage Temporal Convolutional Network for Action Segmentation
原文地址:https://arxiv.org/abs/1903.01945

这篇文章涉及的是视频的行为分割问题(Action Segmentation),也就是对视频(video)中的每帧,推断其对应的行为类别,也就是说,该问题本质上是一个逐帧的图像分类问题。
该文章的主要核心内容如下:

1.使用TCN对时序邻域信息进行聚合

由于人的行为具有时间相关性,为了捕获行为的dynamics,在涉及视频序列处理的问题中,有必要对时序信息进行聚合。该论文使用时间卷积神经网络(Temporal Convolutional Networks, TCN)来进行时序信息的聚合。
TCN的输入不是原始的图像,而是按照时序进行排列的特征,为了扩大感受野,作者选择使用空洞卷积(dilated convolution),后接1x1卷积进行通道数量的调整。作者同样使用的残差连接(residual connection)来对梯度的反向传播进行优化。该残差结构可以公式化的表示为:
在这里插入图片描述
MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation_第1张图片
随后,我们对残差块进行堆叠,以提取更高层的特征,为了获得更大的感受野(receptive field),下一层的空洞卷积的dilation rate增加为原来的2倍,因此,随着层数的增加,网络的感受野呈指数增加。
最后,如同其他的分类任务,网络经过全连接层后,输入后续的softmax层中,得到逐帧的分类结果(frame-wise classification)
在这里插入图片描述

2.使用multi-state TCN对分类结果进行更好的调整

在第一部分提到的TCN已经实现了对视频的frame-wise classification,为了进一步改进分类效果,作者使用多层TCN进行堆叠,以对分类结果进行进一步微调。
MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation_第2张图片

3.在Loss function中加入平滑项,减缓过分类(over-classification)问题

常规的分类问题可以直接使用交叉熵(Cross-Entropy)损失
在这里插入图片描述
然而,在动作分类问题中,由于人的行为一般具有连贯性,直接使用Cross-Entropy
可能引起过分类(over-classification),造成行人行为的分类结果在时间轴上“不连贯”,因此,作者引入额外损失项对分类结果进行平滑
MS-TCN: Multi-Stage Temporal Convolutional Network for Action Segmentation_第3张图片
直观上来看,若当前帧与上一帧的行为分类结果的差异性越大,该loss项会基于网络更大的惩罚,从而一定程度上避免行为的分类结果在时间轴上出现剧烈的突变,提高分类结果的连贯性。
在这里插入图片描述
在这里插入图片描述
最终的损失函数为不同时刻对应的分类loss的求和。

你可能感兴趣的:(Action,Recognition,计算机视觉,深度学习,机器学习,人工智能)