Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

论文笔记(3)

  • Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
    • 主要贡献
    • TSN
    • 实验细节
    • 实验结果

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

主要贡献

1.提出了一种新型的基于视频的行为识别的网络结构——Temporal Segment Network(TSN);
2.研究了在视频数据上借助TSN学习卷积神经网络的一系列良好实践。

TSN

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第1张图片
对于一个输入的视频V,将它平均分为K段{ S 1 S^1 S1 , S 2 S^2 S2 , · · · , S K S^K SK},TSN对Snippets进行了如下建模:
在这里插入图片描述
( T 1 T_1 T1 , T 2 T_2 T2 , · · · , T K T_K TK)是一序列Snippets,其中每一个 T K T_K TK从其对应的 S k S^k Sk随机选出;
F( T K T_K TK ; W)是表示参数为W的卷积网络的函数,该函数对Snippet T K T_K TK进行操作,并为所有类产生类分数;
G是分段一致性函数,该函数将多个Snippet的输出组合在一起,得到它们之间的类假设一致性,有均匀平均、最大平均和加权平均;
H是预测函数,该函数通过类假设一致性预测整个视频中每个动作类的概率。

结合标准分类交叉熵损失,模型的损失函数为:
在这里插入图片描述
其中C是动作类的数量, y i y_i yi是关于类i的ground truth标签。

模型优化方法为标准反向传播算法。
在反向传播过程中,模型参数W相对于损失值L的梯度可导出为:
在这里插入图片描述
K是TSN的段数。
当我们使用基于梯度的优化方法(如随机梯度下降(SGD))来学习模型参数时,(3)保证了参数更新是利用所有片段级预测得到的分段一致性G。

实验细节

two-stream Con-vNets :Inception with Batch Normalization (BN-Inception)
输入:RGB图像;RGB差;堆叠光流场;弯曲光流场
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第2张图片
训练方式:
交叉模式训练(用RGB模型来初始化时间网络);
正则化技术(partial BN:冻结除第一层外的所有Batch Normalization层的均值和方差参 数);
数据增强技术(转角裁剪和尺度抖动)。

实验结果

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第3张图片
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第4张图片
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第5张图片
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第6张图片
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第7张图片
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第8张图片

你可能感兴趣的:(行为识别)