Asymmetric 3D Convolutional Neural Networks for action recognition

1.3x3x3的卷积拆分成3x1x1 ,1x3x1 ,1x1x3.

2.为了减少网络层数,用3x1x1 ,1x5x1 ,1x1x5去代替两个3x3x3的卷积。为什么不使用5x1x1呢,因为使用3x1x1时最后一层的temporal视野域已经大于16(输入帧数),所以还是用参数量较少的3x1x1。

Evaluation of asymmetric 3D convolution:

(值得参考)train from scratch on UCF101,构建了C3D-b8和C3D-b5(简化版),分别用Asy-conv替换3D-conv,生成了7种变种b8-asy3,b8-asy4,b8-asy5,b8-asy34,b8-asy45,b8-asy345.记录准确率和速度,结果分析得很透彻全面。

Evaluation of asymmetric 3D convolutional micronets:

train from scratch on UCF101,依据上述结果,将4种micronet分别替换第五个卷积层,发现M2效果最好。

Evaluation of the 3D-CNN model and the RGBF input:有预训练,根据Inception构造Asymmetric CNN。同时对比了输入RGBF(值得参考),RGB,FLOW。

Comparison with the state-of-the-arts:有预训练,在UCF101和HMDB51上。

(值得参考)可视化:显示输入,conv1,conv2,conv3;可视化最后一层的分类能力,5个神经元表示五类的得分,将在每个神经元得分最高的前十个样本的原始图像显示出来,查看分类结果。

 

 

你可能感兴趣的:(video,action,recognition)