【论文阅读】MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

【论文阅读】MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

这是一篇2018年cvpr的关于3D卷积神经网络的论文,其实个人感觉还篇论文投2017年的cvpr比较合适。

这篇文章还是解决3D卷积神经网络参数量大,在小数据集上不易训练,容易过拟合的问题。解决的思路就是使用3D和2D卷积核交替混合的思想,提出了MiCT的网络结构,这种网络将原始的3D卷积核替换成了MiCTcon或MiCTres两个模块,可以使网络在保持较深的前提下,参数量不是那么大。

MiCTcon和MiCTres模块

MiCTcon结构

【论文阅读】MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition_第1张图片
上图就是提出的MiCTcon模块,可以看到这种模块就是简单的3D和2D串级相连。即对于输入feature map,先通过3D卷积核,然后再通过2D卷积核(时间参数共享),得到最终的输出feature map。从而能够在保持参数量的前提下,提高网络的深度。

MiCTres结构

【论文阅读】MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition_第2张图片
上图就是提出的MiCTres结构,这种结构对于输入feature map,分别使用3D和2D卷积核提取feature map, 然后将两个feature map相加。文章认为这样设计可以让2D学习输入的空间特征,而3D学习时间的动态特征(不太清楚为什么?如果实验中有相关可视化的实验的话会更让人信服)

MiCTNet

然后MiCTNet就是由MiCTcon结构和MiCTres结构 堆叠而成组合形成的网络,具体的网络结构细节如下图所示,就不再多说了。
【论文阅读】MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition_第3张图片

其他的实验细节和实验感觉也没什么好说的

你可能感兴趣的:(技术类)