三维卷积解读及其pytorch实现

原论文:Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV 2015)

文章贡献点

  • 实验表明三维卷积深度神经网络是一种能够同时模拟外观和运动的良好的特征学习器。
  • 发现3x3x3在探索的架构中效果最好。
  • 在4个不同的任务和6个不同的基准上,这个模型所学习的特征优于或接近目前的最好的方法。

探索过程

注释:根据二维卷积的研究结果,感受野较小且结构更深的3x3卷积核能产生最好的结果。这里固定了空间感受野为3x3,只改变三维卷积核的时间深度。

视频表示:c x l x h x w,其中c是通道的数量,l是视频帧数长度,h和w分别是帧的高度和宽度。

结构
三维卷积解读及其pytorch实现_第1张图片

三维卷积解读及其pytorch实现_第2张图片
三维卷积解读及其pytorch实现_第3张图片

  • 2D convolution一般用在单通道的数据上,灰度图片
  • 2D convolution on multiple frames:一般用在多通道的数据上,彩色图片
  • 3D convolution:使用场景一般是多帧(单/多通道)的数据,输出也是多帧,依次对连续k帧的整个通道同时执行卷积操作。(3D卷积在执行时不仅在各自的通道中共享卷积核,而且在连续k帧之间也共享卷积核)

三维卷积解读及其pytorch实现_第4张图片
在这里插入图片描述

参考链接

你可能感兴趣的:(#,CV论文阅读)