初探3D卷积(附1D、2D卷积)

更一下博 搬砖的小李又来福州了
教资笔试过啦!接下来希望面试也能接着幸运~
——————————————————
今天就记录一个新的概念其实也是之前有用过的一种网络模型3DCNN

介绍3D卷积之前先补充一下1D和2D

1D卷积

一维卷积主要用于对只有一个维度的时间序列提取特征,比如信号、股价、天气、文本以及自然语言处理领域。

如上图,图中的输入的数据维度为8,过滤器的维度为5。与二维卷积类似,卷积后输出的数据维度为8−5+1=4。

2D卷积

2D卷积是提取的单张静态图像的空间特征,然后同神经网络结合之后完成图像的分类、检测等计算机视觉方面的任务。

如上图中的输入的数据维度为(14×14),过滤器大小为5×5,二者做卷积,输出的数据维度为(10×10)即(14−5+1=10)。

进入重点3D卷积

3D卷积

2DCNN可以较好地处理单张图片,但是对视频,即多帧图像就会束手无策,因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息,即光流场。因此,为了能够对视频进行特征,以便用来分类等任务,提出了3D卷积,在卷积核中加入时间维度。下图就很好的说明了2D卷积和3D卷积之间的差异。很明显,我们可以直观的发现3DCNN提取的是三维度的方体特征。


如下图,假设输入数据的大小为(a1×a2×a3),过滤器大小为fff,
三维卷积最终的输出为(a1−f+1)×(a2−f+1)×(a3−f+1)。

补充:3D卷积里面也分为单通道和多通道。
针对单通道,与2D卷积不同之处在于,输入的图像多了一个 depth 维度,即输入为(1, depth, height, width),卷积核也多了一个k_d维度,因此卷积核在输入3D图像的空间维度(height和width维)和depth维度上均进行滑窗操作,每次滑窗与 (k_d, k_h, k_w) 窗口内的values进行相关操作,得到输出3D图像中的一个value。
针对多通道,输入大小为(3, depth, height, width),则与2D卷积的操作一样,每次滑窗与3个channels上的 (k_d, k_h, k_w) 窗口内的所有values进行相关操作,得到输出3D图像中的一个value。参考(https://www.jianshu.com/p/6e1ef63615f8)

附三者(1D、2D、3D)之间的对比
参考(http://www.360doc.com/content/18/0919/21/54700046_788061690.shtml)

搬运参考(https://blog.csdn.net/u014182497/article/details/80748046)

END~接着划水准备面试啦!干巴爹!

你可能感兴趣的:(初探3D卷积(附1D、2D卷积))