卷积(convolution)最容易理解的解释_一点一点的进步的博客-CSDN博客
卷积的重要的物理意义是:一个函数(如:单位响应)在另一个函数(如:输入信号)上的加权叠加。
卷积的意义:加权叠加。
数学意义:
现实意义:
离散卷积的例子:丢骰子
我有两枚骰子:
把这两枚骰子都抛出去:
求:两枚骰子点数加起来为4的概率是多少?
这里问题的关键是,两个骰子加起来要等于4,这正是卷积的应用场景。
我们把骰子各个点数出现的概率表示出来:
那么,两枚骰子点数加起来为4的情况有:
因此,两枚骰子点数加起来为4的概率为:
f(1)g(3)+f(2)g(2)+f(3)g(1)
符合卷积的定义,把它写成标准的形式就是:
(f∗g)(4)=∑m=13f(4−m)g(m)(f∗g)(4)=∑m=13f(4−m)g(m)
图像处理
4.1 原理
有这么一副图像,可以看到,图像上有很多噪点:
高频信号,就好像平地耸立的山峰:
看起来很显眼。
平滑这座山峰的办法之一就是,把山峰刨掉一些土,填到山峰周围去。用数学的话来说,就是把山峰周围的高度平均一下。
平滑后得到:
4.2 计算
卷积可以帮助实现这个平滑算法。
有噪点的原图,可以把它转为一个矩阵:
然后用下面这个平均矩阵(说明下,原图的处理实际上用的是正态分布矩阵,这里为了简单,就用了算术平均矩阵)来平滑图像:
g=⎡⎣⎢⎢191919191919191919⎤⎦⎥⎥g=[191919191919191919]
记得刚才说过的算法,把高频信号与周围的数值平均一下就可以平滑山峰。
比如我要平滑a1,1a1,1 点,就在矩阵中,取出a1,1a1,1点附近的点组成矩阵 f ,和 g 进行卷积计算后,再填回去
要注意一点,为了运用卷积, g 虽然和 f 同维度,但下标有点不一样:
写成卷积公式就是:
(f∗g)(1,1)=∑k=02∑h=02f(h,k)g(1−h,1−k)(f∗g)(1,1)=∑k=02∑h=02f(h,k)g(1−h,1−k)
要求c4,5c4,5,一样可以套用上面的卷积公式。
这样相当于实现了 g 这个矩阵在原来图像上的划动(准确来说,下面这幅图把 g 矩阵旋转了180∘180∘ ):
1. 卷积的三种模式
深度学习框架中通常会实现三种不同的卷积模式,分别是 SAME、VALID、FULL。这三种模式的核心区别在于卷积核进行卷积操作的移动区域不同,进而导致输出的尺寸不同。我们以一个例子来看这三种模式的区别,输入图片的尺寸是5x5 ,卷积核尺寸是 3x3 ,stride 取 1。
1.1 FULL 模式
FULL 模式下卷积核从与输入有一个点的相交的地方就开始卷积。如下图所示,蓝框的位置就是卷积核第一个卷积的地方,灰色部分是为了卷积能够正常进行的 padding(一般填 0)。因此 FULL 模式下卷积核移动区域最大,卷积后输出的尺寸也最大。
1.2 VALID 模式
VALID 模式与 FULL 模式相反,在整个卷积核与输入重叠的地方才开始卷积操作,因此不需要 padding,输出的尺寸也最小
1.3 SAME 模式
SAME 模式是最常用的一种模式,SAME 的意思是卷积后输出的尺寸与输入尺寸保持一致(假定 stride 为 1)。通过将卷积核的中心与输入的第一个点进行对齐确定卷积核起始位置,然后补齐对应 padding 即可。如下图所示,可以看到卷积输出的尺寸与出入保持一致。
在这里插入图片描述
SAME 模式下当卷积核边长为偶数时,可以通过在其中一边增加多一行(列)padding,即不对称的 padding 实现输出尺寸与输入尺寸保持一致,如下图所示(卷积核尺寸为 [公式] )
以上三种模式区别在于卷积核进行卷积操作的移动区域不同,其实是确定了所需的 padding。各种模式 padding 计算如下
def get_padding(inputs, ks, mode="SAME"):
"""
Return padding list in different modes.
params: inputs (input array)
params: ks (kernel size) [p, q]
return: padding list [n,m,j,k]
"""
pad = None
if mode == "FULL":
pad = [ks[0] - 1, ks[1] - 1, ks[0] - 1, ks[1] - 1]
elif mode == "VALID":
pad = [0, 0, 0, 0]
elif mode == "SAME":
pad = [(ks[0] - 1) // 2, (ks[1] - 1) // 2,
(ks[0] - 1) // 2, (ks[1] - 1) // 2]
if ks[0] % 2 == 0:
pad[2] += 1
if ks[1] % 2 == 0:
pad[3] += 1
else:
print("Invalid mode")
return pad
卷积运算本质上就是在滤波器和输入数据的局部区域间做点积,最直观明了的方法就是用滑窗的方式,c++简单实现如下:
输入:imput[IC][IH][IW]
IC = input.channels
IH = input.height
IW = input.width
卷积核: kernel[KC1][KC2][KH][KW]
KC1 = OC
KC2 = IC
KH = kernel.height
KW = kernel.width
输出:output[OC][OH][OW]
OC = output.channels
OH = output.height
OW = output.width
其中,padding = VALID,stride=1,
OH = IH - KH + 1
OW = IW - KW + 1
for(int ch=0;ch