卷积在图像分类上的运用

任务目标:图像分类


图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度学习


1.丰富了低、中、高等级的特征边缘、纹理、形状、颜色.....高纬度的人类无法理解的特征2.越深、越宽的网络具有越强的表达能力

日有学者证明,一个宽度为K、深度为H的网络,能够产生至少

条线段

  • 线段越多,拟合得越准确

  • 因此,网络加宽、加深可以提升性能,并且加深效果比加宽好:

使用卷积层算法来对图像信息进行压缩


局部感知: 在提取图片特征时,只需得到图片的某一些特征,而一些模式化特征比整张图片小很多,并且一个神经元不需要看到整个图片发现模式。所以,让每个卷积核只与输入图片的一个局部区域连接,该连接空间的大小叫做神经元的感受野(receptive field),它的尺寸是一个超参数。其通道数量总与输入的通道数相同即在空间维度(宽高)上是局部的,而在深度上总是和输入数据的深度一致。权值共享: 由于同样的模式可能出现在不同的区域,所有采用权值共享的方法,该方法对不同的感受野使用的卷积核参数相同,当权值共享时就相当于卷积核扫过了一整张图片。在卷积层中使用权值共享是用来控制参数的数量。

卷积神经网络


卷积神经网络(CNN)是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是,对图像的局部理解是好的。实际的好处是,参数少将大大缩短了学习所需的时间,并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块,而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它,例如,用一个5×5的窗口,通常从左到右,从上到下,如下图所示。它如何“快速”滑动称为其步幅。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。

卷积在图像分类上的运用_第1张图片

卷积是图像的像素值的加权和,事实证明,整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积,因此权重矩阵是5×5×n的张量,其中n是卷积数。

例如,假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此,该模型具有5×5×64=1,600个参数,其参数明显少于完全连接的网络,256×256= 65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN,但卷积层中的参数数量不会改变。

(不懂图像分类?这四种卷积神经网络模型了解一下! - 知乎 (zhihu.com))

你可能感兴趣的:(分类,计算机视觉,深度学习,卷积神经网络)