上文链接:Deep learning for Computer Vision with Python 计算机视觉与深度学习阅读笔记(1)
像素是图像的构成元素,每个图片都是由一系列像素组成。一个图片的像素数量=长像素数*宽像素数。
大多数像素可以分成两类:
灰通道的像素是一个标量,它的取值在0~255之间,其中0表示黑色,255表示白色。
彩色通道的像素是一个三元组,三元组中的值表示红、绿、蓝颜色的数量,它们的范围都在0~255之间。我们通常用8位int表示0~255之间的数。
但是,通常情况下,我们并不会将图片的像素数据直接放入神经网络中进行训练,其中都要进行一个数据转化的过程,即使用一些加载方式(例如OpenCV)将像素int数据转成float类型的数据。
由于RGB颜色范围包含255的三次方,也就是16777216种颜色,所以绝大多数的数据集中图片的颜色都可以使用RGB颜色来进行表示。
我们知道,RBG颜色是红绿蓝三个通道,因此,一张图片可以由三个部分组成,每个部分表示一个颜色通道。而对于每个部分是一个矩阵,又可以用W*H来表示。因此,一张彩色图片是由W*H*D来组成的,W是宽度,H是高度,D是通道数。对于RGB颜色区域来说,D=3.
像素的坐标表示和一般的数学坐标系不太一样,它是从0开始,并且左上角为(0,0),如图所示。
OpenCV或者scikit-image用来表示图片的方式是一系列Numpy数组,每个numpy数组的shape为:(height, width, depth)注意,height在width前面,原因是像素在图片中用坐标表示的形式是 (y, x).
import cv2
image = cv2.imread("img.png")
print(image.shape)
cv2.imshow("Image",image)
cv2.waitKey(0)
值得注意的是,OpenCV对于RGB的排序方式是BGR。
在缩放图片时,我们通常会固定图片的纵横比,这样能保证图片不会被过于压缩或者拉伸。但是,固定纵横比的操作并不适用于深度学习,因为神经网络的输入通常要求所有图片为一个固定的尺寸。通常,深度学习所需要的尺寸为:
32✖️32,64✖️64,224✖️224, 227✖️227, 256✖️256, 299✖️299.
因此,我们仍然需要对图片进行横向压缩或者纵向压缩。具体使用什么压缩方式,是需要具体情况进行分析的。对于一些数据集,可以不需要考虑压缩的影响;对于另一些数据集,则需要在变换尺寸前先做一些处理。对于具体的方式将在后面的章节中详细介绍。
对于人类来说,图片是非常好识别的,大家一眼就能看出一张图片的内容。但对于计算机来说,图片是由一个个矩阵组成的。想要让计算机知道一张图片在表示什么内容,就需要应用图像分类任务了,图像分类是计算机视觉的一个子课题。
什么是图像识别?
举个例子。我们假设我们的图片数据集中包含三个类别:{猫,狗,熊猫}
然后,我们将一张图片放入到识别系统中,将会得到这样的结果:狗:95%,猫:4%,熊猫:1%。
一个语义鸿沟
下面展示了两张不同的图片,他们在计算机的眼中,即两个不同的矩阵。
一开始,计算机并不能分辨出每张图片的内容。 但是,我们可以从三个角度分解这张图片:
1. 位置:上面是天空,下面是湖水;
2. 颜色:天空是蓝色,湖水是绿色;
3. 纹理:天空是非常均匀的图案,湖水是较为粗糙的图案;
计算机如何描述这些信息呢?方式就是特征提取,将数据提取成特征向量。有一些传统的人工设计的特征,如HOG、LBP;另一个方式就是在深度学习中自动提取特征了。
图像识别会遇到多种挑战。一个目标在不同的因素下都会有不同的变化,主要分类如下:
我们的图像识别系统要足够识别以上多种变化,甚至是组合变化。这个难度是很大的。或许可以将识别的对象范围进行缩小,使用具体的任务;例如识别冰箱来代替识别所有厨房物品。(Frame your problem)