图像,尤其是数字图像的定义,在冈萨雷斯的书中是一个二维函数f(x,y),x,y是空间平面坐标,幅值f是图像在该点处的灰度或者强度。下面通过OpenCV中最常用的图像表示方法Mat来看一下在计算机中是怎么定义图像的。
Mat的定义
OpenCV在2.0之后改用C++实现了Mat类,从而代替了IplImage,不用再手动分配和释放内存。Mat其实是原来存放数组的,数组可以是单通道的也可以是多通道的。通过Mat我们可以存储矢量、张量、点云、矩阵、灰度图、彩色图等。
Mat包含两个部分:矩阵头和指向矩阵元素数据的指针。
当我们定义一个Mat类型的变量,Mat a,这个a只是一个矩阵头,它的大小是固定的,不随矩阵(图像)大小的变化而变化,它包含了矩阵的基本信息,矩阵多大,存放在哪里,怎么存放,还有引用的次数。
关于这个引用次数,其实也是矩阵头存在原因。因为矩阵可能很大,在复制和传递的过程中会占据很大的成本,所以我们其实只需要复制矩阵头和指针,矩阵头中的引用次数会根据复制或者销毁而变化。cv::Mat b = a其实这种拷贝方式就是浅拷贝,两个指向相同矩阵的变量,其中一个的变化会影响另外一个。如果想进行深拷贝,可以使用cv::Mat c = a.clone();或者a.copyTo(d);
Mat的使用
Mat的初始化
cv::Mat img(2,2,CV_8UC3,cv::Scalar(0,0,255));
行列数,元素类型和初始值。8UC3是最熟悉的,8bit的无符号三通道类型,0~255
Mat的输入
cv::Mat imread(const string& filename,int flags=1)
注意第二个参数ImreadModes,有13种枚举类型,常用的是-1,0,1,对应IMREAD_UNCHANGED ,IMREAD_GRAYSCALE,IMREAD_COLOR
Mat的保存
Cv:: imwrite( const String& filename, InputArray img,
const std::vector& params = std::vector());
这里的filename和imread中的一样。保存路径中的filename的后缀名,即图像的格式,和第三个参数有关。第三个参数是图像格式的具体参数,以int型的动态数组的形式给出,每两个为一对,分别是参数名和参数值。(paramId_1, paramValue_1, paramId_2, paramValue_2, ... .)。For JPEG, it can be a quality from 0 to 100 (the higher is the better). Default value is 95.当格式是PNG时,参数决定压缩级别(0到9),压缩级别越高图像占用的空间越小,默认是IMWRITE_PNG_STRATEGY_DEFAULT,当图像数据由滤波预测得到,数据由small values构成,使用IMWRITE_PNG_STRATEGY_FILTERED得到更好的效果;IMWRITE_PNG_STRATEGY_HUFFMAN_ONLY使用Haffman编码。
只有8bit单通道或者三通道的可以通过这个函数保存,三通道时颜色顺序是BGR。Only 8-bit (or 16-bit unsigned (CV_16U) in case of PNG, JPEG 2000, and TIFF) single-channel or 3-channel (with 'BGR' channel order) images can be saved using this function.
当图像格式是PNG(Portable Network Graphics),JPEG2000或者TIFF时可以是CV_16UC的。带有透明度通道的PNG图像也可以使用这个函数保存,通道顺序是BGRA,完全透明Fully transparent pixels时,A=0,完全不透明fully opaque pixels时,A=255/65535
Mat的属性:type depth step
img(3*4)的type是CV_16UC4,
Mat img(3, 4, CV_16UC4, Scalar_(1, 2, 3, 4));
cout << img << endl;
cout << "dims:" << img.dims << endl;
cout << "rows:" << img.rows << endl;
cout << "cols:" << img.cols << endl;
cout << "channels:" << img.channels() << endl;
cout << "type:" << img.type() << endl;
cout << "depth:" << img.depth() << endl;
cout << "elemSize:" << img.elemSize() << endl;
cout << "elemSize1:" << img.elemSize1() << endl;
cout << "Step[0]:" << img.step[0] << endl;
cout << "Step[1]:" << img.step[1] << endl;
图像的维度,行列数很好理解。但是在多通道时需要注意,列数指的是元素的个数,而元素可能有三通道,而在计算时很多地方习惯把通道展开,这样得到一个通道数和列数的乘积,如int colNumber = outputimage.cols*outputimage.channels()。
Mat类型的type()返回一个int型的值,通过查表可以知道数据类型和通道数。depth和type类似,相比于type缺少了通道信息。
step[0]是其一行所占的数据字节数4 *4 * 16 / 8 = 32.Step得到的和step[0]是一样的
step[1] 是一个元素所占的字节数,img的一个元素具有4个通道,故:4 * 16 / 8 = 8
step返回的是一个MatStep类型的变量,MatStep通过重载运算符[]返回了size_t, size_t则是无符号int型的unsigned int。MatStep初始化后得到一个int型的数组,p = buf; p[0] = p[1] = 0;
Mat中一个uchar* data指向矩阵数据的首地址,而现在又知道了每一行和每一个元素的数据大小,就可以快速的访问Mat中的任意元素了。
Add(M_{I,j})=M.data+M.step[0]*i+M.step[1]*j
如果将一层for循环变成列数乘通道数,那么也可以写为
Add(M_{I,j})=M.data+M.step[0]*i+ j
上面分析step是一个size_t[2],实际不是很正确,正确的来说step应该是size_t[dims],dims是Mat的维度,所以对于上面的二维的Mat来说,step是size_t[2]也是正确的。
下面就对三维的Mat数据布局以及step
图像格式和屏幕接口
三通道时差分之后占用357KB,使用单通道时126KB,但是还是大于原来的120KB,为什么呢,虽然做了差分,但是编码都是8bit编码,图像大小没有变化,图像占用空间大小应该也是一样的。于是把原图读取进来之后直接保存,发现这样子得到的是126KB。但是为什么把png图像读进来再保存成png,占用空间大小就变了呢?
首先来看一下PNG这种格式,它是一种无损压缩的形式,无损压缩即没有丢失原始信息,可以完全恢复原来的格式。压缩的原理是利用特殊的编码将重复的数据进行了标记,同时不再是记录每一个像素的彩色信息,而是进行索引,将颜色对应到各个位置。PNG最为熟悉的地方是它支持透明效果,消除锯齿边缘?这在平面设计中是常用的。另外,PNG的英文名Portable Network Graphics表明它对于网络传输做了优化,什么优化呢?在2G时代,看一张图像往往是一行一行加载出来的,而在现在4G时代网速已经快了很多,但是有时候还是不能马上加载出一幅图像,于是,借助PNG,可以得到更好的体验:先显示出一个基本的图像的模糊版本,之后逐渐清晰起来。
与PNG联系较密切的是GIF格式。因为GIF 中使用了LZW压缩算法,所以GIF的使用需要向Unisys公司缴纳专利费,这才有了PNG的推广。GIF被人熟知主要是因为一些动态表情包,其实GIF也是一种无损压缩算法,只不过GIF可以存放多张图像,人们在显示时将多张图像依次读取并显示,就可以得到动画效果。
之前提到的CV_8UC3就是标准的24位(BGR一共24bit)真彩色,可以表达2^24=1677万种颜色,而人眼只能识别一千万种。真彩色图通常是指RGB 8:8:8,但在显示器上显示的颜色就不一定是真彩色,要得到真彩色图像需要有真彩色显示适配器,现在在PC上用的VGA适配器是很难得到真彩色图像的。VGA(Video Graphics Adapter)接口,又叫D-sub接口,是D-subminiature的简称。显卡所处理的信息最终都要输出到显示器上,而液晶显示器如LCD之前的CRT显示器只能接收模拟信号,所以就有了VGA标准,输出模拟信号。VGA物理接口是梯形的,共3行15个针孔。VGA接口竖置的说明是集成显卡,VGA接口横置说明是独立显卡。
与VGA对应的就是HDMI了,这是High Definition Multimedia Interface,高清多媒体接口,可以传输视频和音频数字信号。对比之下VGA只能传输视频信号,音频信号需要另外的连线。因为是HDMi设备可以接收数字信号,这样就无需进行A/D、D/A转换了,
说到接口就顺便看一下日常使用的手机接口。
TypeA:即我们常见的标准USB大口,主流的可以分为USB2.0速度(几十M/S)和USB3.0速度(上百M/S)
TypeB:常见于打印机以及带触摸和USB接口的显示器,日常使用频率低。但是Type-B的分支Micro B接口和Mini B是大多数旧款手机、学习机、数码相机等的的接口格式。
MircoB分为MicroB 2.0和MicroB 3.0,MicroB 3.0更宽,所以可以兼容MicroB 2.0,一般用于移动硬盘,我也见过三星一款手机的耳机以此为接口。该接口过于扁长,多次插拔后故障率较高
Type-C:目前绝大多数手机的充电/数据接口,有些还同时是手机的耳机接口。
这里可以看到通过USB Type-C集成了HDMI的功能,既然HDMI可以同时传输视频音频,所以有些手机厂商取消了耳机接口,通过USB Type-C连接耳机。
后记:
OpenCV的官方文档是值得仔细看的,不仅有代码样例还有很详细的解读,通过一些很具体而形象的例子可以快速理解图像处理的知识。
Reference:
1.http://www.cnblogs.com/wangguchangqing/p/4016179.html
2.https://baijiahao.baidu.com/s?id=1611944986325018535&wfr=spider&for=pc
3.http://www.cnblogs.com/wangguchangqing/p/3841271.html
4.https://docs.opencv.org/3.4.0/d3/d63/classcv_1_1Mat.html