一、概述
(一)简介
OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成。OpenCV用C++语言编写,它的主要接口也是C++语言,但是依然保留了大量的C语言接口。
在计算机视觉项目的开发中,OpenCV作为较大众的开源库,拥有了丰富的常用图像处理函数库,能够快速的实现一些图像处理和识别的任务。此外,OpenCV还提供了Java、python、cuda等的使用接口、机器学习的基础算法调用,从而使得图像处理和图像分析变得更加易于上手,让开发人员更多的精力花在算法的设计上。
(二)应用领域
主要包含下列应用领域:
人机互动,物体识别,图像分割,人脸识别,动作识别,运动跟踪,机器人,运动分析,机器视觉,结构分析,汽车安全驾驶。
(三)主要功能
图像数据的操作 ( 分配、释放、复制、设置和转换)。 图像是视频的输入输出I/O (文件与摄像头的输入、图像和视频文件输出)。
矩阵和向量的操作以及线性代数的算法程序(矩阵积、解方程、特征值以及奇异值等)。
各种动态数据结构(列表、队列、集合、树、图等)。
基本的数字图像处理(滤波、边缘检测、角点检测、采样与差值、色彩转换、形态操作、直方图、图像金字塔等)。
结构分析(连接部件、轮廓处理、距离变换、各自距计算、模板匹配、Hough变换、多边形逼近、直线拟合、椭圆拟合、Delaunay 三角划分等)。
摄像头定标(发现与跟踪定标模式、定标、基本矩阵估计、齐次矩阵估计、立体对应)。
运动分析(光流、运动分割、跟踪)。
目标识别(特征法、隐马尔可夫模型:HMM)。
基本的GUI (图像与视频显示、键盘和鼠标事件处理、滚动条)
二、图像识别教程
(一)安装
1.下载程序
下载openCV安装包官网地址:Home - OpenCV
程序目录如下:
选择对应环境的文件夹,本文以java为例,java所需文件如下:
Jar文件为依赖包,win64位操作系统选择x64文件夹:
2.环境搭建
本文以IDEA开发工具为例,maven构建项目,pom管理jar包;
由于项目需要用到 opencv 的dll文件,故要么放在java library path 中,或放在jre lib 中,windows下可放在System32目录下,也可以在代码中动态加载,如下:
pom引入 opencv.jar:
(二)基本流程
1.图像预处理
(1)Mat-基本图像容器
Mat 是一个类,由两个数据部分组成:矩阵头(包含矩阵尺寸,存储方法,存储地址等信息)和一个指向存储所有像素值的矩阵(根据所选存储方法的不同矩阵可以是不同的维数)的指针。矩阵头的尺寸是常数值,但矩阵本身的尺寸会依图像的不同而不同,通常比矩阵头的尺寸大数个数量级。
转换图像为Mat对象代码如下:
(2)图像灰度化
在RGB模型中,如果R=G=B时,则彩色表示灰度颜色,其中R=G=B的值叫灰度值;因此,灰度图像每个像素点只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。一般常用的是加权平均法来求像素点的灰度值
常见的加权方法如下:
1)Gray = B ; Gray = G ; Gray = R
2)Gray = max({B , G , R})
3)Gray = (B + G + R) / 3
4)Gray = 0.072169 * B + 0.715160 * G + 0.212671 * R
5)Gray = 0.11 * B + 0.59 * G + 0.3 * R
这几种方法中,第一为分量法,即用RGB三个分量的某一个分量作为该点的灰度值;第二种方法为最大值法,将彩色图像中的三个分量亮度的最大值作为灰度图的灰度值;第三种方法是将彩色图像中的三分量求平均得到一个灰度图;后两种都属于加权平均法,其中第四种是opencv开发库所采用的一种求灰度值算法;第五种为从人体生理学角度所提出的一种求灰度值算法(人眼对绿色的敏感最高,对蓝色敏感最低)
图像灰度化代码如下:
(3)图像二值化
图像的二值化,就是将图像上的像素点的灰度值设置位0或255这两个极点,也就是将整个图像呈现出明显的只有黑和白的视觉效果。
常见的二值化方法为固定阀值和自适应阀值,固定阀值就是制定一个固定的数值作为分界点,大于这个阀值的像素就设为255,小于该阀值就设为0,这种方法简单粗暴,但是效果不一定好.另外就是自适应阀值,每次根据图片的灰度情况找合适的阀值。自适应阀值的方法有很多,这里采用了一种类似K均值的方法,就是先选择一个值作为阀值,统计大于这个阀值的所有像素的灰度平均值和小于这个阀值的所有像素的灰度平均值,再求这两个值的平均值作为新的阀值。重复上面的计算,直到每次更新阀值后,大于该阀值和小于该阀值的像素数目不变为止。
二值化代码如下:
(4)图像降噪
处理掉一些干扰因素;
主要的降噪算法
滤波类:通过设计滤波器对图像进行处理。特点是速度往往比较快,很多卷积滤波可以借助快速傅里叶变化来加速
稀疏表达类:自然图片之所以看起来不同于随机噪音/人造结构,是因为大家发现他们总会在某一个横型下存在稀疏表达。而我们想排除的噪音往往无法被稀疏化。基于这个判别式模型,用稀疏性来约束自然图像,在很多逆问题里取得了拔群的效果
外部先验:如果从有噪音的图片本身无法找到规律,我们也可以借助其他类似但又没有噪音的图片,来总结图片具有的固有属性。这一类方法利用的外部图片来创造先验条件,然后用于约束需要预测的图片。最有代表性就是混合高斯模型
聚类低秩:除了可稀疏性,低秩性也是自然图片常见的一个特性。数学上,可稀疏表达的数据可以被认为是在Union of low-dimensional subspaces;而低秩数据则是直接存在于一个Low-dimensional subspace。这个更严格的限制往往也可以取得很好的降噪效果。
深度学习(Deep Learning):这类可以归于外部先验的子类,如果说解决逆问题的关键,是寻找一个好的图像约束器,那么我们为什么不用一个最好的约束器?深度学习方法的精髓,就在于通过大量的数据,学习得到一个高复杂度(多层网络结构)的图片约束器,从而将学习外部先验条件这一途径推到极限。近期的很多这类工作,都是沿着这一思路,取得了非常逆天的效果。
字符分割:就是把图片有用的部分一个个分割下来;字符分割有很多方法,但并不是每一种方法都是万能的,我们需要根据自己的业务来调整;常见的就是投影法和连通域法
投影法:就是分析每一维上黑色像素点的个数(假设是二值化的图像),然后设置一个阙值,根据这个阙值来分割图片
图像降噪代码如下:
(5)图像腐蚀、膨胀
腐蚀:图像的一部分区域与指定的核进行卷积,求核的最小值并赋值给指定区域。腐蚀可以理解为图像中高亮区域的领域缩小。
膨胀:图像的一部分区域与指定的核进行卷积,求核的最大值并赋值给指定区域。膨胀可以理解为图像中高亮区域的领域扩大。
腐蚀、膨胀代码如下:
2.图像识别
(1)特征值提取
为了解决图片旋转缩放后的匹配问题,就需要用到计算机视觉处理算法中的特征变换匹配算法。其思路是先找到图像中的一些“稳定点”,这些点不会因为视角的改变、光照的变化、噪音的干扰而消失,比如角点、边缘点、暗区域的亮点以及亮区域的暗点。这样如果两幅图中有相同的景物,那么稳定点就会在两幅图像的相同景物上同时出现,这样就能实现匹配。
特征值提取代码如下:
效果如下:
(2)特征值比对
OpenCV 中针对特征点匹配问题已经提供了很多算法,包括 FAST 、SIFT 、SURF 、ORB。
特征值比对代码如下:
效果如下: