文章首发于微信公众号《有三AI》
【AI白身境】搞计算机视觉必备的OpenCV入门基础
今天是新专栏《AI白身境》的第五篇。
曾经看过一个视频,树莓派自平衡机器人自动追着小球跑。不经让我脑子蹦出一个有趣的想法,可以做一个识别猫的机器人,让机器人跟着猫跑,有这样一个小东西陪伴喵星人一定很有意思。
不过,首先你要有一只猫,其次,这个机器人不仅要有一双会视觉处理的眼睛,还一定要有一个坚强的外壳,不然会被喵星人给拆了。
那机器人是如何完成处理图像和视频的各项任务呢?开源的计算机视觉包——OpenCV 会是你的最佳选择,今天给小白们做一个最简单的入门介绍。
作者 | 臧小满 言有三
编辑 | 臧小满 言有三
今天很开心与大家分享一篇关于OpenCV的文章,重点阐述以下几个问题:
1.如何部署OpenCV。
2.OpenCV有哪些模块,可以做什么。
3.OpenCV的基本数据结构的熟悉与使用。
希望看过文章后,你也可以开始玩转OpenCV之路。
01 什么OpenCV?
它是一款由Intel公司俄罗斯团队发起并参与和维护的一个计算机视觉处理开源软件库。
作为一款优秀的计算机视觉库,在诸多方面都有着卓越的表现:
1.编程语言
多数模块基于C++实现,少部分基于C语言实现,同时提供了Python、Ruby、MATLAB等语言的接口。
2.跨平台
可自由地运行在Linux、Windows和Mac OS等桌面平台,Android、 IOS、BlackBerray等移动平台。
3.活跃的开发团队
目前已更新至OpenCV4.0
4.丰富的API
完善的传统计算机视觉算法,涵盖主流传统机器学习算法,同时添加了对深度学习的支持。
OpenCV可以完成几乎所有的图像处理任务,下面是一个简要list。
视频分析(Video analysis)
3D重建(3D reconstruction)
特征提取(Feature extraction)
目标检测(Object detection)
机器学习(Machine learning)
计算摄影(Computational photography)
形状分析(Shape analysis)
光流算法(Optical flow algorithms)
人脸和目标识别(Face and object recognition)
表面匹配(Surface matching)
文本检测和识别(Text detection and recognition)
02 如何部署OpenCV?
一般来说我们会使用OpenCV的C++和Python版本,所以下面分别对其安装进行介绍,以ubuntu系统为例。
2.1 Ubuntu安装C++ OpenCV
安裝OpenCV所需的库
sudo apt-get install build-essential
sudo apt-get install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev
libswscale-dev3 sudo apt-get install python-dev python-numpy libtbb2 libtbb-dev libjpeg-dev libpng-dev libtiff-dev libjasper-dev libdc1394-22-dev
下载最新opencv源码
unzip opencv-3.2.0.zip
cd ~/opencv-3.2.0
编译OpenCV
cd ~/opencv-3.2.0
mkdir release
cd release
cmake -D CMAKE_BUILD_TYPE=RELEASE -D
CMAKE_INSTALL_PREFIX=/usr/local ..
make
sudo make install
一般来说,编译安装绝对不可能一次顺利完成,以下是几个常见的问题。
1,编译过程中ippcv下载失败, 解决问题的办法就是手动下载。
2,LAPACK包include报错, 解决问题的办法就是在cmake之后马上修改对应include文件的路径 如果make失败后再修改则无效。
3,某些模块找不到, 通常是因为少了编译安装contrib模块。
2.2 Ubuntu安装Python-OpenCV
安装opencv
pip3 install opencv-python
进入python,导入cv2
import cv2
03 OpenCV模块简介
OpenCV提供了许多内置的用于图像处理和计算机视觉相关操作的基础数据结构,它们都包含在core模块中,并且这些数据结构都已经针对速度和内存做了优化,下面以4.0版本为例进行介绍,参考https://docs.opencv.org/master/d9/df8/tutorial_root.html。
Opencv目录下”modules目录”列出了OpenCV包含的各个模块,其中core、highgui、imgproc是最基础的模块。
core模块实现了最核心的数据结构及其基本运算,如绘图函数、数组操作相关函数,与OpenGL的互操作等。
highgui模块实现了视频与图像的读取、显示、存储等接口。
imgproc模块实现了图像处理的基础方法,包括图像滤波、图像的几何变换、平滑、阈值分割、形态学处理、边缘检测、目标检测、运动分析和对象跟踪等。
对于图像处理其他更高层次的方向及应用,OpenCV也有相关的模块实现
features2d模块用于提取图像特征以及特征匹配,nonfree模块实现了一些专利算法,如sift特征。
objdetect模块实现了一些目标检测的功能,经典的基于Haar、LBP特征的人脸检测,基于HOG的行人、汽车等目标检测,分类器使用Cascade Classification(级联分类)和Latent SVM等。
stitching模块实现了图像拼接功能。
FLANN模块(Fast Library for Approximate Nearest Neighbors),包含快速近似最近邻搜索FLANN
和聚类Clustering算法。
ml模块机器学习模块(SVM,决策树,Boosting等等)。
photo模块包含图像修复和图像去噪两部分。
video模块针对视频处理,如背景分离,前景检测、对象跟踪等。
calib3d模块即Calibration(校准)3D,这个模块主要是相机校准和三维重建相关的内容。包含了基本的多视角几何算法,单个立体摄像头标定,物体姿态估计,立体相似性算法,3D信息的重建等等。
G-API模块包含超高效的图像处理pipeline引擎。
另外,原来在opencv2中的shape, superres, videostab, viz等模块被移动到opencv_contrib中,关于opencv contrib,我们以后再详细介绍。
04 OpenCV基本数据结构
OpenCv提供了多种基本的数据类型,常用的OpenCV的基本数据结构有以下几种:
Mat类
Point类
Size类
Rect类
Scalar类
Vec类
Range类
下面我们重点说一下MAT类。
4.1 Mat类
要熟练使用OpenCV,最重要的就是学会Mat数据结构,在OpenCV中Mat被定义为一个类,把它看作一个数据结构,以矩阵的形式来存储数据的。
Mat有哪些常见的属性?
dims:表示矩阵M的维度,如2*3的矩阵为2维,3*4*5的矩阵为3维
data:uchar型的指针,指向内存中存放矩阵数据的一块内存
rows, cols:矩阵的行数、列数
type:表示了矩阵中元素的类型(depth)与矩阵的通道个数(channels);命名规则为CV_ + (位数)+(数据类型)+(通道数)
其中:U(unsigned integer)-- 无符号整数
S(signed integer)-- 有符号整数
F(float)-- 浮点数
例如CV_8UC3,可拆分为:CV_:type的前缀,
8U:8位无符号整数(depth),C3:3通道(channels)
depth:即图像每一个像素的位数(bits);这个值和type是相关的。例如CV_8UC3中depth则是CV_8U。
channels:通道数量,若图像为RGB、HSV等三通道图像,则channels = 3;若图像为灰度图,则为单通道,则channels = 1
elemSize:矩阵中每一个元素的数据大小
elemSize = channels * depth / 8
例如:type是CV_8UC3,elemSize = 3 * 8 / 8 = 3bytes
elemSize1:单通道的矩阵元素占用的数据大小
elemSize1 = depth / 8
例如:type是CV_8UC3,elemSize1 = 8 / 8 = 1bytes
4.2 其他数据类型
1.点Point类
包含两个整型数据成员x和y,即坐标点
2.尺寸Size类
数据成员是width和height,一般用来表示图像的大小,或者矩阵的大小
3.矩形Rect类
数据成员x,y,width,height,分别代表这个矩形左上角的坐标点和矩形的宽度和高度
4.颜色Scalar类
Scalar_(_Tp v0, _Tp v1, _Tp v2=0, _Tp v3=0)
这个默认构造函数的四个参数分别表示RGB+Alpha颜色中的:
v0---表示RGB中的B(蓝色)分量
v1---表示RGB中的G(绿色)分量
v2---表示RGB中的R(红色)分量
v3---表示Alpha是透明色分量
5.向量Vec类
一个“一维矩阵”
Vec
6.Range类
用于指定一个连续的子序列,例如一个轮廓的一部分,或者一个矩阵的列空间
05 基本IO操作
这里使用的是python接口
1.图像读写
cv2.imread(文件名,显示控制参数) # 读入图像
cv2.imshow(窗口名,图像名) #显示图像
cv2.imwrite(文件地址,文件名) #保存图像
cv2.namedWindow(窗口名) #创建窗口
cv2.destroyAllWindows() #销毁窗口
cv2.waitKey( [,delay]) #decay > 0 等待delay 毫秒
#decay < 0 等待键盘单击
#decay = 0 无限等待
2.图像缩放
dst = cv2.resize(src,dsize,fx,fy) #dsize表示缩放大小
#fx,fy缩放比例
3.图像翻转
dst = cv2.flip(src,flipCode)
#flipCode=0 以X轴为对称轴的翻转
#lipCode>0 以Y轴为对称轴的翻转
#flipCode<0 对X、Y轴同时翻转
4.通道拆分与合并
b,g,r = cv2.split(图像)
b = cv2.split(图像)[通道数] #拆分
bgr = cv2.merge([b,g,r]) #合并
06 相关学习资料
6.1 网络资料
OpenCV Docs官方文档
https://docs.opencv.org/
OpenCV 官方Github
https://github.com/opencv/opencv
OpenCV 中文教程
http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/tutorials/tutorials.html
6.2 中文书籍
Python计算机视觉编程
OpenCV 3计算机视觉:Python语言实现
OpenCV算法精解:基于Python与C++
最后,推荐一下大家的Opencv学习路线。
总结
本文简单介绍了OpenCV框架,它是计算机视觉领域必须要熟练掌握的工具,这一期我们没有说具体的算法和模块,以后会开设《OpenCV专题》讲述。
下期预告:下一期我们会说说Makefile和CMake的基础。
转载文章请后台联系
侵权必究
喜欢“白身境”系列,欢迎留言,支持有三继续写作下去
AI白身境系列完整阅读:
第一期:【AI白身境】深度学习从弃用windows开始
第二期:【AI白身境】Linux干活三板斧,shell、vim和git
第三期:【AI白身境】学AI必备的python基础
第四期:【AI白身境】深度学习必备图像基础
第五期:【AI白身境】搞计算机视觉必备的OpenCV入门基础
第六期:【AI白身境】只会用Python?g++,CMake和Makefile了解一下
第七期:【AI白身境】学深度学习你不得不知的爬虫基础
第八期: 【AI白身境】深度学习中的数据可视化
第九期:【AI白身境】入行AI需要什么数学基础:左手矩阵论,右手微积分
第十期:【AI白身境】一文览尽计算机视觉研究方向
第十一期:【AI白身境】AI+,都加在哪些应用领域了
第十二期:【AI白身境】究竟谁是paper之王,全球前10的计算机科学家
AI初识境系列完整阅读
第一期:【AI初识境】从3次人工智能潮起潮落说起
第二期:【AI初识境】从头理解神经网络-内行与外行的分水岭
第三期:【AI初识境】近20年深度学习在图像领域的重要进展节点
第四期:【AI初识境】激活函数:从人工设计到自动搜索
第五期:【AI初识境】什么是深度学习成功的开始?参数初始化
第六期:【AI初识境】深度学习模型中的Normalization,你懂了多少?
第七期:【AI初识境】为了围剿SGD大家这些年想过的那十几招
第八期:【AI初识境】被Hinton,DeepMind和斯坦福嫌弃的池化,到底是什么?
第九期:【AI初识境】如何增加深度学习模型的泛化能力
第十期:【AI初识境】深度学习模型评估,从图像分类到生成模型
第十一期:【AI初识境】深度学习中常用的损失函数有哪些?
第十二期:【AI初识境】给深度学习新手开始项目时的10条建议