OpenCV(Open Source Computer Vision Library) 是计算机视觉领域最广泛使用的开源库,由 Intel 于 1999 年发起,现由社区持续维护。其核心目标是为开发者提供高效的图像和视频处理工具,涵盖从基础滤波到深度学习模型部署的全栈功能。
GitHub 地址:https://github.com/opencv/opencv
官方文档:https://docs.opencv.org
dnn
模块)。DNN
模块)。# 安装 OpenCV-Python
pip install opencv-python # 基础模块
pip install opencv-contrib-python # 扩展模块(含 SIFT、SURF 等专利算法)
sudo apt install build-essential cmake git libgtk2.0-dev pkg-config
git clone https://github.com/opencv/opencv.git
cd opencv && mkdir build && cd build
cmake -D CMAKE_BUILD_TYPE=Release -D CMAKE_INSTALL_PREFIX=/usr/local ..
make -j8 && sudo make install
import cv2
# 加载预训练模型
face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
# 读取图像并检测
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
faces = face_cascade.detectMultiScale(gray, scaleFactor=1.1, minNeighbors=5)
# 绘制矩形框
for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)
cv2.imshow('Result', img)
cv2.waitKey(0)
scaleFactor
:图像缩放比例(用于多尺度检测)。minNeighbors
:候选框需满足的邻近区域数(过滤误检)。从 Ultralytics 官方下载 YOLOv5s 模型(yolov5s.onnx
)。
import cv2
import numpy as np
# 加载模型和类别标签
net = cv2.dnn.readNet('yolov5s.onnx')
classes = []
with open('coco.names', 'r') as f:
classes = f.read().splitlines()
# 预处理图像
img = cv2.imread('input.jpg')
blob = cv2.dnn.blobFromImage(img, 1/255.0, (640, 640), swapRB=True, crop=False)
# 推理与后处理
net.setInput(blob)
outputs = net.forward(net.getUnconnectedOutLayersNames())
# 解析输出(YOLOv5 格式)
for detection in outputs[0][0]:
scores = detection[5:]
class_id = np.argmax(scores)
confidence = scores[class_id]
if confidence > 0.5:
# 计算边界框坐标
x, y, w, h = detection[0:4] * np.array([img.shape[1], img.shape[0], img.shape[1], img.shape[0]])
cv2.rectangle(img, (int(x-w/2), int(y-h/2), (int(x+w/2), int(y+h/2)), (0, 255, 0), 2)
cv2.putText(img, classes[class_id], (int(x), int(y-10)), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 255, 0), 2)
cv2.imshow('YOLOv5 Detection', img)
cv2.waitKey(0)
应用场景:文档扫描、工业检测、自动驾驶中的车道线识别。
import cv2
# 读取图像并转为灰度图
img = cv2.imread('road.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 高斯模糊降噪
blurred = cv2.GaussianBlur(gray, (5, 5), 0)
# Canny 边缘检测
edges = cv2.Canny(blurred, threshold1=50, threshold2=150)
cv2.imshow('Edges', edges)
cv2.waitKey(0)
threshold1
:低阈值,低于此值的边缘被丢弃。threshold2
:高阈值,高于此值的边缘被保留。threshold1
或增加高斯模糊核大小(如 (7,7)
)。sigma
值(如 GaussianBlur(..., sigmaX=2)
)。应用场景:安防监控、交通流量统计、运动分析。
import cv2
# 初始化背景减除器
bg_subtractor = cv2.createBackgroundSubtractorMOG2(history=500, varThreshold=16)
# 打开摄像头
cap = cv2.VideoCapture(0)
while True:
ret, frame = cap.read()
if not ret:
break
# 应用背景减除
fg_mask = bg_subtractor.apply(frame)
# 显示结果
cv2.imshow('Foreground Mask', fg_mask)
if cv2.waitKey(30) == 27: # 按 ESC 退出
break
cap.release()
cv2.destroyAllWindows()
history
:用于建模背景的帧数(值越大,背景更新越慢)。varThreshold
:像素方差阈值,区分前景与背景。bg_subtractor.apply(frame, learningRate=0)
暂停背景更新。cv2.createBackgroundSubtractorKNN
替代,对光照变化更鲁棒。应用场景:无人机航拍拼接、虚拟旅游、地质勘探。
import cv2
import numpy as np
# 读取多张图像
img1 = cv2.imread('scene1.jpg')
img2 = cv2.imread('scene2.jpg')
# 初始化 SIFT 检测器
sift = cv2.SIFT_create()
# 检测关键点与描述符
kp1, des1 = sift.detectAndCompute(img1, None)
kp2, des2 = sift.detectAndCompute(img2, None)
# FLANN 匹配器
flann = cv2.FlannBasedMatcher(dict(algorithm=1, trees=5), dict(checks=50))
matches = flann.knnMatch(des1, des2, k=2)
# 筛选优质匹配
good = []
for m, n in matches:
if m.distance < 0.7 * n.distance:
good.append(m)
# 计算单应性矩阵
src_pts = np.float32([kp1[m.queryIdx].pt for m in good]).reshape(-1, 1, 2)
dst_pts = np.float32([kp2[m.trainIdx].pt for m in good]).reshape(-1, 1, 2)
H, _ = cv2.findHomography(src_pts, dst_pts, cv2.RANSAC, 5.0)
# 图像拼接
result = cv2.warpPerspective(img1, H, (img1.shape[1] + img2.shape[1], img1.shape[0]))
result[0:img2.shape[0], 0:img2.shape[1]] = img2
cv2.imshow('Panorama', result)
cv2.waitKey(0)
knnMatch(des1, des2, k=2)
:保留每个描述符的最佳 2 个匹配。RANSAC
:鲁棒性阈值,剔除异常匹配点。good
匹配数量或调整 cv2.findHomography
的 ransacReprojThreshold
。应用场景:物流管理、移动支付、AR 导航。
import cv2
# 初始化二维码检测器
detector = cv2.QRCodeDetector()
# 读取图像
img = cv2.imread('qrcode.png')
# 检测与解码
data, bbox, _ = detector.detectAndDecode(img)
if bbox is not None:
# 绘制二维码边界
n = len(bbox)
for i in range(n):
cv2.line(img, tuple(map(int, bbox[i][0])), tuple(map(int, bbox[(i+1)%n][0])), (0, 255, 0), 2)
print("解码内容:", data)
cv2.imshow('QR Code', img)
cv2.waitKey(0)
detectAndDecode
:返回解码数据、边界框坐标和校正后的二维码图像。detector.detectMulti
检测多个二维码。cv2.perspectiveTransform
对图像进行透视校正。应用场景:机器人抓取、交互式游戏、工业分拣。
import cv2
import numpy as np
# 定义目标颜色范围(示例:跟踪红色物体)
lower_red = np.array([0, 100, 100])
upper_red = np.array([10, 255, 255])
lower_red2 = np.array([160, 100, 100]) # 红色在 HSV 中分两段
upper_red2 = np.array([180, 255, 255])
cap = cv2.VideoCapture(0)
while True:
ret, frame = cap.read()
if not ret:
break
# 转换到 HSV 空间
hsv = cv2.cvtColor(frame, cv2.COLOR_BGR2HSV)
# 创建掩膜
mask1 = cv2.inRange(hsv, lower_red, upper_red)
mask2 = cv2.inRange(hsv, lower_red2, upper_red2)
mask = cv2.bitwise_or(mask1, mask2)
# 形态学操作去噪
kernel = np.ones((5,5), np.uint8)
mask = cv2.erode(mask, kernel, iterations=1)
mask = cv2.dilate(mask, kernel, iterations=2)
# 寻找轮廓
contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
# 绘制最大轮廓
if contours:
max_contour = max(contours, key=cv2.contourArea)
x, y, w, h = cv2.boundingRect(max_contour)
cv2.rectangle(frame, (x, y), (x+w, y+h), (0, 255, 0), 2)
cv2.imshow('Tracking', frame)
if cv2.waitKey(30) == 27:
break
cap.release()
cv2.destroyAllWindows()
inRange
:根据 HSV 范围生成二值掩膜。erode/dilate
:腐蚀与膨胀操作,去除噪声并填充孔洞。cv2.calibrateCamera
校准颜色阈值,或在自然光下重新定义范围。cv2.error: OpenCV(4.7.0) :-1: error: (-5:Bad argument)
原因:函数参数类型或范围错误。
解决:检查输入图像是否为 uint8
类型,尺寸是否符合要求。
原因:文件路径错误或未安装 opencv-contrib-python
。
解决:使用绝对路径或通过 cv2.data.haarcascades
获取内置路径。
原因:未启用 GPU 加速。
解决:
net.setPreferableBackend(cv2.dnn.DNN_BACKEND_CUDA)
net.setPreferableTarget(cv2.dnn.DNN_TARGET_CUDA)
Haar 级联检测器
SIFT 特征提取
YOLO 系列模型
OpenCV 作为计算机视觉领域的“瑞士军刀”,持续推动从学术研究到工业应用的创新。其优势在于:
未来方向:
通过掌握 OpenCV,开发者能够高效解决图像处理、AR/VR、自动驾驶等场景中的实际问题,成为计算机视觉领域的核心能力之一。