目录
编辑
一,单目应用前景
二,打开摄像头
三,设置分辨率
四,摄像头拍照
五,录制视频
六,单目结合OpenCV的实际应用
单目视觉(monocular vision)在深度学习的应用非常广泛,它是计算机视觉和机器学习领域的热门研究方向之一。以下是一些单目视觉在深度学习中的主要应用:
深度估计:单目深度估计是使用单个摄像头来推断场景中物体的深度信息。深度学习模型,如卷积神经网络(CNN)和递归神经网络(RNN),已经在这一领域取得了显著的进展。这些模型可以根据输入图像来预测每个像素的深度值,从而实现立体视觉的效果。
SLAM(Simultaneous Localization and Mapping):单目SLAM是指使用单个摄像头来同时定位相机的位置并构建场景的地图。深度学习可以用于改进SLAM中的视觉特征提取、运动估计和地图构建等关键步骤。
目标检测和跟踪:单目摄像头可用于检测和跟踪场景中的对象。深度学习模型,如YOLO(You Only Look Once)和Faster R-CNN,已广泛用于目标检测和跟踪任务。这对自动驾驶、智能监控和无人机等领域尤其重要。
语义分割:单目图像语义分割是指将图像中的每个像素标记为属于特定类别的一种任务。深度学习模型可以实现高精度的图像分割,用于识别道路、行人、车辆等。
人体姿态估计:单目摄像头可以用于估计场景中人体的姿态,包括关节位置和骨骼结构。深度学习模型在姿态估计中取得了很大的进展,可用于体育分析、虚拟现实和人机交互。
图像生成和超分辨率:深度学习模型,如生成对抗网络(GAN)和卷积神经网络(CNN),可以用于图像生成和超分辨率。这些技术可用于图像修复、风格转换和增强图像质量。
自动驾驶:单目视觉在自动驾驶领域中起着关键作用,它用于检测道路、车辆、行人和障碍物,并用于自动驾驶决策和路径规划。
虚拟现实:单目视觉用于虚拟现实应用,例如头显设备中的头部追踪、手部追踪和环境重建。
OpenCV有VideoCapture()函数,能用来定义“摄像头”对象,0表示第一个摄像头(一般是电脑内置的摄像头);如果有两个摄像头,第二个摄像头则对应VideoCapture(1)。
在while循环中使用“摄像头对象”的read()函数一帧一帧地读取摄像头画面数据。
imshow函数是显示摄像头的某帧画面;cv2.waitKey(1)是等待1ms,如果期间检测到了键盘输入q,则退出while循环。
# -*- coding: utf-8 -*-
import cv2
cap = cv2.VideoCapture(0) # 0表示第一个摄像头
while(1):
# get a frame
ret, frame = cap.read()
# show a frame
cv2.imshow("capture", frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
cap.release()
cv2.destroyAllWindows()
有时需要指定摄像头的分辨率,比如1920*1080;
cap.set(3,1920) 设置帧的宽度为1920。cap.set(4,1080) 设置帧的长度为1080。
# -*- coding: utf-8 -*-
import cv2
cap = cv2.VideoCapture(0)
#先设置分辨率,宽:1920 长:1080
cap.set(3,1920)
cap.set(4,1080)
while(1):
# get a frame
ret, frame = cap.read()
# show a frame
cv2.imshow("capture", frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
cap.release()
cv2.destroyAllWindows()
加入判断是否读到视频
# -*- coding: utf-8 -*-
import cv2
cap = cv2.VideoCapture(0)
#先设置分辨率,宽:1920 长:1080
cap.set(3,1920)
cap.set(4,1080)
while(1):
# get a frame
ret, frame = cap.read()
if ret:
# show a frame
cv2.imshow("capture", frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
else:
print("图像数据获取失败!!")
break
cap.release()
cv2.destroyAllWindows()
拍照 = 保存图片,使用 cv2.imwrite 把当前摄像头的帧 数据写进去,保存为图片的形式;如果s键按下,则进行图片保存;
cap.set(3,1920)
cap.set(4,1080
3
表示视频帧的宽度,即设置图像的宽度。4
表示视频帧的高度,即设置图像的高度。# -*- coding: utf-8 -*-
import cv2
cap = cv2.VideoCapture(0)
#先设置分辨率,宽:1920 长:1080
cap.set(3,1920)
cap.set(4,1080)
# 图像计数 从1开始
img_count = 1
while(1):
# get a frame
ret, frame = cap.read()
if ret:
# show a frame
cv2.imshow("capture", frame)
# 等待按键事件发生 等待1ms
key = cv2.waitKey(1)
if key == ord('q'):
# 如果按键为q 代表quit 退出程序
print("程序正常退出..")
break
elif key == ord('s'):
## 如果s键按下,则进行图片保存
# 写入图片 并命名图片为 图片序号.png
cv2.imwrite("{}.png".format(img_count), frame)
print("保存图片,名字为 {}.png".format(img_count))
# 图片编号计数自增1
img_count += 1
else:
print("图像数据获取失败!!")
break
cap.release()
cv2.destroyAllWindows()
保存图片使用的是cv2.imwrite(),要保存视频,需要创建一个VideoWriter对象,需要传入四个参数。
# -*- coding: utf-8 -*-
import cv2
cap = cv2.VideoCapture(0)
# 定义编码方式并创建VideoWriter对象
fourcc = cv2.VideoWriter_fourcc(*'MJPG')
outfile = cv2.VideoWriter('output.avi', fourcc, 25., (640, 480))
while(cap.isOpened()):
ret, frame = cap.read()
if ret:
outfile.write(frame) # 写入文件
cv2.imshow('frame', frame)
if cv2.waitKey(1) == ord('q'):
break
else:
break
fourcc = cv2.VideoWriter_fourcc(*'MJPG')
定义视频编码方式,这里使用MJPG编码器。VideoWriter_fourcc
函数用于指定视频编码器,这是为了确保视频能够正确保存到文件中。
outfile = cv2.VideoWriter('output.avi', fourcc, 25., (640, 480))
创建一个名为'output.avi'的视频文件写入对象,指定编码方式(MJPG),帧速率为25帧每秒,以及每帧的分辨率为(640, 480)像素。
使用
cv2.waitKey(1)
等待键盘输入。如果用户按下 'q' 键,就会退出循环。
图像捕获和显示:使用单目摄像头捕获实时图像,然后使用OpenCV显示图像。这是最基本的用途,可用于监视、实时图像展示和调试。
图像处理和滤波:OpenCV提供了各种图像处理和滤波技术,例如模糊、边缘检测、颜色空间转换等。这些技术可用于图像增强、噪声去除和特征提取。
目标检测和跟踪:OpenCV包括用于目标检测和跟踪的功能,可以用于监控、自动驾驶、安防和机器人导航。
人脸检测和识别:OpenCV提供了人脸检测和识别的功能,用于各种应用,包括人脸解锁、人脸识别门禁系统和表情分析。
文档扫描和OCR:可以使用单目摄像头拍摄文档,然后使用OpenCV进行文档扫描和光学字符识别(OCR),以将文本从图像中提取出来。
虚拟现实和增强现实:单目摄像头用于虚拟现实和增强现实应用,包括头部追踪、手部追踪、物体识别和环境重建。
深度学习:OpenCV集成了深度学习库,可用于图像分类、对象识别、图像分割和深度估计等任务。单目摄像头结合深度学习可用于各种视觉任务。
机器视觉:单目摄像头结合OpenCV用于机器视觉任务,如零件检测、装配线检测、质量控制和工业自动化。
自动驾驶:单目摄像头用于自动驾驶系统,包括车道保持、交通标志检测和障碍物检测。
医疗影像分析:单目摄像头用于医学影像分析,包括X射线图像、MRI图像和皮肤病变检测。
环境监测:单目摄像头结合OpenCV用于监测环境条件,如天气、空气质量和自然灾害。