本文主要介绍如何通过opencv调用已经训练好的darknet模型进行目标检测
需要下载以下文件
已经训练好的模型权重文件 **.weights
模型配置文件 yolov3.cfg
类别标签文件 ***.names
设置置信度阈值和nms阈值
net = cv2.dnn.readNetFromDarknet(configPath,weightsPath)
net.setPreferableBackend(cv2.dnn.DNN_BACKEND_OPENCV)
net.setPreferableTarget(cv2.dnn.DNN_TARGET_CPU)
image = cv2.imread('****.jpg')
(H,W) = image.shape[0:2]
神经网络的输入图像需要采用称为blob的特定格式。
blob = cv2.dnn.blobFromImage(image, 1 / 255.0, (416, 416),swapRB=True, crop=False)
用需要检测的原始图像image构造一个blob图像,对原图像进行像素归一化1 / 255.0,缩放尺寸 (416, 416),交换了R与B通道
OpenCV的Net类中的forward函数需要输出层,它应该在网络中运行。由于我们想要遍历整个网络,我们需要确定网络的最后一层。通过函数getUnconnectedOutLayers()
来实现这一点,该函数给出了未连接的输出层的名称,这些输出层基本上是网络的最后一层。然后我们进行网络的正向传递以从输出层获得输出。
ln = net.getLayerNames() #获取所有层名称
out = net.getUnconnectedOutLayers() #得到未连接层得序号
x = []
for i in out: # i=[200]
x.append(ln[i[0]-1]) # i[0]-1 取out中的数字 [200][0]=200 ln(199)= 'yolo_82'
ln=x
net.setInput(blob) #将blob设为输入
layerOutputs = net.forward(ln) #ln此时为输出层名称 ,向前传播 得到检测结果
网络 bounding boxes 每个输出都由一组 类数目+5 个元素的向量表示。前4个元素代表center_x,center_y,width和height,第五个元素表示边界框包围对象的置信度,其余元素是与每个类相关的置信度。
如果框的置信度小于给定阈值,则删除该边界框并且不考虑进行进一步处理。对置信度等于或大于阈值的框进行非极大值抑制。
#接下来就是对检测结果进行处理
for output in layerOutputs: #对三个输出层 循环
for detection in output: #对每个输出层中的每个检测框循环
scores=detection[5:] #detection=[x,y,h,w,c,class1,class2]
classID = np.argmax(scores)#np.argmax反馈最大值的索引
confidence = scores[classID]
if confidence >0.5:#过滤掉那些置信度较小的检测结果
box = detection[0:4] * np.array([W, H, W, H])
(centerX, centerY, width, height)= box.astype("int")
# 边框的左上角
x = int(centerX - (width / 2))
y = int(centerY - (height / 2))
# 更新检测出来的框
boxes.append([x, y, int(width), int(height)])
confidences.append(float(confidence))
classIDs.append(classID)
画框
a=0
for box in boxes:#将每个框画出来
a=a+1
(x,y)=(box[0],box[1])#框左上角
(w,h)=(box[2],box[3])#框宽高
if classIDs[a-1]==0: #根据类别设定框的颜色
color = [0,0,255]
else:
color = [0, 255, 0]
cv2.rectangle(image, (x, y), (x + w, y + h), color, 2) #画框
t, _ = net.getPerfProfile() #返回推理时间
label = 'Inference time: %.2f ms' % (t * 1000.0 / cv.getTickFrequency())
cv.putText(frame, label, (0, 15), cv.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255))
text = "{}: {:.4f}".format(LABELS[classIDs[a-1]], confidences[a-1])
cv2.putText(image, text, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.3, color, 1)#写字
import numpy as np
import cv2
import os
import argparse
import pathlib
confThreshold = 0.5 #Confidence threshold
nmsThreshold = 0.4 #Non-maximum suppression threshold
inpWidth = 416 #Width of network's input image
inpHeight = 416 #Height of network's input image
parser = argparse.ArgumentParser()
parser.add_argument('--names',type=str)
parser.add_argument('--cfg', type=str)
parser.add_argument('--weights', type=str)
parser.add_argument('--image', type=str)
parser.add_argument('--output', default='./output/',type=str)
args =parser.parse_args()
weightsPath= args.weights # 模型权重文件
configPath= args.cfg # 模型配置文件
labelsPath = args.names # 模型类别标签文件
#初始化一些参数
LABELS = open(labelsPath).read().strip().split("\n")
boxes = []
confidences = []
classIDs = []
#加载 网络配置与训练的权重文件 构建网络
net = cv2.dnn.readNetFromDarknet(configPath,weightsPath)
net.setPreferableBackend(cv2.dnn.DNN_BACKEND_OPENCV)
net.setPreferableTarget(cv2.dnn.DNN_TARGET_CPU)
ln = net.getLayerNames()
out = net.getUnconnectedOutLayers()#得到未连接层得序号 [[200] /n [267] /n [400] ]
x = []
for i in out: # 1=[200]
x.append(ln[i[0]-1]) # i[0]-1 取out中的数字 [200][0]=200 ln(199)= 'yolo_82'
ln=x
#从输入图像构造一个blob,然后通过加载的模型,给我们提供边界框和相关概率
#blobFromImage(image, scalefactor=None, size=None, mean=None, swapRB=None, crop=None, ddepth=None)
image_list = [str(i) for i in pathlib.Path(args.image).rglob("*.jpg")]
for img in image_list:
image=cv2.imread(img)
(H,W) = image.shape[0:2]
blob = cv2.dnn.blobFromImage(image, 1 / 255.0, (inpWidth, inpHeight), swapRB=True, crop=False)#构造了一个blob图像,对原图像进行了图像的归一化,缩放了尺寸 ,对应训练模型
net.setInput(blob) #将blob设为输入
layerOutputs = net.forward(ln) #ln此时为输出层名称 ,向前传播 得到检测结果
for output in layerOutputs: #对三个输出层 循环
for detection in output: #对每个输出层中的每个检测框循环
scores=detection[5:] #detection=[x,y,h,w,c,class1,class2] scores取第6位至最后
classID = np.argmax(scores)#np.argmax反馈最大值的索引
confidence = scores[classID]
if confidence >0.5:#过滤掉那些置信度较小的检测结果
box = detection[0:4] * np.array([W, H, W, H])
#print(box)
(centerX, centerY, width, height)= box.astype("int")
# 边框的左上角
x = int(centerX - (width / 2))
y = int(centerY - (height / 2))
# 更新检测出来的框
boxes.append([x, y, int(width), int(height)])
confidences.append(float(confidence))
classIDs.append(classID)
idxs=cv2.dnn.NMSBoxes(boxes, confidences,confThreshold, nmsThreshold)
for i in idxs:
i = i[0]
box = boxes[i]
x = box[0]
y = box[1]
w = box[2]
h = box[3]
if classIDs[i]==0: #根据类别设定框的颜色
color = [0,0,255]
else:
color = [0,255,0]
cv2.rectangle(image, (x, y), (x + w, y + h), color, 2) # 画框
text = "{}: {:.4f}".format(LABELS[classIDs[i]], confidences[i])
cv2.putText(image, text, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.75, color, 1) # 写字
t, _ = net.getPerfProfile()
infer_time = 'Inference time: %.2f ms' % (t * 1000.0 / cv2.getTickFrequency())
#print(infer_time)
cv2.putText(image, infer_time, (0, 15), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255))
cv2.imwrite(os.path.join(args.output, os.path.basename(img)), image)
boxes = []
confidences = []
classIDs = []