チン昶

【OpenCV】使用官方YOLOv3模型进行目标检测

文章目录

前期准备
处理步骤
效果
代码

参考：
YOLO官网： https://pjreddie.com/darknet/yolo/
OpenCV官方文档： https://docs.opencv.org/3.4.5/da/d9d/tutorial_dnn_yolo.html
大佬博客： https://www.learnopencv.com/deep-learning-based-object-detection-using-yolov3-with-opencv-python-c/
大佬代码： https://github.com/spmallick/learnopencv/blob/master/ObjectDetection-YOLO/object_detection_yolo.cpp

前期准备

本人用的是VS2015+OpenCV3.4.5（版本太低的话无法支持yolo3）

YOLO3模型下载：
1.（yolov3.weights）权重文件：https://pjreddie.com/media/files/yolov3.weights
2.（yolov3.cfg）配置文件：https://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfg
3.（coco.names）对象名称文件：https://github.com/pjreddie/darknet/blob/master/data/coco.names
**提供我的百度云打包下载(*￣︶￣)：链接：https://pan.baidu.com/s/1S--B32JVWJEKVb7L97mtJA 提取码：1r04

把3个模型文件放到项目文件中，之后程序通过路径调用。
（本人是在项目文件中新建了一个yolo3的文件，因此在程序中调用时记得修改路径）

顺便把检测对象（图片或视频）也放到同一个路径里面。

处理步骤

（这部分主要是参考翻译自大佬的文章，如果只是想跑程序，不想了解过程，可以直接跳过这一节）

1.初始化参数
YOLOv3算法生成边界框作为预测的检测输出，每个预测框都与置信度得分相关。主要涉及以下几个参数：
（1）置信阈值参数（confThreshold）：首先，将忽略置信阈值参数下的所有框以进行进一步处理，置信得分在该阈值以下的识别对象会被去除掉；
（2）非最大抑制参数（nmsThreshold）：之后，剩下的框将进行非最大抑制，以删除多余的重叠边界框。该参数如果太低的话会检测不到有重叠的对象，参数太高可能会出现同一个对象有几个重复的框；
（3）宽度（inpWidth）和高度（inpHeight）：接下来，设置网络输入图像的输入宽度和高度的默认值。将它们中的每一个设置为416，这样就可以将我们的运行与Yolov3的作者给出的Darknet的C代码进行比较。（还可以将这两个选项都更改为320以获得更快的结果，或者更改为608以获得更准确的结果）

// Initialize the parameters
floatconfThreshold = 0.5;// Confidence threshold
floatnmsThreshold = 0.4;// Non-maximum suppression threshold
intinpWidth = 416;// Width of network's input image
intinpHeight = 416;// Height of network's input image

2.导入模型和类
之前我们准备的YOLO3模型3个文件在这里导入，包括：（coco.names）对象名称文件，（yolov3.weights）权重文件，（yolov3.cfg）配置文件。（记得修改路径）
这里将DNN后端设置为OpenCV，目标为CPU。这里可以尝试将首选目标设置为cv.dnn.dnn_target_opencl以在GPU上运行。但是，当前的opencv版本只能在英特尔的GPU上测试，如果没有英特尔的GPU，它会自动切换到CPU。

// Load names of classes
string classesFile = "coco.names";
ifstream ifs(classesFile.c_str());
string line;
while(getline(ifs, line)) classes.push_back(line);
// Give the configuration and weight files for the model
String modelConfiguration = "yolov3.cfg";
String modelWeights = "yolov3.weights";
// Load the network
Net net = readNetFromDarknet(modelConfiguration, modelWeights);
net.setPreferableBackend(DNN_BACKEND_OPENCV);
net.setPreferableTarget(DNN_TARGET_CPU);

3.读取输入
这一步就是OpenCV的常规操作，可以读取图片、视频或者是摄像头，另外就是还可以设置一个输出来保存我们检测的效果。

if (parser.has("image"))
{
    // Open the image file
    str = parser.get<String>("image");
    ifstream ifile(str);
    if (!ifile) throw("error");
    cap.open(str);
    str.replace(str.end()-4, str.end(), "_yolo_out.jpg");
    outputFile = str;
}
else if (parser.has("video"))
{
    // Open the video file
    str = parser.get<String>("video");
    ifstream ifile(str);
    if (!ifile) throw("error");
    cap.open(str);
    str.replace(str.end()-4, str.end(), "_yolo_out.avi");
    outputFile = str;
}
// Open the webcaom
else cap.open(parser.get<int>("device"));

4.处理每一帧图像

神经网络的输入图像需要采用一种称为blob的特定格式。

从输入图像或视频流中读取帧后，将通过blobFromImage函数将其转换为神经网络的输入blob。在此过程中，它使用比例因子1/255将图像像素值缩放到0到1的目标范围。它还将图像的大小调整为给定大小（416,416）而不进行裁剪。
(PS：我们不在此处执行任何均值减法，因此将[0,0,0]传递给函数的mean参数，并将swapRB参数保持为其默认值1。)
之后输出blob作为输入传递到网络，并运行正向传递以获得预测边界框列表作为网络输出。 这些框经过后处理步骤，滤除了低置信度分数。这里在图像左上角打印出每帧的推理时间，然后将检测图像输出。

// Process frames.
while (waitKey(1) < 0)
{
    // get frame from the video
    cap >> frame;
 
    // Stop the program if reached end of video
    if (frame.empty()) {
        cout << "Done processing !!!" << endl;
        cout << "Output file is stored as " << outputFile << endl;
        waitKey(3000);
        break;
    }
    // Create a 4D blob from a frame.
    blobFromImage(frame, blob, 1/255.0, cvSize(inpWidth, inpHeight), Scalar(0,0,0), true, false);
     
    //Sets the input to the network
    net.setInput(blob);
     
    // Runs the forward pass to get output of the output layers
    vector<Mat> outs;
    net.forward(outs, getOutputsNames(net));
     
    // Remove the bounding boxes with low confidence
    postprocess(frame, outs);
     
    // Put efficiency information. The function getPerfProfile returns the 
    // overall time for inference(t) and the timings for each of the layers(in layersTimes)
    vector<double> layersTimes;
    double freq = getTickFrequency() / 1000;
    double t = net.getPerfProfile(layersTimes) / freq;
    string label = format("Inference time for a frame : %.2f ms", t);
    putText(frame, label, Point(0, 15), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0, 0, 255));
     
    // Write the frame with the detection boxes
    Mat detectedFrame;
    frame.convertTo(detectedFrame, CV_8U);
    if (parser.has("image")) imwrite(outputFile, detectedFrame);
    else video.write(detectedFrame);
     
}

下面介绍一些代码中的调用函数。

4a.获得输出层名称

OpenCV的Net类中的 forward函数 需要知道结束层，它应该在网络中运行。由于我们想要遍历整个网络，因此需要确定网络的最后一层。我们通过使用函数 getUnconnectedOutLayers() 来实现这一点，该函数给出了未连接的输出层的名称，这些输出层基本上是网络的最后一层。然后我们运行网络的正向传递以从输出层获得输出，如前面的代码片段net.forward(outs, getOutputsNames(net))。

// Get the names of the output layers
vector<String> getOutputsNames(const Net& net)
{
    static vector<String> names;
    if (names.empty())
    {
        //Get the indices of the output layers, i.e. the layers with unconnected outputs
        vector<int> outLayers = net.getUnconnectedOutLayers();
         
        //get the names of all the layers in the network
        vector<String> layersNames = net.getLayerNames();
         
        // Get the names of the output layers in names
        names.resize(outLayers.size());
        for (size_t i = 0; i < outLayers.size(); ++i)
        names[i] = layersNames[outLayers[i] - 1];
    }
    return names;
}

4b.对网络输出进行后处理

网络输出边界框均由类的数量+5长度的向量表示。
前5个元素分别表示 中心x、 中心y、宽度、高度和边界框包围对象的 置信度。
其余的元素是与每个类（即对象类型）相关联的置信度，最后该框被分配给对应于最高置信度分数的类。
一个边界框中的最高分数也被称为 置信度 。如果该框的置信度小于给定阈值，则边界框将被删除，不考虑进一步处理。
置信度等于或大于置信阈值的方框将受到非最大抑制参数的影响，以减少重叠框的数量。

// Remove the bounding boxes with low confidence using non-maxima suppression
void postprocess(Mat& frame, const vector<Mat>& outs)
{
    vector<int> classIds;
    vector<float> confidences;
    vector<Rect> boxes;
     
    for (size_t i = 0; i < outs.size(); ++i)
    {
        // Scan through all the bounding boxes output from the network and keep only the
        // ones with high confidence scores. Assign the box's class label as the class
        // with the highest score for the box.
        float* data = (float*)outs[i].data;
        for (int j = 0; j < outs[i].rows; ++j, data += outs[i].cols)
        {
            Mat scores = outs[i].row(j).colRange(5, outs[i].cols);
            Point classIdPoint;
            double confidence;
            // Get the value and location of the maximum score
            minMaxLoc(scores, 0, &confidence, 0, &classIdPoint);
            if (confidence > confThreshold)
            {
                int centerX = (int)(data[0] * frame.cols);
                int centerY = (int)(data[1] * frame.rows);
                int width = (int)(data[2] * frame.cols);
                int height = (int)(data[3] * frame.rows);
                int left = centerX - width / 2;
                int top = centerY - height / 2;
                 
                classIds.push_back(classIdPoint.x);
                confidences.push_back((float)confidence);
                boxes.push_back(Rect(left, top, width, height));
            }
        }
    }
     
    // Perform non maximum suppression to eliminate redundant overlapping boxes with
    // lower confidences
    vector<int> indices;
    NMSBoxes(boxes, confidences, confThreshold, nmsThreshold, indices);
    for (size_t i = 0; i < indices.size(); ++i)
    {
        int idx = indices[i];
        Rect box = boxes[idx];
        drawPred(classIds[idx], confidences[idx], box.x, box.y,
                 box.x + box.width, box.y + box.height, frame);
    }
}

4c.绘制预测框

最后，我们在输入图像上绘制通过非最大抑制参数过滤后的框，并给出它们对应的类标签和置信度。

// Draw the predicted bounding box
void drawPred(int classId, float conf, int left, int top, int right, int bottom, Mat& frame)
{
    //Draw a rectangle displaying the bounding box
    rectangle(frame, Point(left, top), Point(right, bottom), Scalar(0, 0, 255));
     
    //Get the label for the class name and its confidence
    string label = format("%.2f", conf);
    if (!classes.empty())
    {
        CV_Assert(classId < (int)classes.size());
        label = classes[classId] + ":" + label;
    }
     
    //Display the label at the top of the bounding box
    int baseLine;
    Size labelSize = getTextSize(label, FONT_HERSHEY_SIMPLEX, 0.5, 1, &baseLine);
    top = max(top, labelSize.height);
    putText(frame, label, Point(left, top), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(255,255,255));
}

效果

街道图片：

桌面图片（左边那个鼠标识别错了）：
电视剧（视频）：

博主做了一个YOLO检测视频的效果，内容是《逃避可耻》片尾曲《恋》的MV，感兴趣的可以通过以下链接观看：
https://www.bilibili.com/video/av50257274
记得投个硬币(*￣︶￣)

YOLOv3官方模型可以识别80种物体，分别如下：（大家可以都试试）


person	bicycle	car	motorbike	aeroplane
bus	train	truck	boat	traffic light
fire hydrant	stop sign	parking meter	bench	bird
cat	dog	horse	sheep	cow
elephant	bear	zebra	giraffe	backpack
umbrella	handbag	tie	suitcase	frisbee
skis	snowboard	sports ball	kite	baseball bat
baseball glove	skateboard	surfboard	tennis racket	bottle
wine glass	cup	fork	knife	spoon
bowl	banana	apple	sandwich	orange
broccoli	carrot	hot dog	pizza	donut
cake	chair	sofa	pottedplant	bed
diningtable	toilet	tvmonitor	laptop	mouse
remote	keyboard	cell phone	microwave	oven
toaster	sink	refrigerator	book	clock
vase	scissors	teddy bear	hair drier	toothbrush

代码

#include 
#include 
#include 

#include 
#include 
#include 

using namespace cv;
using namespace dnn;
using namespace std;

//**************************** You should change ******************************//

//Dir of object (choose the input source, image or video)
const char* keys = "{image | yolo3/table.jpg | input image }"
"{video | yolo3/people.mp4 | input video }"
"{device | 0 | input video }";

//Dir of yolo3 model
string classesFile = "yolo3/coco.names";          //Names of classes
String modelConfiguration = "yolo3/yolov3.cfg";   //Configuration file
String modelWeights = "yolo3/yolov3.weights";     //Weight file

// Initialize the parameters
float confThreshold = 0.4; // Confidence threshold
float nmsThreshold = 0.3; // Non-maximum suppression threshold
int inpWidth = 416; // Width of network's input image
int inpHeight = 416; // Height of network's input image
vector<string> classes; // Name of classes
						
//*****************************************************************************//

// Remove the bounding boxes with low confidence using non-maxima suppression
void postprocess(Mat& frame, const vector<Mat>& out);

// Draw the predicted bounding box
void drawPred(int classId, float conf, int left, int top, int right, int bottom, Mat& frame);

// Get the names of the output layers
vector<String> getOutputsNames(const Net& net);

int main(int argc, char** argv)
{
	CommandLineParser parser(argc, argv, keys);
	parser.about("Use this script to run object detection using YOLO3 in OpenCV.");

	// Load names of classes
	ifstream ifs(classesFile.c_str());
	string line;
	while (getline(ifs, line)) classes.push_back(line);

	// Load the network
	Net net = readNetFromDarknet(modelConfiguration, modelWeights);
	net.setPreferableBackend(DNN_BACKEND_OPENCV);
	net.setPreferableTarget(DNN_TARGET_CPU);

	// Open a video file or an image file or a camera stream.
	string str, outputFile;
	VideoCapture cap;
	VideoWriter video;
	Mat frame, blob;

	try {
		outputFile = "yolo_out_cpp.avi";
		if (parser.has("image"))
		{
			// Open the image file
			str = parser.get<String>("image");
			ifstream ifile(str);
			if (!ifile) throw("error");
			cap.open(str);
			str.replace(str.end() - 4, str.end(), "_yolo_out_cpp.jpg");
			outputFile = str;
		}
		else if (parser.has("video"))
		{
			// Open the video file
			str = parser.get<String>("video");
			ifstream ifile(str);
			if (!ifile) throw("error");
			cap.open(str);
			str.replace(str.end() - 4, str.end(), "_yolo_out_cpp.avi");
			outputFile = str;
		}
		// Open the webcaom
		else cap.open(parser.get<int>("device"));

	}
	catch (...) {
		cout << "Could not open the input image/video stream" << endl;
		waitKey(0);
		return 0;
	}

	// Get the video writer initialized to save the output video
	if (!parser.has("image")) {
		video.open(outputFile, VideoWriter::fourcc('M', 'J', 'P', 'G'), 28, Size(cap.get(CAP_PROP_FRAME_WIDTH), cap.get(CAP_PROP_FRAME_HEIGHT)));
	}

	// Create a window
	static const string kWinName = "Deep learning object detection in OpenCV";
	namedWindow(kWinName, WINDOW_AUTOSIZE);
	
	// Process frames.
	while (waitKey(1) < 0)
	{
		// get frame from the video
		cap >> frame;

		// Stop the program if reached end of video
		if (frame.empty()) {
			cout << "Done processing !!!" << endl;
			cout << "Output file is stored as " << outputFile << endl;
			waitKey(3000);
			break;
		}
		// Create a 4D blob from a frame.
		blobFromImage(frame, blob, 1 / 255.0, cvSize(inpWidth, inpHeight), Scalar(0, 0, 0), true, false);

		//Sets the input to the network
		net.setInput(blob);

		// Runs the forward pass to get output of the output layers
		vector<Mat> outs;
		net.forward(outs, getOutputsNames(net));

		// Remove the bounding boxes with low confidence
		postprocess(frame, outs);

		// Put efficiency information. The function getPerfProfile returns the overall time for inference(t) and the timings for each of the layers(in layersTimes)
		vector<double> layersTimes;
		double freq = getTickFrequency() / 1000;
		double t = net.getPerfProfile(layersTimes) / freq;
		string label = format("Inference time for a frame : %.2f ms", t);
		putText(frame, label, Point(0, 15), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0, 0, 255));

		// Write the frame with the detection boxes
		Mat detectedFrame;
		frame.convertTo(detectedFrame, CV_8U);
		if (parser.has("image")) imwrite(outputFile, detectedFrame);
		else video.write(detectedFrame);

		imshow(kWinName, frame);

	}

	cap.release();
	if (!parser.has("image")) video.release();

	waitKey(0);
	return 0;
}

// Remove the bounding boxes with low confidence using non-maxima suppression
void postprocess(Mat& frame, const vector<Mat>& outs)
{
	vector<int> classIds;
	vector<float> confidences;
	vector<Rect> boxes;

	for (size_t i = 0; i < outs.size(); ++i)
	{
		// Scan through all the bounding boxes output from the network and keep only the
		// ones with high confidence scores. Assign the box's class label as the class
		// with the highest score for the box.
		float* data = (float*)outs[i].data;
		for (int j = 0; j < outs[i].rows; ++j, data += outs[i].cols)
		{
			Mat scores = outs[i].row(j).colRange(5, outs[i].cols);
			Point classIdPoint;
			double confidence;
			// Get the value and location of the maximum score
			minMaxLoc(scores, 0, &confidence, 0, &classIdPoint);
			if (confidence > confThreshold)
			{
				int centerX = (int)(data[0] * frame.cols);
				int centerY = (int)(data[1] * frame.rows);
				int width = (int)(data[2] * frame.cols);
				int height = (int)(data[3] * frame.rows);
				int left = centerX - width / 2;
				int top = centerY - height / 2;

				classIds.push_back(classIdPoint.x);
				confidences.push_back((float)confidence);
				boxes.push_back(Rect(left, top, width, height));
			}
		}
	}

	// Perform non maximum suppression to eliminate redundant overlapping boxes with
	// lower confidences
	vector<int> indices;
	NMSBoxes(boxes, confidences, confThreshold, nmsThreshold, indices);
	for (size_t i = 0; i < indices.size(); ++i)
	{
		int idx = indices[i];
		Rect box = boxes[idx];
		drawPred(classIds[idx], confidences[idx], box.x, box.y,
			box.x + box.width, box.y + box.height, frame);
	}
}

// Draw the predicted bounding box
void drawPred(int classId, float conf, int left, int top, int right, int bottom, Mat& frame)
{
	//Draw a rectangle displaying the bounding box
	rectangle(frame, Point(left, top), Point(right, bottom), Scalar(208, 244, 64), 3);

	//Get the label for the class name and its confidence
	string label = format("%.2f", conf);
	if (!classes.empty())
	{
		CV_Assert(classId < (int)classes.size());
		label = classes[classId] + ":" + label;
	}

	//Display the label at the top of the bounding box
	int baseLine;
	Size labelSize = getTextSize(label, FONT_HERSHEY_SIMPLEX, 0.5, 1, &baseLine);
	top = max(top, labelSize.height);
	rectangle(frame, Point(left, top - round(1.5*labelSize.height)), Point(left + round(1.5*labelSize.width), top + baseLine), Scalar(255, 255, 255), FILLED);
	putText(frame, label, Point(left, top), FONT_HERSHEY_SIMPLEX, 0.75, Scalar(0, 0, 0), 2);
}

// Get the names of the output layers
vector<String> getOutputsNames(const Net& net)
{
	static vector<String> names;
	if (names.empty())
	{
		//Get the indices of the output layers, i.e. the layers with unconnected outputs
		vector<int> outLayers = net.getUnconnectedOutLayers();

		//get the names of all the layers in the network
		vector<String> layersNames = net.getLayerNames();

		// Get the names of the output layers in names
		names.resize(outLayers.size());
		for (size_t i = 0; i < outLayers.size(); ++i)
			names[i] = layersNames[outLayers[i] - 1];
	}
	return names;
}

代码说明：

//**************************** You should change ******************************//

//Dir of object (choose the input source, image or video)
const char* keys = "{image | yolo3/table.jpg | input image }"
"{video | yolo3/people.mp4 | input video }"
"{device | 0 | input video }";

//Dir of yolo3 model
string classesFile = "yolo3/coco.names";          //Names of classes
String modelConfiguration = "yolo3/yolov3.cfg";   //Configuration file
String modelWeights = "yolo3/yolov3.weights";     //Weight file

// Initialize the parameters
float confThreshold = 0.4; // Confidence threshold
float nmsThreshold = 0.3; // Non-maximum suppression threshold
int inpWidth = 416; // Width of network's input image
int inpHeight = 416; // Height of network's input image
						
//*****************************************************************************//

代码开头的这部分需要修改，分为3部分：
（1）第一部分为图片或视频输入的路径，这里默认是图片输入，如果要视频输入的话，将图片路径改为“none”，例如：

const char* keys = "{image |  | input image }"
"{video | yolo3/people.mp4 | input video }"
"{device | 0 | input video }";

如果要改成摄像头输入的话，把图片和视频都改成“none”，例如：

const char* keys = "{image |  | input image }"
"{video |  | input video }"
"{device | 0 | input video }";

（2）第二部分为YOLO模型的三个文件输入路径，这个前面有说明。
（3）第三部分是参数设置，这部分在前面也有说明。

如果错误，欢迎指正！

opencv 自适应阈值虚假程序设计 opencv 人工智能计算机视觉
需要安装扩展库opencv-contrib-pythonCV_class.pyimportcv2importnumpyasnp#importserialimportos,sysfromdatetimeimportdatetimeimport_threadimportthreadingimporttimeimportwin32ui#只有windows能用.#fromCV_classimport*de
OpenCV开源机器视觉软件视觉人机器视觉杂说 opencv 开源人工智能
OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，广泛应用于实时图像处理、视频分析、物体检测、人脸识别等领域。它由英特尔实验室于1999年发起，现已成为计算机视觉领域最流行的工具之一，支持多种编程语言（如C++、Python、Java）和操作系统（Windows、Linux、macOS、Android、iOS）。核心功能图像处理基
【openCV-89】人脸检测华东算法王华东算法王-opencv opencv 人工智能计算机视觉
人脸检测简介人脸检测是计算机视觉中的一个重要任务，旨在从图像或视频中识别并定位出人脸的位置。人脸检测不仅是人脸识别、表情分析、面部特征点检测等高级任务的前置步骤，而且在安防监控、智能家居、自动驾驶等多个领域都具有广泛应用。人脸检测的目标人脸检测的目标是从输入的图像或视频流中自动检测出所有人脸的区域，通常用矩形框（boundingbox）表示人脸的位置。人脸检测不仅要识别图像中的人脸，还要在各种条件
YOLOv11改进 | 检测头改进篇 | 利用ASFF改进YOLOv11检测头，自适应空间特征融合模块，在所有的目标检测上均有大幅度的涨点效果 Ai缝合怪YOLO涨点改进 YOLO 目标检测计算机视觉深度学习 YOLOv11 YOLOv8 YOLOv10
YOLOv8v10v11专栏限时199元订阅链接:限时199元去b站关注：AI缝合怪订阅YOLOv8v10v11创新改进高效涨点+持续改进500多篇（订阅的小伙伴，终身免费享有后续YOLOv12或是其他版本的改进专栏）目录一、ASFF模块介绍ASFF网络结构图：ASFF的创新点主要包括：作用原理优势二、核心代码三、手把手教你添加v11Detect_ASFFHead检测头模块1.首先在ultraly
ASFF改进YOLOv8检测头：提升目标检测精度与效率的创新方法【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测目标跟踪 ASFF YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录ASFF改进YOLOv8检测头：提升目标检测精度与效率的创新方法【YOLOv8】1.背景介绍1.1Y
AWS Security Finding Format (ASFF) 与 yolov3 with mobilenet v2 的集成教程侯忱励
AWSSecurityFindingFormat(ASFF)与yolov3withmobilenetv2的集成教程ASFFyolov3withmobilenetv2andASFF项目地址:https://gitcode.com/gh_mirrors/as/ASFF1.项目介绍ASFF，全称是AWSSecurityFindingFormat，是由AWS设计的一种标准安全发现格式，用于在Securit
基于MPDIoU与InnerMPDIoU的YOLOv8细节捕捉能力优化探讨向哆哆 YOLO创新涨点系列 YOLO 目标跟踪人工智能 yolov8
文章目录一、损失函数在YOLO中的作用二、MPDIoU：Multi-partDistanceIntersectionoverUnionMPDIoU的基本概念MPDIoU公式MPDIoU代码实现解释三、InnerMPDIoU：InnerMulti-partDistanceIoUInnerMPDIoU的基本概念InnerMPDIoU公式InnerMPDIoU代码实现解释五、MPDIoU与InnerMP
yolo格式 ZHOU_WUYI ultralytics YOLO 人工智能
目录yolo格式yolo格式与coco格式的区别1.数据结构2.标注内容3.文件格式4.扩展性5.应用场景总结：yolo格式YOLO（YouOnlyLookOnce）格式通常用于目标检测任务中的标注数据格式。YOLO的标注格式包括每个目标的类别和其在图像中的位置（boundingbox）。YOLO格式的标注文件是一个文本文件，每一行表示一个目标，内容包括目标类别的编号和该目标在图像中的位置（相对于
【保姆级视频教程（二）】YOLOv12训练数据集构建：标签格式转换-划分-YAML 配置避坑指南 | 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO 目标检测人工智能 Ultralytics 数据集 YOLOv12 小白教程
【2025全站首发】YOLOv12训练数据集构建：标签格式转换-划分-YAML配置避坑指南|小白也能轻松玩转目标检测！文章目录1.数据集准备1.1标签格式转换1.2数据集划分1.3yaml配置文件创建2.训练验证1.数据集准备示例数据集下载链接：PKU-Market-PCB数据集1.1标签格式转换cursorprompt请撰写一个py脚本。将@Annotations文件夹下的所有类别的xml格式的
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-results.py 红色的山茶花 YOLO 笔记深度学习
results.pyultralytics\engine\results.py目录results.py1.所需的库和模块2.classBaseTensor(SimpleClass):3.classResults(SimpleClass):4.classBoxes(BaseTensor):5.classMasks(BaseTensor):6.classKeypoints(BaseTensor):7.
在 Centos7 上部署 ASP.NET 8.0 + YOLOv11 的踩坑实录 Rverdoser asp.net YOLO 后端
在CentOS7上部署ASP.NET8.0应用（实际上截至目前最新的稳定版本是ASP.NETCore6，ASP.NET8.0目前并不存在，可能是指ASP.NETCore8.0，但考虑到您的问题，我将假定您指的是ASP.NETCore6）并结合YOLOv11模型进行图像识别，确实会遇到一些技术挑战。下面我将分步骤介绍如何配置环境、安装必要的组件以及解决可能遇到的问题。步骤1:安装.NETCore首先
【CodeBlocks】搭建OpenCV环境指南万众珩
【CodeBlocks】搭建OpenCV环境指南CodeBlocks搭建OpenCV环境项目地址:https://gitcode.com/Resource-Bundle-Collection/e1e1a本资源提供了详细的教程，帮助您在CodeBlocks集成开发环境中顺利搭建OpenCV环境。OpenCV是一个开源的计算机视觉和机器学习软件库，广泛应用于图像处理和视频分析领域。通过这篇指南，即便是
VS C++通过路径遍历文件夹图片并生成xml文件并调用贫僧这就还俗、 c++xml
记录一下(每次用到的时候还得去找...)：网上c++生成xml的方法有很多，这里简单介绍以下opencv自带的FileStorage函数使用方法，1、生成xml文件：#include#includeusingnamespacecv;usingnamespacestd;voidimg_save_xml(Stringimg_path,Stringxml_name){FileStoragefile_st
计算机视觉：经典数据格式(VOC、YOLO、COCO)解析与转换(附代码) 全栈你个大西瓜人工智能计算机视觉 YOLO 目标跟踪人工智能数据标注目标检测 COCO
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
【openCV-66】内参矩阵和外参矩阵华东算法王华东算法王-opencv opencv 矩阵人工智能
外参矩阵与内参矩阵在计算机视觉、相机标定和三维重建等领域，内参矩阵和外参矩阵是描述相机如何将三维世界映射到二维图像的重要工具。它们分别描述了相机的内部特性和外部位置，是相机标定的核心组成部分。1.内参矩阵（IntrinsicMatrix）内参矩阵描述了相机内部的几何特性，主要涉及焦距、光心和像素的比例等参数。它通常是一个3x3的矩阵，用来将相机的归一化坐标系转换为像素坐标系。1.1内参矩阵的组成内
【目标检测JP】番茄植株叶片病害数据集4280张8类病害YOLO+VOC（含增强）不会仰游的河马君数据集目标检测 YOLO 番茄叶片病害
【目标检测JP】番茄植株叶片病害数据集4280张8类病害YOLO+VOC（含增强）数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4280Annotations文件夹中xml文件总计：4280labels文件夹中txt文件总计：4280标签种类数：8标签名称:["BacterialSpot","EarlyBli
基于 YOLO 进行车道线检测与目标检测算法研究及开发的一般步骤 pk_xz123456 python 算法深度学习 YOLO 目标检测算法
基于深度学习的车道线检测与目标检测在自动驾驶等领域有着重要应用，使用YOLO（YouOnlyLookOnce）进行开发是一种常见且高效的方式。以下是关于基于YOLO进行车道线检测与目标检测算法研究及开发的一般步骤和相关内容：1.环境搭建首先确保你的开发环境安装了必要的软件和库，推荐使用Python语言，以下是一些关键库：PyTorch：YOLO通常基于PyTorch实现，安装适合你系统的PyTor
YOLO11的单独推理程序 AIOT魔法师 YOLOv5和YOLOv11 python 开发语言
YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。importcv2importnumpyasnpimportra
YOLOv8、v9、v10、v11-Ultralytics框架加入C2f_Repghost AIOT魔法师 YOLOv5和YOLOv11 YOLO
1、创建一个RepGhost.py:importcopyimportnumpyasnpimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFdef_make_divisible(v,div
关于CMAKE中查找自定义路径OpenCV的问题 gxsHeeN opencv opencv cmake 多版本
关于CMAKE中查找自定义路径OpenCV的问题前段时间在机器上（ubuntu16.04）安装了ROS_kinetic，因此机器上散布着opencv2.4.9、opencv3.0.0以及ros引入的opencv3.2.0。删掉机器上的opencv2.4.9之后，发现使用cmake编译opencv程序时，总是找到3.2.0的opencv，而不能找到3.0.0(opencv3.0.0make时的CMA
手把手教你如何使用java开发人脸识别及人脸比对（附源码） java人脸识别后端深度学习
痛点目前，常用的人脸识别算法大多基于Python开发，因为Python对深度学习框架的支持较好，且许多优秀的人脸识别算法都是在深度学习框架下实现的。然而，对于Java开发者来说，这种情况并不十分友好。传统上，Java开发的人脸识别算法主要依赖OpenCV，但与基于深度学习的算法相比，OpenCV的精度相对较低。此外，若Java开发者希望使用Python实现的算法，还需要安装Python环境，并且熟
OpenCV计算摄影学（2）图像去噪函数denoise_TVL1() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述原始-对偶算法是用于解决特定类型变分问题（即，寻找一个函数以最小化某个泛函）的算法。特别地，图像去噪可以被视为一种变分问题，因此可以使用原始-对偶算法来进行去噪，这正是这里实现的内容。需要注意的是，此实现取自2013年7月的一篇博客文章[194]，该文章还包含了（
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-validator.py 红色的山茶花 YOLO 笔记深度学习
validator.pyultralytics\engine\validator.py目录validator.py1.所需的库和模块2.classBaseValidator:1.所需的库和模块#UltralyticsAGPL-3.0License-https://ultralytics.com/license#检查模型在数据集的测试或验证分割上的准确性。#用法-格式：#$yolomode=valm
Opencv之图像SIFT 特征检测与Harris角点检测是十一月末 opencv opencv 计算机视觉人工智能 python 特征检测
图像SIFT特征检测与Harris角点检测目录图像SIFT特征检测与Harris角点检测1SIFT特征检测1.1概念1.2主要步骤1.3优缺点1.4函数及参数2Harris角点检测2.1概念2.2**算法思想**2.3特点2.4函数及参数3角点、特征检测3.1焦点、特征检测代码及结果1SIFT特征检测1.1概念SIFT（尺度不变特征变换）是一种用于图像处理中检测和描述图像中局部结构的算法。它是由D
Yolov8分割训练自己的数据集记录小俊俊的博客 yolov8 分割训练自己的数据集
Yolov8分割训练自己的数据集记录第一章、标签制作一、安装labelmelabelme安装很简单，直接在终端输入：pipinstalllabelme启用labelme在终端输入：labelme接下来就是标注数据了。实例分割数据标注选择“创建多边形”标注就行。二、json转txt使用labelme标注的label数据格式为json格式，但是yolov8分割使用的依旧是txt格式。需要进行转换。转换
YOLOv8实例分割训练自己的数据集 NoContours YOLO python 开发语言
转载https://blog.csdn.net/m0_51530640/article/details/1299752571.利用labelme进行数据标注1.1Labelme安装方法首先安装Anaconda，然后运行下列命令：####################forPython2####################condacreate--name=labelmepython=2.7s
总结yolov8做检测训练时所需要的代码小胡学长 YOLO 人工智能深度学习 yolov8 python 1024程序员节
运行模型训练脚本代码:大家可以先在ultralytics/ultralytics文件夹下新建一个mytrain.py，然后直接复制下面的代码，所有训练有关的超参数都可以在这个文件中调节，不懂超参数可以忽略，这里我说一下比较重要的几个参数:importsys#强制扫描导入使用本地ultralytics这个包sys.path.append("E:/ultralytics")#改为文件所在的目录地址fr
使用 yolov8 进行对象检测算法资料吧！ YOLO
在计算机视觉领域，YOLOv8对象检测确实以其超高的准确性和速度而脱颖而出。它是YOLO系列的最新版本，以能够实时检测物体而闻名。YOLOv8凭借其一流的对象检测将Web应用程序、API和图像分析提升到一个新的水平。在本文中，我们将了解如何利用yolov8进行对象检测。YOLO概述YOLO（YouOnlyLookOnce）是一种改变游戏规则的对象检测算法，于2015年问世，以其一次闪电般快速处理整
kitti数据集【图片、点云、IMU、GPS】话题发布（kitti2bag方式+python源码方式） liiiuzy ROS学习 python
kitti数据集传感器话题发布一、前期准备工作kitti数据集转bag安装vscode新建工作环境安装opencv-python二、发布图片三、发布点云数据四、整理前两次的代码五、添加汽车图片和摄像头视角常规写法优化写法六、发布IMU七、发布GPS一、前期准备工作kitti数据集转bag如果只是想把kitti数据集转成bag，直接用kiiti2bag指令就可以完成，教程在下面链接中。后文是详细的代
基于深度学习的行人跌倒检测系统：UI 界面 + YOLOv5 + 数据集详解深度学习&目标检测实战项目深度学习 ui YOLO 目标检测人工智能
引言随着人口老龄化的加剧，老年人的安全问题日益引起重视，跌倒事故是导致老年人伤亡的重要原因之一。为了降低跌倒事故的发生率和伤害程度，行人跌倒检测系统的研究变得愈加重要。本文将详细介绍如何基于YOLOv5构建一个行人跌倒检测系统，并设计相应的用户界面，结合深度学习技术实现实时检测。目录引言系统设计概述数据集准备数据集选择数据预处理data.yaml文件模型选择与训练YOLOv5介绍模型训练步骤用户界
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

【OpenCV】使用官方YOLOv3模型进行目标检测

文章目录

前期准备

处理步骤

效果

代码

你可能感兴趣的:(OpenCV,YOLO)