风间琉璃•

OpenCV之YOLOv5目标检测

个人主页:风间琉璃

版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主

如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦

前言

一、YOLOv5简介

二、预处理

1.获取分类名

2.获取输出层名称

3.图像尺度变换

三、模型加载

四、推理和后处理

五、源码

前言

YOLOv5（You Only Look Once version 5）是计算机视觉领域中一种用于目标检测的深度学习模型，它是YOLO（You Only Look Once）系列的最新版本。YOLOv5的目标是实现高效而准确的实时目标检测，其名称"You Only Look Once"意味着它只需一次前向传播（forward pass）即可检测图像中的所有对象，而不需要采用复杂的多步骤流程。

一、YOLOv5简介

yolov5官方给出的目标检测网络中一共有4个版本，分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。

其网络结构如下：

其基本组成由分为输入端、Backbone、Neck、Prediction四个部分组成。

（1）输入端：Mosaic数据增强、自适应锚框计算
（2）Backbone：Focus结构，CSP结构
（3）Neck：FPN+PAN结构
（4）Prediction：GIOU_Loss

yolov5详情参考:深入浅出Yolo系列之Yolov5核心基础知识完整讲解_江大白*的博客-CSDN博客

C++：mirrors / doleron / yolov5-opencv-cpp-python · GitCode

【模型部署】使用opencv C++ 加速YOLO V5_卖报的大地主的博客-CSDN博客

二、预处理

1.获取分类名

数据集采用的coco数据集，需要将coco.names包含训练模型的所有类名称加载到内存中。

string class_path = "F:/data/CQU/VS/yolov5_onnx/coco.names";

//获取分类名
vector getClassNames(string class_path)
{
	ifstream ifs(class_path);
	if (!ifs.is_open())
	{
		printf("could not load class file...\n");
	}
	vector classnames;
	string line;
	while (getline(ifs, line))
	{
		classnames.push_back(line);
	}
	return classnames;
}

2.获取输出层名称

获取yolov5网络模型输出层的名称，为后面的推理做准备。

//获取网络的不相连输出层名称
vector getOutpusNames(const Net& net)
{
	vector outputsname = net.getUnconnectedOutLayersNames(); 
	//for (int i = 0; i < outputsname.size(); i++)
	//{
		//printf("Outputs Name%d:%s", i, outputsname.at(i).c_str());
	//}
	return outputsname;
}

3.图像尺度变换

神经网络的输入图像需要采用称为blob的特定格式。从输入图像或视频流中读取帧后，将通过blobFromImage函数将其转换为神经网络的输入blob。

在此过程中，它使用比例因子1/255将图像像素值缩放到0到1的目标范围。它还将图像的大小调整为给定大小（640,640）而不进行裁剪。以下是使用Netron打开yolov5s.onnx的网络结构。

//定义相关参数值与阈值
const float INPUT_WIDTH = 640.0;
const float INPUT_HEIGHT = 640.0;


//将输入图像进行预处理
Mat format_yolov5(const Mat& source)
{
	int col = source.cols;
	int row = source.rows;
	int _max = MAX(col, row);

	//以最大的边长重构图像
	Mat result = Mat::zeros(_max, _max,CV_8UC3);
	source.copyTo(result(Rect(0, 0, col, row)));
	return result;
}

//预处理
auto input_image = format_yolov5(image);
Mat blob = blobFromImage(input_image, 1 / 255.0, Size(INPUT_WIDTH, INPUT_HEIGHT), Scalar(), true, false);

三、模型加载

加载网络直接使用readNet，可以根据个人的情况设置是否使用CUDA加速。

//加载网络
Net  loadNet(string model_path, bool is_Cuda)
{
	Net net = readNet(model_path);

	//是否使用cuda
	if (is_Cuda)  //CUDA
	{
		net.setPreferableBackend(DNN_BACKEND_CUDA);
		net.setPreferableTarget(DNN_TARGET_CUDA_FP16);
	}
	else  //cpu
	{
		net.setPreferableBackend(DNN_BACKEND_OPENCV);
		net.setPreferableTarget(DNN_TARGET_CPU);
	}
	return net;
}


//加载网络并使用cuda加速
Net net = loadNet(model, true);

四、推理和后处理

网络模型加载完成后，就可以将图片送入网络进行预测。

//YOLOV5网络的数据预处理以及前向推理（包括NMS处理）
void detect(cv::Mat& image, cv::dnn::Net& net, std::vector& output, const std::vector& className)
{
	//预处理
	auto input_image = format_yolov5(image);
	Mat blob = blobFromImage(input_image, 1 / 255.0, Size(INPUT_WIDTH, INPUT_HEIGHT), Scalar(), true, false);

	//设置输入
	net.setInput(blob);

	//前向计算
	vector outputs;
	vector outputnames = getOutpusNames(net);
	net.forward(outputs, outputnames);

	//计算x_factor和y_factor，用于后面还原bounding box的位置和大小
	float x_factor = input_image.cols / INPUT_WIDTH;
	float y_factor = input_image.rows / INPUT_HEIGHT;

	//yolov5s输出层为一层，通过outputs可获得预测信息
	float* data = (float*)outputs[0].data;

	//yolov5s模型的输出大小为[1,25200.85]
	const int dimensions = 85;
	const int rows = 25200;

	//分类类别索引
	std::vector class_ids;
	//置信度
	std::vector confidences;
	//边框坐标信息
	std::vector boxes;

	for (int i = 0; i < rows; ++i )
	{
		//获取自信度
		float confidence = data[4];
		if (confidence >= CONFIDENCE_THRESHOLD) 
		{
			//获取类别概率
			float* classes_scores = data + 5; 
			
			//将概率构造为Mat
			cv::Mat scores(1, className.size(), CV_32FC1, classes_scores);
			cv::Point class_id;
			double max_class_score;

			//获取最大类别分数以及其对应的索引
			minMaxLoc(scores, 0, &max_class_score, 0, &class_id);

			//通过阈值进行筛选，将符合要求的类别、置信度以及框体进行保存
			if (max_class_score > SCORE_THRESHOLD) 
			{
				confidences.push_back(confidence);
				class_ids.push_back(class_id.x);

				//得到边框左上角(x,y)和w,h
				float x = data[0]; //边框中心坐标
				float y = data[1];
				float w = data[2];
				float h = data[3];
				int left = int((x - 0.5 * w) * x_factor);
				int top = int((y - 0.5 * h) * y_factor);
				int width = int(w * x_factor);
				int height = int(h * y_factor);
				boxes.push_back(cv::Rect(left, top, width, height));
			}

		}
		//一个边界框包含85个值：4个坐标信息、1个置信度信息和80个类别得分信息，在遍历一个边界框后，data指向需要向后移动85个位置
		data += 85;
	}

	std::vector nms_result;
	cv::dnn::NMSBoxes(boxes, confidences, SCORE_THRESHOLD, NMS_THRESHOLD, nms_result);

	//将经过NMS处理后的结果加载到const vector output中
	for (int i = 0; i < nms_result.size(); i++) 
	{
		int idx = nms_result[i];
		Detection result;  
		result.class_id = class_ids[idx];
		result.confidence = confidences[idx];
		result.box = boxes[idx];
		output.push_back(result);
	}
}

网络输出的结果都存在outputs中。outputs的大小为[1,15200,85]。下面是其输出层信息。

第一维是batch size，为1。

第二维为每张输入图片生成的预测框数，即anchors数量 x (S1 x S1 + S2 x S2 + S3 x S3)，这里的S1, S2, S3分别为输出层的三个特征图的大小，取值为{80, 40, 20}，anchors数量为3，因此总的预测框数为25200；

第三维为每个预测框的信息，包括4个坐标信息、1个置信度信息和80个类别得分信息，共85个信息。

通过outputs[0]可以获得该输出层的结果，其中包含了该层所有的预测框的信息，包括预测框的位置、大小、置信度和类别概率。这些信息被保存在一个指向连续内存的地址中，可以通过.data来访问。

使用一个指向float类型的连续内存的指针获取outputs[0].data的数据，即该指针指向的是一个float类型的数组，其中包含了该层所有预测框的位置、大小、置信度和类别概率。

因此，将该指针赋值给float* data后，就可以通过data来访问该数组中的每一个元素。同时，由于该数组是连续内存，可以通过指针的算术运算来访问该数组中的每一个元素，即使用data[i]来访问数组中第i个元素。

data[4]：指针所指向的内存中的第5个float类型的数据，存储的是置信度。当置信度大于一定的阈值，检测有效。

data + 5：从第6个float类型的数据开始的一段连续数据，即80个分类类别的概率。我们需要从该80个类别中找到概率最大的类别以及索引值。

在输出信息中每一行代表一个检测到的边界框，一个边界框包含85个值：4个坐标信息、1个置信度信息和80个类别得分信息。data所指内存地址包含输出层所有预测框的位置、大小、置信度和类别概率，在yolov5s中共有25200个边界框，即data所指内存地址包含25200*85个值。在遍历一个边界框后，data指向需要向后移动85个位置，即 data +85。

最后还需要进行非极大值抑制，在目标检测任务中，一个目标可能会被多个边界框检测到，这些边界框可能会有不同的位置和大小，但表示同一个目标。非极大值抑制（Non-Maximum Suppression，NMS）是一种常用的方法，用于抑制这些重叠的边界框，只保留置信度最高的那个边界框，从而得到最终的目标检测结果。

NMS的原理如下：首先，对所有的边界框按照其置信度进行排序，置信度最高的边界框排在最前面。从置信度最高的边界框开始，依次遍历其余边界框。

对于当前遍历到的边界框，如果它与前面已经保留的边界框的重叠程度（通过计算IOU值）大于一定阈值（比如0.5），那么就将其抑制掉，不保留。继续遍历下一个边界框，重复上述过程，直到所有的边界框都被处理完毕。

通过这样的处理，NMS可以抑制掉大量重叠的边界框，只保留最好的那个边界框，从而得到最终的目标检测结果。

然后就是将将检测到的目标边框绘制出来。

//画预测的目标bounding box
void drawPred(vector classesnames, int classId, float conf, Rect box, Mat& frame)
{

	//获取类别名称及其置信度
	string label = format("%.2f", conf);
	if (!classesnames.empty())
	{
		CV_Assert(classId < (int)classesnames.size());
		label = classesnames[classId] + ":" + label;
	}

	定义框体颜色:  box 和 text 的颜色
	Scalar rectColor, textColor;
	// 创建随机数生成器
	random_device rd;
	mt19937 generator(rd());
	// 创建均匀分布对象，范围是1到50
	uniform_int_distribution distribution(1, 80);
	// 生成随机数
	int random_number = distribution(generator);

	//设置颜色
	rectColor = Scalar(random_number * 10 % 256, random_number * 20 % 256, random_number * 30 % 256);
	textColor = Scalar(255 - random_number * 10 % 256, 255 - random_number * 20 % 256, 255 - random_number * 30 % 256);


	//绘制边界框
	rectangle(frame, box, rectColor, 3);
	//绘制用于写类别的边框范围，一般就在边框的上面
	rectangle(frame, Point(box.x, box.y - 20), Point(box.x + box.width, box.y), textColor, FILLED);
	//在上面绘制的框界内写出类别以及概率
	putText(frame, label, Point(box.x, box.y - 5), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0, 255, 0));
}

运行结果：

YOLOv5：高效实时目标检测的新巅峰

五、源码

资源下载：CSDN

// yolov5_onnx.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。
//

#include 
#include 
#include 

#include 
#include 

using namespace std;
using namespace cv;
using namespace cv::dnn;



//定义相关参数值与阈值
const float INPUT_WIDTH = 640.0;
const float INPUT_HEIGHT = 640.0;
const float SCORE_THRESHOLD = 0.4;
const float NMS_THRESHOLD = 0.4;
const float CONFIDENCE_THRESHOLD = 0.4;


//定义输出结果的结构体类
struct Detection
{
	int class_id;
	float confidence;
	cv::Rect box; 
};


//获取分类名
vector getClassNames(string class_path)
{
	ifstream ifs(class_path);
	if (!ifs.is_open())
	{
		printf("could not load class file...\n");
	}
	vector classnames;
	string line;
	while (getline(ifs, line))
	{
		classnames.push_back(line);
	}
	return classnames;
}

//获取网络的不相连输出层名称
vector getOutpusNames(const Net& net)
{
	vector outputsname = net.getUnconnectedOutLayersNames(); 
	//for (int i = 0; i < outputsname.size(); i++)
	//{
		//printf("Outputs Name%d:%s", i, outputsname.at(i).c_str());
	//}
	return outputsname;
}

//加载网络
Net  loadNet(string model_path, bool is_Cuda)
{
	Net net = readNet(model_path);

	//是否使用cuda
	if (is_Cuda)  //CUDA
	{
		net.setPreferableBackend(DNN_BACKEND_CUDA);
		net.setPreferableTarget(DNN_TARGET_CUDA_FP16);
	}
	else  //cpu
	{
		net.setPreferableBackend(DNN_BACKEND_OPENCV);
		net.setPreferableTarget(DNN_TARGET_CPU);
	}
	return net;
}

//将输入图像进行预处理
Mat format_yolov5(const Mat& source)
{
	int col = source.cols;
	int row = source.rows;
	int _max = MAX(col, row);

	//以最大的边长重构图像
	Mat result = Mat::zeros(_max, _max,CV_8UC3);
	source.copyTo(result(Rect(0, 0, col, row)));
	return result;
}



//画预测的目标bounding box
void drawPred(vector classesnames, int classId, float conf, Rect box, Mat& frame)
{

	//获取类别名称及其置信度
	string label = format("%.2f", conf);
	if (!classesnames.empty())
	{
		CV_Assert(classId < (int)classesnames.size());
		label = classesnames[classId] + ":" + label;
	}

	定义框体颜色:  box 和 text 的颜色
	Scalar rectColor, textColor;
	// 创建随机数生成器
	random_device rd;
	mt19937 generator(rd());
	// 创建均匀分布对象，范围是1到50
	uniform_int_distribution distribution(1, 80);
	// 生成随机数
	int random_number = distribution(generator);

	//设置颜色
	rectColor = Scalar(random_number * 10 % 256, random_number * 20 % 256, random_number * 30 % 256);
	textColor = Scalar(255 - random_number * 10 % 256, 255 - random_number * 20 % 256, 255 - random_number * 30 % 256);


	//绘制边界框
	rectangle(frame, box, rectColor, 3);
	//绘制用于写类别的边框范围，一般就在边框的上面
	rectangle(frame, Point(box.x, box.y - 20), Point(box.x + box.width, box.y), textColor, FILLED);
	//在上面绘制的框界内写出类别以及概率
	putText(frame, label, Point(box.x, box.y - 5), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0, 255, 0));
}

//YOLOV5网络的数据预处理以及前向推理（包括NMS处理）
void detect(cv::Mat& image, cv::dnn::Net& net, std::vector& output, const std::vector& className)
{
	//预处理
	auto input_image = format_yolov5(image);
	Mat blob = blobFromImage(input_image, 1 / 255.0, Size(INPUT_WIDTH, INPUT_HEIGHT), Scalar(), true, false);

	//设置输入
	net.setInput(blob);

	//前向计算
	vector outputs;
	vector outputnames = getOutpusNames(net);
	net.forward(outputs, outputnames);

	//计算x_factor和y_factor，用于后面还原bounding box的位置和大小
	float x_factor = input_image.cols / INPUT_WIDTH;
	float y_factor = input_image.rows / INPUT_HEIGHT;

	//yolov5s输出层为一层，通过outputs可获得预测信息
	float* data = (float*)outputs[0].data;

	//yolov5s模型的输出大小为[1,25200.85]
	const int dimensions = 85;
	const int rows = 25200;

	//分类类别索引
	std::vector class_ids;
	//置信度
	std::vector confidences;
	//边框坐标信息
	std::vector boxes;

	for (int i = 0; i < rows; ++i )
	{
		//获取自信度
		float confidence = data[4];
		if (confidence >= CONFIDENCE_THRESHOLD) 
		{
			//获取类别概率
			float* classes_scores = data + 5; 
			
			//将概率构造为Mat
			cv::Mat scores(1, className.size(), CV_32FC1, classes_scores);
			cv::Point class_id;
			double max_class_score;

			//获取最大类别分数以及其对应的索引
			minMaxLoc(scores, 0, &max_class_score, 0, &class_id);

			//通过阈值进行筛选，将符合要求的类别、置信度以及框体进行保存
			if (max_class_score > SCORE_THRESHOLD) 
			{
				confidences.push_back(confidence);
				class_ids.push_back(class_id.x);

				//得到边框左上角(x,y)和w,h
				float x = data[0]; //边框中心坐标
				float y = data[1];
				float w = data[2];
				float h = data[3];
				int left = int((x - 0.5 * w) * x_factor);
				int top = int((y - 0.5 * h) * y_factor);
				int width = int(w * x_factor);
				int height = int(h * y_factor);
				boxes.push_back(cv::Rect(left, top, width, height));
			}

		}
		//一个边界框包含85个值：4个坐标信息、1个置信度信息和80个类别得分信息，在遍历一个边界框后，data指向需要向后移动85个位置
		data += 85;
	}

	std::vector nms_result;
	cv::dnn::NMSBoxes(boxes, confidences, SCORE_THRESHOLD, NMS_THRESHOLD, nms_result);

	//将经过NMS处理后的结果加载到const vector output中
	for (int i = 0; i < nms_result.size(); i++) 
	{
		int idx = nms_result[i];
		Detection result;  
		result.class_id = class_ids[idx];
		result.confidence = confidences[idx];
		result.box = boxes[idx];
		output.push_back(result);
	}
}

int main()
{
	string model = "F:/data/CQU/VS/yolov5_onnx/yolov5s.onnx";
	string class_path = "F:/data/CQU/VS/yolov5_onnx/coco.names";
	string video_path = "F:/data/CQU/VS/yolov5_onnx/street.mp4";

	//加载网络并使用cuda加速
	Net net = loadNet(model, true);

	//获取标签
	vector classesnames = getClassNames(class_path);


	//获取视频流
	VideoCapture capture;
	capture.open(video_path);
	if (!capture.isOpened())
	{
		printf("could not read video...\n");
	}

	Mat frame;
	while (capture.read(frame))
	{
		vector output;
		//获得当前系统的计时间周期数,求FPS
		double t = (double)getTickCount();

		//前向推理
		detect(frame, net, output, classesnames);

		//检测的边界框总数
		int boxs_num = output.size();
		//对每一个边框进行处理
		for (int i = 0; i < boxs_num; ++i)
		{
			auto detection = output[i];
			auto box = detection.box;
			auto classId = detection.class_id;
			auto confidence = detection.confidence;
			drawPred(classesnames, classId, confidence, box, frame);
		}

		//FPS计算
		t = ((double)getTickCount() - t) / getTickFrequency();//求输入帧后经过的周期数/每秒系统计的周期数=一帧用时多少秒
		double fps = 1.0 / t;//求倒数得到每秒经过多少帧，即帧率
		string text = format("FPS:%.2f", fps);
		cv::putText(frame, text, Point(10, 50), FONT_HERSHEY_SIMPLEX, 1, cv::Scalar(0, 255, 0), 2, 8, 0);

		imshow("yolov5s", frame);
		int c = waitKey(1);
		if (c == 27)
		{
			break;
		}
	}
	capture.release();
	waitKey(0);
	return 0;
}

结束语
感谢你观看我的文章呐~本次航班到这里就结束啦

希望本篇文章有对你带来帮助，有学习到一点知识~

躲起来的星星也在努力发光，你也要努力加油（让我们一起努力叭）。

最后，博主要一下你们的三连呀（点赞、评论、收藏），不要钱的还是可以搞一搞的嘛~

不知道评论啥的，即使扣个666也是对博主的鼓舞吖感谢

Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
python图像匹配_opencvpython中的图像匹配 weixin_39585675 python图像匹配
我一直在做一个项目，用opencvpython识别相机中显示的标志。我已经尝试过使用surf、颜色直方图匹配和模板匹配。但在这3个问题中，它并不总是返回正确的答案。我现在想要的是，解决我这个问题的最好办法是什么。模板图像示例：以下是摄像头中显示的标志示例。如果这是我想要识别的图像，该怎么用？在更新matchTemplate中的代码flags=["Cambodia.jpg","Laos.jpg","
利用Python+OpenCV实现截图匹配图像，支持自适应缩放、灰度匹配、区域匹配、匹配多个结果 xu-jssy Python自动化脚本 python opencv 开发语言图像处理自动化
可以直接通过pip获取，无需手动安装其他依赖pipinstallxug示例：importxugxug.find_image_on_screen(,,,)=========================================================================一、依赖安装pipinstallopencv-pythonpipinstallpyautogui二、获
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
opencv 学习 1 木木ainiks opencv 计算机视觉 python
opencv学习的第一天#coding:utf-8importcv2ascv#首先读图片src=cv.imread(“img/1.jpg”)#设置图片的名字cv.namedWindow(“1”,cv.WINDOW_AUTOSIZE)#显示图片第一个参数设置图片名，第二个参数图片的地址cv.imshow(“1”,src)cv.waitKey(0)#将图片写入固定位置cv.imwrite(“img/2
OpenCV结构分析与形状描述符（24）检测两个旋转矩形之间是否相交的一个函数rotatedRectangleIntersection()的使用 jndingxin OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述测两个旋转矩形之间是否存在交集。如果存在交集，则还返回交集区域的顶点。下面是一些交集配置的例子。斜线图案表示交集区域，红色顶点是由函数返回的。rotatedRectangleIntersection()这个函数看起来像是用于检测两个旋转矩形之间是否相交的一个方法。
python-opencv cv2.findContours()函数 fjswcjswzy opencv python笔记 python opencv
示例代码：image,contours,hierarchy=cv2.findContours(contour,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)输入：contour：带有轮廓信息的图像；cv2.RETR_TREE：提取轮廓后，输出轮廓信息的组织形式，除了cv2.RETR_TREE还有以下几种选项：cv2.RETR_EXTERNAL：输出轮廓中只有外侧轮廓信
【Python】【Opencv】cv2.findContours()、cv2.drawContours()和cv2.contourArea()函数详解和运行示例木彳 Python学习和使用过程积累 python opencv 开发语言人工智能计算机视觉
为帮助大家理解和使用cv2.findContours()、cv2.drawContours()和cv2.contourArea()函数，本文通过对函数内容进行详解，并通过运行示例更直观表述。函数解析cv2.findContours()cv2.drawContours()cv2.contourArea()运行示例运行示例示例详解函数解析cv2.findContours()cv2.findContou
python如何判断NoneTpye #如花 opencv 人工智能计算机视觉 python
python如何判断NoneTpye最近用python-opencv解析多个视频文件，解析到第一个视频的最后一帧，出现了NoneTpye报错为了让循环继续，需要判断解析出来的图片是否为NoneType。试了几种方法#第一种方法img==None当img为空时，表达式为True。但是当img解析出了图片时，返回的是一个array，大小和img一致。正确写法imgisNone用isNone判断None
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
三点or多点的变换矩阵求解opencv & eigen 合工大机器人实验室 C++矩阵 opencv 线性代数
《Estimating3-DRigidBodyTransformations:AComparisonofFourMajorAlgorithms》，它使用SVD方法计算T和t。只要算出变换矩阵，就可以算出A坐标系的一个点P在坐标系B里的对应点坐标，即R为3x3的转换矩阵，t为3x1的位移变换向量，这里点坐标均为3x1的列向量（非齐次形式，齐次形式下为4x1列向量，多出的一个元素值补1而已）。理论上只
基于YOLOV5人脸检测打上码赛克 Deep-white YOLO 人工智能深度学习
还在为自己的隐私而烦恼吗，还在为拍摄的视频因不想露脸而无法发布吗。yolov5检测人脸，并打上马赛克，保护自己的隐私。只需下载代码，解压缩后就可以传入你想要打马赛克的视频或者图片了。这个是需要你对代码有一些了解的，等我开发一下使大家都可以用。里面权重已经训练好了，也有一些人脸的数据集，数据量不多，训练完的权重不是很好，但是给自己的视频打上马赛克足够了。大家要是想去增加数据集，可以使用里面的权重利用
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
粉尘识别数据集——工地/矿下粉尘数据识别，数据集已划分，YOLO格式-有权重，相关指数，map相当高毕设宇航 YOLO 机器学习目标跟踪
数据集名称粉尘识别数据集数据集描述这是一个专门针对工地或矿下粉尘识别设计的数据集，包含了大量的高清图像，用于识别施工或采矿环境中产生的粉尘。数据集已经按照标准的数据划分方法分为训练集、验证集和测试集，并且以YOLO格式进行了标注。此外，数据集中还包含了预训练的模型权重和相关性能指标，如mAP（MeanAveragePrecision），表明模型在粉尘识别任务上的表现优异。数据集特点高清图像：所有图
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

OpenCV之YOLOv5目标检测

前言

一、YOLOv5简介

二、预处理

1.获取分类名

2.获取输出层名称

3.图像尺度变换

三、模型加载

四、推理和后处理

五、源码

你可能感兴趣的:(YOLO,OpenCV,opencv,YOLO,目标检测)