风间琉璃•

OpenCV之SSD目标检测

个人主页:风间琉璃

版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主

如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦

前言

一、SSD网络简介

二、加载网络模型

三、预处理

四、执行推理

五、解析输出

前言

SSD(Single Shot MultiBox Detector)是作者Wei Liu在ECCV 2016上发表的论文提出的。对于输入尺寸300*300的SSD网络使用Nvidia Titan X在VOC 2007测试集上达到74.3%mAP以及59FPS（每秒可以检测59张图片）；对于输入512*512的SSD网络，达到了76.9%mAP，超越了当时最强的Faster RCNN（73.2%mAP）,达到真正的实时检测。

一、SSD网络简介

这里简单介绍一下RCNN系列和YOLO系列。基于”Proposal + Classification”的Object Detection的方法，RCNN系列(R-CNN、SPPnet、Fast R-CNN以及Faster R-CNN)取得了非常好的效果，因为这一类方法先预先回归一次边框，然后再进行骨干网络训练，所以精度要高，这类方法被称为two stage的方法。

但也正是由于此，这类方法在速度方面还有待改进。由此，YOLO应运而生，YOLO系列只做了一次边框回归和打分，所以相比于RCNN系列被称为one stage的方法，这类方法的最大特点就是速度快。但是YOLO虽然能达到实时的效果，但是由于只做了一次边框回归并打分，这类方法导致了小目标训练非常不充分，对于小目标的检测效果非常的差。简而言之，YOLO系列对于目标的尺度比较敏感，而且对于尺度变化较大的物体泛化能力比较差。

针对YOLO和Faster R-CNN的各自不足与优势，WeiLiu等人提出了Single Shot MultiBox Detector，简称为SSD。SSD整个网络采取了one stage的思想，以此提高检测速度。并且网络中融入了Faster R-CNN中的anchors思想，并且做了特征分层提取并依次计算边框回归和分类操作，由此可以适应多种尺度目标的训练和检测任务。SSD的出现使得大家看到了实时高精度目标检测的可行性。

网络结构如下：

SSD网络主体设计的思想是特征分层提取，并依次进行边框回归和分类。因为不同层次的特征图能代表不同层次的语义信息，低层次的特征图能代表低层语义信息(含有更多的细节)，能提高语义分割质量，适合小尺度目标的学习。高层次的特征图能代表高层语义信息，能光滑分割结果，适合对大尺度的目标进行深入学习。所以作者提出的SSD的网络理论上能适合不同尺度的目标检测。

所以SSD网络中分为了6个stage，每个stage能学习到一个特征图，然后进行边框回归和分类。SSD网络以VGG16的前5层卷积网络作为第1个stage，然后将VGG16中的fc6和fc7两个全连接层转化为两个卷积层Conv6和Conv7作为网络的第2、第3个stage。接着在此基础上，SSD网络继续增加了Conv8、Conv9、Conv10和Conv11四层网络，用来提取更高层次的语义信息。如下图所示就是SSD的网络结构。在每个stage操作中，网络包含了多个卷积层操作，每个卷积层操作基本上都是小卷积。

骨干网络：SSD前面的骨干网络选用的VGG16的基础网络结构，如上图所示，虚线框内的是VGG16的前5层网络。然后后面的Conv6和Conv7是将VGG16的后两层全连接层网络(fc6, fc7)转换而来。

另外：在此基础上，SSD网络继续增加了Conv8和Conv9、Conv10和Conv11四层网络。图中所示，立方体的长高表示特征图的大小，厚度表示是channel。

二、加载网络模型

这里使用Caffe深度学习框架中已经预训练好的SSD网络，需要相应的模型权重文件（.caffemodel）以及模型配置文件（.prototxt）。

加载模型和配置文件如下所示：

String model = "F:/data/CQU/VS/SSD_Object_Detection/VGG_ILSVRC2016_SSD_300x300_iter_440000.caffemodel";
String config = "F:/data/CQU/VS/SSD_Object_Detection/deploy.prototxt";

//加载ssd网络模型
Net net = readNetFromCaffe(config, model);

与前面加载网络模型是一样的，都是通过dnn模块的readNet、readNetFromCaffe()根据模型文件和配置文件加载网络。

同时，需要将SSD网络对应的目标检测分类标签（200个类别）调入内存这样便于访问它们，通常这些类别信息存储在txt文件中。

文件的每两行包含一个标签索引和标签名称，除了第一行和第二行（背景）。

String label = "F:/data/CQU/VS/SSD_Object_Detection/labelmap_det.txt";

//从标签文件中获取目标名称
vector readLabels(string label_path) 
{
	vector objNames;
	ifstream fp(label_path);
	if (!fp.is_open()) 
	{
		printf("could not open the file...\n");
		exit(-1);
	}
	string name;
	while (!fp.eof()) 
	{
		//读取每一行
		getline(fp, name); 
		if (name.length() && (name.find("display_name:") == 0)) //每一行不为空，其包含display_name
		{
			//从"后复制标签名，此时后面还有一个"
			string temp = name.substr(15);  
			//去掉最后面的"
			temp.replace(temp.end() - 1, temp.end(), ""); 
			objNames.push_back(temp);
		}
	}
	return objNames;
}

最后得到的label名称如下：

三、预处理

通过 OpenCV中的 imread() 函数读入图片。注意，有些细节需要我们关注。使用DNN 模块载入的预训练好的模型并不能够直接使用读入图像数据。需要预先进行预处理一下。

预处理主要要使输入图像尺寸满足网络输入的大小，网络输入的大小可以在配置文件prototxt中查看。

(1)使用OpenCV处理

const size_t width = 300;
const size_t height = 300;

//三通道数值
const int meanValues[3] = { 104, 117, 123 };

//获取均值
static Mat getMean(const size_t& w, const size_t& h) 
{
	Mat mean;
	vector channels;
	for (int i = 0; i < 3; i++) 
	{
		//创建Mat，并且像素值为meanValues
		Mat channel(h, w, CV_32F, Scalar(meanValues[i]));
		channels.push_back(channel);
	}

	//三通道合成图片
	merge(channels, mean);  
	return mean;
}

//图像预处理
static Mat preprocess(const Mat& frame) 
{
	Mat preprocessed;
	//图片类型转为浮点数
	frame.convertTo(preprocessed, CV_32F);  
	// 300x300 image
	resize(preprocessed, preprocessed, Size(width, height)); 
	//得到均值图像
	Mat mean = getMean(width, height);        
	//图像-均值
	subtract(preprocessed, mean, preprocessed); 
	return preprocessed;
}

//输入图像预处理，这些操作也可以使用blobblobFromImage完成
Mat input_image = preprocess(frame);
Mat blobImage = blobFromImage(input_image);

//构建输入
net.setInput(blobImage, "data");

(2)用DNN处理

上面的预处理操作可以直接调用dnn中的blobFromImage()函数完成。

Mat blobImage = blobFromImage(frame,1.0,Size(300,300),Scalar(104, 117, 123));

四、执行推理

图片预处理完成，就可以利用网络进行预测，这个过程也是把输入图像在网络各层中前向进行传播。

//向前推理
Mat detection = net.forward("detection_out");

这里的detection_out是网络的输出层的名称。

五、解析输出

在 detection中存储着网络的所有输出。在获得正确的分类类别之前，还有一些需要与处理得步骤。

//获取结果的分类索引+置信度+目标边框
Mat detectionMat(detection.size[2], detection.size[3], CV_32F, detection.ptr());

//设置置信度阈值，官方默认为0.01
float confidence_threshold = 0.2; 
for (int i = 0; i < detectionMat.rows; i++) 
{
	//获取置信度
	float confidence = detectionMat.at(i, 2);
	if (confidence > confidence_threshold) 
	{
		//获取目标标签的索引值
		size_t objIndex = (size_t)(detectionMat.at(i, 1));
		//获取目标边框
		float tl_x = detectionMat.at(i, 3) * frame.cols;
		float tl_y = detectionMat.at(i, 4) * frame.rows;
		float br_x = detectionMat.at(i, 5) * frame.cols;
		float br_y = detectionMat.at(i, 6) * frame.rows;

		Rect object_box((int)tl_x, (int)tl_y, (int)(br_x - tl_x), (int)(br_y - tl_y));
		rectangle(frame, object_box, Scalar(0, 0, 255), 2, 8, 0);
		putText(frame, format("%s:%.2f", objNames[objIndex].c_str(), confidence), Point(tl_x, tl_y), FONT_HERSHEY_SIMPLEX, 1.0, Scalar(255, 0, 0), 2);
	}
}

运行结果：

源码：资源下载链接：https://download.csdn.net/download/qq_53144843/88330242

// SSD_Object_Detection.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。
//

#include 
#include 
#include 
#include 
#include 
#include 
#include 


using namespace cv;
using namespace cv::dnn;
using namespace std;

const size_t width = 300;
const size_t height = 300;

String label = "F:/data/CQU/VS/SSD_Object_Detection/labelmap_det.txt";
String model = "F:/data/CQU/VS/SSD_Object_Detection/VGG_ILSVRC2016_SSD_300x300_iter_440000.caffemodel";
String config = "F:/data/CQU/VS/SSD_Object_Detection/deploy.prototxt";



//从标签文件中获取目标名称
vector readLabels(string label_path) 
{
	vector objNames;
	ifstream fp(label_path);
	if (!fp.is_open()) 
	{
		printf("could not open the file...\n");
		exit(-1);
	}
	string name;
	while (!fp.eof()) 
	{
		//读取每一行
		getline(fp, name); 
		if (name.length() && (name.find("display_name:") == 0)) //每一行不为空，其包含display_name
		{
			//从"后复制标签名，此时后面还有一个"
			string temp = name.substr(15);  
			//去掉最后面的"
			temp.replace(temp.end() - 1, temp.end(), ""); 
			objNames.push_back(temp);
		}
	}
	return objNames;
}

//三通道数值
const int meanValues[3] = { 104, 117, 123 };

//获取均值
static Mat getMean(const size_t& w, const size_t& h) 
{
	Mat mean;
	vector channels;
	for (int i = 0; i < 3; i++) 
	{
		//创建Mat，并且像素值为meanValues
		Mat channel(h, w, CV_32F, Scalar(meanValues[i]));
		channels.push_back(channel);
	}

	//三通道合成图片
	merge(channels, mean);  
	return mean;
}

//图像预处理
static Mat preprocess(const Mat& frame) 
{
	Mat preprocessed;
	//图片类型转为浮点数
	frame.convertTo(preprocessed, CV_32F);  
	// 300x300 image
	resize(preprocessed, preprocessed, Size(width, height)); 
	//得到均值图像
	Mat mean = getMean(width, height);        
	//图像-均值
	subtract(preprocessed, mean, preprocessed); 
	return preprocessed;
}

int main()
{
	Mat frame = imread("F:/data/CQU/VS/SSD_Object_Detection/persons.png");
	if (frame.empty())
	{
		printf("could not load image...\n");
		return -1;
	}


	//读取检测目标标签
	vector objNames = readLabels(label);

	//加载ssd网络模型
	Net net = readNetFromCaffe(config, model);

	//输入图像预处理，这些操作也可以使用blobblobFromImage完成
	Mat input_image = preprocess(frame);
	Mat blobImage = blobFromImage(input_image);
	//Mat blobImage = blobFromImage(frame,1.0,Size(300,300),Scalar(104, 117, 123));

	//构建输入
	net.setInput(blobImage, "data");
	//向前推理
	Mat detection = net.forward("detection_out");
	//获取结果的分类索引+置信度+目标边框
	Mat detectionMat(detection.size[2], detection.size[3], CV_32F, detection.ptr());

	//设置置信度阈值，官方默认为0.01
	float confidence_threshold = 0.2; 
	for (int i = 0; i < detectionMat.rows; i++) 
	{
		//获取置信度
		float confidence = detectionMat.at(i, 2);
		if (confidence > confidence_threshold) 
		{
			//获取目标标签的索引值
			size_t objIndex = (size_t)(detectionMat.at(i, 1));
			//获取目标边框
			float tl_x = detectionMat.at(i, 3) * frame.cols;
			float tl_y = detectionMat.at(i, 4) * frame.rows;
			float br_x = detectionMat.at(i, 5) * frame.cols;
			float br_y = detectionMat.at(i, 6) * frame.rows;

			Rect object_box((int)tl_x, (int)tl_y, (int)(br_x - tl_x), (int)(br_y - tl_y));
			rectangle(frame, object_box, Scalar(0, 0, 255), 2, 8, 0);
			putText(frame, format("%s:%.2f", objNames[objIndex].c_str(), confidence), Point(tl_x, tl_y), FONT_HERSHEY_SIMPLEX, 1.0, Scalar(255, 0, 0), 2);
		}
	}
	imshow("ssd", frame);
	waitKey(0);
	return 0;
}

结束语
感谢你观看我的文章呐~本次航班到这里就结束啦

希望本篇文章有对你带来帮助，有学习到一点知识~

躲起来的星星也在努力发光，你也要努力加油（让我们一起努力叭）。

最后，博主要一下你们的三连呀（点赞、评论、收藏），不要钱的还是可以搞一搞的嘛~

不知道评论啥的，即使扣个666也是对博主的鼓舞吖感谢

阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
认知科学：解决复杂问题的5个关键策略 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍认知科学是一门研究人类思维、认知和行为的科学。它涉及到大脑、神经科学、心理学、语言学、人工智能和计算机科学等多个领域。认知科学试图揭示人类如何理解和处理信息，以及如何进行决策和行动。在本文中，我们将探讨5个关键策略，这些策略可以帮助我们解决复杂问题。这些策略包括：模式识别规则抽取推理和逻辑推理知识表示和知识图谱多模态处理我们将在接下来的部分中详细讨论这些策略，并提供代码实例和数学模型公
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
如何优化AI模型的Prompt：深度指南 Earth explosion 人工智能 prompt
随着人工智能（AI）技术的快速发展，AI模型在文本生成、翻译、问答等领域的应用越来越广泛。在使用这些模型时，**Prompt（提示）**的质量直接影响输出结果的好坏。优化Prompt不仅能提升生成文本的准确性，还能显著提高工作效率。作为一个希望提升AI应用效果的普通人，如何才能优化Prompt呢？本文将为你提供一份详细的指南，涵盖从基础知识到高级技巧的各个方面。一、什么是Prompt？1.1定义P
AI 行业发展趋势：科技创新引领未来变革我是阿萌畅聊AI 人工智能科技学习
在当今数字化时代，人工智能（AI）行业正以前所未有的速度蓬勃发展，深刻地改变着我们的生活、工作和社会格局。从基础技术的突破到广泛的应用场景拓展，AI展现出了一系列令人瞩目的发展趋势，预示着一个充满无限可能的未来。一、技术创新持续突破模型规模与性能提升AI模型正朝着更大规模、更复杂的方向发展。以GPT系列为代表的大语言模型，参数数量不断攀升，从GPT-2的15亿参数到GPT-4的万亿级参数，模型的语
前沿技术有哪些推动行业发展的新技术简介 jiemidashi 经验分享
现在有很多新东西正在改变的生活。比如人工智能。它能帮做很多事情。像写文章、画画还有处理数据。这些都很有用。再说说区块链。它让信息更安全。数据不容易被改掉。这对隐私很有帮助。还有5G网络。速度快得不得了。看视频玩游戏都特别顺畅。感觉和以前完全不一样。再就是新能源车。不用油了。用电就行。省钱又环保。开着还很安静。最后说说虚拟现实。戴上眼镜就能去别的世界。玩游戏或者学习都超级酷。这些东西都在慢慢走进的生
DeepSeek R1有什么不同新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/深度思考实验室（DeepSeek）最近发布了全新的推理模型R1，声称该模型不仅性能超越目
基于RWA 与 AI-Agent 协同的企业数字化生态构建 leijiwen 人工智能
在当前数字经济高速发展的背景下，企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业，正通过现实世界资产（RWA）数字化与人工智能代理（AI-Agent）的协同应用，构建全新的数字生态系统。正如“无数据不基础、无token不可信、无AI不产品、无产业不应用”这一理念所强调的，数字化生态的建立必须依托数据、信任机制、智能技术以及产业深度融合，才能实现真正的转型升级
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
科技创新：改变生活的力量与未来趋势 jiemidashi 科技生活人工智能经验分享
人工智能在智能客服中的应用越来越普遍。它改变了传统的客服模式。AI可以快速回答用户的问题，提高了客服效率和服务质量。首先，人工智能能够处理大量信息。智能客服可以在几秒钟内回应客户的请求。这比人工客服快得多。客户不需要等待很久就能得到答案。举个例子，某电商平台使用AI聊天机器人来处理用户咨询。这个机器人能够24小时工作，随时解决问题。这样，顾客体验得到了显著提升。其次，人工智能能提供个性化服务。通过
Cursor 终极使用指南：从零开始走向AI编程二川bro 智能AI 前端 AI编程
Cursor终极使用指南：从零开始走向AI编程问什么是cursor?mindmaproot(Cursor核心功能)智能编码代码生成自动补全错误修复项目管理多窗口布局版本控制终端集成个性设置主题定制快捷键配置插件扩展AI协作对话编程知识检索文档生成前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot llama
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
《今日AI-人工智能-编程日报》小亦工作室人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
（十一）人工智能 - Python 教程 - Python元组星星学霸人工智能 -Python系列教程 python 搜索引擎开发语言
更多系列教程，每天更新更多教程关注：xxxueba.com星星学霸1元组（Tuple）元组是有序且不可更改的集合。在Python中，元组是用圆括号编写的。实例创建元组：thistuple=("apple","banana","cherry")print(thistuple)("apple","banana","cherry")2访问元组元素可以通过引用方括号内的索引号来访问元组元素：实例打印元组中
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

OpenCV之SSD目标检测

前言

一、SSD网络简介

二、加载网络模型

三、预处理

四、执行推理

五、解析输出

你可能感兴趣的:(OpenCV,目标检测,人工智能,计算机视觉)