DIAJEY

openCV特征提取与检测（六）-- HOG特征检测算法

1.什么是HOG特征提取算法？

Hog，即方向梯度直方图

直方图就是数据分布的一种图形表现，类似于柱形图，每个柱形代表一组处于一定范围的数据。这些柱形也成为组（bins），柱形越高意味着某组数据越多

以下图灰度图像为例

像素值的范围在0-255之间，将这些值分为32组，每组包含8个像素值，所以第一组的范围是0-7，以此类推到248-255.

要创建直方图，就是将该途中的各个像素值，放到对应的组里。而上图中的薄饼有很多亮值，背景则很黑，因此直方图大致如下：

什么是方向梯度？
方向很简单，指的就是图像梯度的方向或朝向。Hog就是一张有关图像梯度方向的直方图。首先HOG会接受一张图像，然后计算每个像素的梯度幅度和方向

Hog会把这些像素分成若干个较大的正方形单元，单元通常是8X8，如果图片小一些，单元就响应小一些，8X8即有64个梯度值，HOG会计算每个单元相同方向的梯度有多少，将这些梯度的幅值相加得到梯度强度。并将所有方向数据放到直方图中。以下直方图有9组，也就是9个值范围。

HOG会对图像的每个单元进行同样的处理，这个方向梯度直方图实际上就是个特征向量。对于物体相同但大小，方向不同的图像，可以利用HOG特征模式来检测物体，而不
管物体的位置和呈现方式。

2.在openCV中如何实现HOG算法？

正如在 ORB 算法中看到的，我们可以使用图像中的关键点进行匹配，以检测图像中的对象。当想要检测具有许多一致的内部特性且不受背景影响的对象时，这些类型的算法非常有用。例如，这些算法在人脸检测中可以取得良好的效果，因为人脸有许多不受图像背景影响的一致的内部特征，例如眼睛、鼻子和嘴巴。然而，当试图进行更一般的对象识别时，例如图像中的行人检测时，这些类型的算法并不能很好地工作。原因是人们的内在特征不像脸那样一致，因为每个人的体型和风格都不同（见下图）。这意味着每个人都会有一套不同的内部特征，因此我们需要一些能够更全面地描述一个人的东西。

一种选择是尝试通过行人的轮廓来检测他们。通过图像的轮廓（边界）来检测物体是非常具有挑战性的，因为我们必须处理背景和前景之间的对比带来的困难。例如，假设想检测一个图像中的行人，她正走在一栋白色建筑前，穿着白色外套和黑色裤子。我们可以在下图中看到，由于图像的背景大多是白色，黑色裤子的对比度将非常高，但由于外套也是白色的，所以对比度将非常低。

在这种情况下，检测裤子的边缘是很容易的，但是检测外套的边缘是非常困难的。而这就是为什么需要 HOG 。即定向梯度柱状图（Histograms of Oriented Gradients），它是由 Navneet Dalal 和 Bill Triggs 于 2005 年首次引入的。

Hog 算法的工作原理是创建图像中梯度方向分布的柱状图，然后以一种非常特殊的方式对其进行归一化。这种特殊的归一化使得Hog 能够有效地检测物体的边缘，即使在对比度很低的情况下也是如此。这些标准化的柱状图被放在一个特征向量（称为 HOG 描述符）中，可以用来训练机器学习算法，例如支持向量机（SVM），以根据图像中的边界（边）检测对象。由于它的巨大成功和可靠性，HOG 已成为计算机视觉中应用最广泛的目标检测算法之一。

2.1 HOG算法实现原理

1.给定特定对象的图像，设置一个覆盖图像中整个对象的检测窗口（感兴趣区域）

2.计算检测窗口中每个像素的梯度大小和方向

3.将检测窗口分成像素的连接单元格，所有单元格的大小相同。单元的大小是一个自由参数，通常选择它来匹配要检测的特征的比例。例如，在一个64X128像素的检测窗口中，6X8像素宽的方型单元适用于检测人体肢体

4.为每个单元创建一个柱形图，首先将每个单元中所有像素的渐变方向分组为特定数量的方向（角度）箱，然后将每个角度箱中渐变的渐变幅度相加（见下图）。柱状图中的箱数是一个自由参数，通常设置为9个角箱。

5.将相邻单元分组成块（见下图）。每个块中的单元格数是一个自由参数，所有块的大小都必须相同。每个块之间的距离（称为跨距）是一个自由参数，但它通常设置为块大小的一半，在这种情况下，将得到重叠块（见动图）。经验表明，该算法能更好地处理重叠块。

6.使用每个块中包含的单元格来规范化该块中的单元格柱状图（见下图）。如果有重叠的块，这意味着大多数单元格将针对不同的块进行规格化（见动图）。因此，同一个单元可能有几个不同的归一化。

7.将所有块中的所有标准化柱状图收集到一个称为 HOG 描述符的特征向量中。

8.使用从包含同一对象的许多图像中得到的 HOG 描述符训练机器学习算法，例如使用 SVM，以检测图像中的这些对象。例如，可以使用来自许多行人图像的 HOG 描述符来训练 SVM 以检测图像中的行人。训练通过使用包含目标的正例和不包含目标的负例完成。

9.一旦对支持向量机进行了训练，就使用滑动窗口方法来尝试检测和定位图像中的对象。检测图像中的对象需要找到图像中与 SVM 学习到的 HOG 模式相似的部分。

2.2.为什么HOG算法有效？

正如我们上面所了解的，HOG 通过在图像的局部区域中添加特定方向的梯度大小来创建柱状图，称为“cells”。通过这样做可以保证更强的梯度对它们各自的角度柱状图的大小贡献更大，同时最小化由噪声引起的弱梯度和随机定向梯度的影响。通过这种方式，柱状图告诉我们每个单元格的主要梯度方向。

现在考虑一个问题，由于局部照明的变化以及背景和前景之间的对比度，梯度方向的大小可以有很大的变化。

为了考虑背景-前景对比度的差异，HOG 算法尝试在局部检测边缘。为了做到这一点，它定义了称为块的单元格组，并使用该局部单元格组规范化柱状图。通过局部归一化，HOG 算法可以非常可靠地检测每个块中的边缘，这称为块归一化。

除了使用块规范化之外，HOG 算法还使用重叠块来提高其性能。通过使用重叠块，每个单元为最终的 HOG 描述符提供几个独立的组成部分，其中每个组成部分对应于一个针对不同块进行规范化的单元。这似乎是多余的，但是经验表明，通过对每个单元对不同的局部块进行多次规格化，HOG 算法的性能显著提高。

2.3.创建HOG描述符

CV_WRAP HOGDescriptor() : winSize(64,128), blockSize(16,16), blockStride(8,8),  
    cellSize(8,8), nbins(9), derivAperture(1), winSigma(-1),  
    histogramNormType(HOGDescriptor::L2Hys), L2HysThreshold(0.2), gammaCorrection(true),   
    nlevels(HOGDescriptor::DEFAULT_NLEVELS)  
{}

下面是几个重要的参数：
winSize（64,128）,blockSize(16,16),blockStride(8,8),cellSize(8,8),nbins=9

窗口大小winSize

块大小blockSize

块移动步长：blockStride（8，8）

这里是指的块移动的步长，括号中分别为X方向和Y方向块移动的步长。PS：这里指的是块移动的步长，窗口的移动步长需要在computer()函数中设置，窗口的步长若不设置好像默认跟块步长一样

胞元大小 cellSize

梯度方向数 nbins

nBins表示在一个胞元（cell）中统计梯度的方向数目，例如nBins=9时，在一个胞元内统9个方向的梯度直方图，每个方向为180/9=20°

OpenCV中一个Hog描述子是针对一个检测窗口而言的，一个检测窗口有((128-16)/8+1)((64-16)/8+1)=105个Block，一个Block有4个Cell，一个Cell的Hog描述子向量的长度是9，所以一个检测窗口的Hog描述子的向量长度是1054*9=3780维。

HOG特征提取是统计梯度直方图特征。具体来说就是将梯度方向（0->360°）划分为9个区间，将图像化为16x16的若干个block,每个block再化为4个cell（8x8）。对每一个cell,算出每一像素点的梯度方向和模，按梯度方向增加对应bin的值，最终综合N个cell的梯度直方图形成一个高维描述子向量。实际实现的时候会有各种插值。

2.4.可视化HOG描述符

我们可以通过将与每个细胞相关联的直方图绘制为矢量集合来可视化 HOG 描述符。为此，我们将直方图中的每个 bin 绘制为单个向量，其大小由 bin 的高度给出，其方向由与其关联的角度 bin 给出。由于任何给定的单元格可能有多个与之关联的直方图，因为存在重叠的块，我们将选择平均每个单元格的所有直方图，以便为每个单元格生成单个直方图。

要如何理解这个直方图呢？

首先先看一下三角形内部而不是边缘附近的单元格。如下图所示，在这种情况下，由于三角形几乎都是相同的颜色，因此在所选单元格中不应存在任何主要梯度

—分隔符----

其次，再看一下靠近水平边缘的单元格。因为边缘时图像中强度突然变化的区域。在这种情况下，某个特定方向上具有高强度的梯度。再90°方向，是强度剧烈变化的方向，因此在直方图中对应区域也最强

—分隔符—
再看一下靠近垂直边缘的单元格。在这种情况下，主导梯度是水平的，因此0和180°左右的梯度应该是最强的、
最后再看一下对角线边缘的单元格：

为了理解我们所看到的，让我们首先记住梯度由 x 部分（分量）和 y 部分（分量）组成，就像向量一样。因此，梯度的最终方向将由其分量的向量和给出。因此，在垂直边缘上，渐变是水平的，因为它们只有 x 分量，如上图所示。在水平边缘上，渐变是垂直的，因为它们只有 y 分量，正如上上图所示。因此，在对角线边缘，梯度也将是对角线，因为 * x * 和 * y * 分量都是非零的。由于图像中的对角线边缘接近 45 度，我们应该期望在 50 度箱（bin）中看到显著的梯度方向。而这实际上就是我们在直方图中看到的，但是，如上图所示，我们看到有两个主导梯度而不是一个。其原因在于，当创建直方图时，靠近区间边界的角度与相邻区间成比例地起作用。例如，角度为 40 度的梯度位于 30 度和 50 度箱的中间。因此，梯度的大小均匀地分成30度和50度的箱。这导致在对角线边缘附近的单元中存在两个主要梯度而不是仅一个。

3.HOG算法的特点

3.1、HOG与SIFT的区别

HOG和SIFT都是描述子，以及由于在具体操作上有很多相似的步骤，所以致使很多人误认为HOG是SIFT的一种，其实两者在使用目的和具体处理细节上是有很大的区别的。HOG与SIFT的主要区别如下：

(1)SIFT是基于关键点特征向量的描述。

(2)HOG是将图像均匀的分成相邻的小块，然后在所有的小块内统计梯度直方图。

(3)SIFT需要对图像尺度空间下对像素求极值点，而HOG中不需要。

(4)SIFT一般有两大步骤，第一个步骤对图像提取特征点，而HOG不会对图像提取特征点。

3.2、HOG的优缺点

优点：

(1)HOG表示的是边缘(梯度)的结构特征，因此可以描述局部的形状信息；

(2)位置和方向空间的量化一定程度上可以抑制平移和旋转带来的影响；

(3)采取在局部区域归一化直方图，可以部分抵消光照变化带来的影响；

(4)由于一定程度忽略了光照颜色对图像造成的影响，使得图像所需要的表征数据的维度降低了；

(5)而且由于这种分块分单元的处理方法，也使得图像局部像素点之间的关系可以很好得到表征。

缺点：

(1)描述子生成过程冗长，导致速度慢，实时性差；

(2)很难处理遮挡问题；

(3)由于梯度的性质，该描述子对噪点相当敏感。

4.HOG例子

关键函数：
detectMultiScale函数

void detectMultiScale(  
    const Mat& image,  
    CV_OUT vector<Rect>& objects,  
    double scaleFactor = 1.1,  
    int minNeighbors = 3,   
    int flags = 0,  
    Size minSize = Size(),  
    Size maxSize = Size()  
);

1.image 表示的是要检测的输入图像
2.foundLocations 表示检测到的目标序列
3.hitThreshold 控制HOG特征与SVM最优超平面间的最大距离，当距离小于阈值时判定为目标
4.winStride HOG检测窗口移动时的步长
5.padding 在原图外添加像素，适当添加padding可以提高检测的准确率
6. scale 每层图像缩小值，并用gaussian平滑，可以控制图像金字塔层数，参数越小，层数越多，检测也越长
7. finalThreshold 优化bounding box
8. useMeanShiftGroupimg 是否应用meanshift来消除重叠-bool类型

代码：

#include
#include
#include
#include

using namespace cv;
using namespace std;
using namespace cv::xfeatures2d;



Mat src,dst, gray_src;
const char* output_title = "output_win";
int corners = 20;
int max_corners = 50;

void Tomasi_Demo(int, void*);
void SubPixel_Demo(int, void*);
int main(int argc, char** argv) {
	src = imread("C:/Users/18929/Desktop/博客项目/项目图片/18.jpg");
	if (src.empty()) {
		printf("could not load image");
		return -1;
	}
	namedWindow("input image", CV_WINDOW_AUTOSIZE);
	imshow("input_img", src);

	//计算检测算子

	//将目标图像转化为窗口大小
	//resize(src, dst, Size(64, 128));
	//cvtColot(dst, dst_gray, COLOR_BGR2GRAY);

	//定义HOG检测器
	//HOGDescriptor detector(Size(64, 128), Size(16, 16), Size(8, 8), Size(8, 8), 9);

	//定义容器装特征描述子以及对应描述子的位置
	//vector descriptors;
	//vector locations;

	//根据窗口大小自动计算窗口移动步长，并返回算子数据
	//detector.compute(dst_gray,descriptors,Size(0,0),Size(0,0),locations);

	//printf("number of HOG descriptors:%d", descriptors.size());//3780

	//行人检测案例
	
	//新建一个HOGDescriptor对象
	HOGDescriptor hog = HOGDescriptor();
	//使用open CV定义好的模型
	//新建一个SVM分类检测器
	//getDefaultPeopleDetector()--人像检测库
	hog.setSVMDetector(hog.getDefaultPeopleDetector());

	vector<Rect> foundLocation;//定义容器装检测结果的矩形
	//detectMultiScale对图像进行多尺度检测
	hog.detectMultiScale(src, foundLocations, 0, Size(8, 8), Size(32, 32), 1.05, 2);
	
	//将结果在另一张图片中画出
	Mat result = src.clone();
	for (size_t i = 0; i < foundLocations.size(); i++)
	{
		rectangle(result, foundLocation[i], Scalar(0, 0, 255), 2, 8, 0);
	}
	imshow("HOG SVM Detector Demo", result);

	waitKey(0);
	return 0;
}

初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
GStreamer —— 3.2、Qt+GStreamer+OpenCV制作图像处理播放器(对每帧图像处理)，支持本地mp4文件、rtsp流、usb摄像头等（可跨平台，附源码）信必诺 GStreamer Qt GStreamer Qt
运行效果介绍本项目是一个结合了Qt、GStreamer和OpenCV的跨平台图像处理播放器项目。该
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
Windows配置opencv详细教程吃旺旺雪饼的小男孩环境配置 windows opencv 人工智能计算机视觉
Windows配置opencv1.安装CMakeCMake安装步骤：2.安装VisualStudioVisualStudio安装步骤：3.下载OpenCV源码下载步骤：4.配置OpenCV使用CMake4.1.配置CMakeGUI4.2.配置选项5.使用VisualStudio编译OpenCV5.1.打开VisualStudio项目5.2.编译OpenCV6.配置开发环境（VisualStudio
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
cv2 orb 图像拼接_图像拼接Opencv源码重构是佐罗而非索隆 cv2 orb 图像拼接
请看赵春江https://me.csdn.net/zhaocj的主页，他已经对Opencv图像拼接流程中的代码做了很详细的解释。前人栽树，后人乘凉。一.本文所做的事1.重构了Opencv图像拼接的源代码，整个代码是面向过程的；2.在赵春江源码分析基础上，对一些细节部分进行说明。代码链接：https://github.com/mhhai/ImageStitch二.特征点检测一切起源于这段代码Ptrf
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
17-OpenCVSharp 中实现 Halcon 的 Points_Harris算子（Harris 角点检测）观视界 #opencv 人工智能计算机视觉图像处理矩阵
专栏地址：《OpenCV功能使用详解200篇》《OpenCV算子使用详解300篇》《Halcon算子使用详解300篇》内容持续更新，欢迎点击订阅在OpenCVSharp中实现类似于Halcon中的Points_Harris算子，实际上就是实现Harris角点检测算法。Harris角点检测算法是用于检测图像中的角点特征，可以用来进行图像匹配、物体识别等任务。Halcon提供的Points_Harri
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
OpenCV 图像几何变换：旋转，缩放，斜切奈何小洪 OPENCV opencv 图像旋转缩放
几何变换几何变换可以看成图像中物体（或像素）空间位置改变，或者说是像素的移动。几何运算需要空间变换和灰度级差值两个步骤的算法，像素通过变换映射到新的坐标位置，新的位置可能是在几个像素之间，即不一定为整数坐标。这时就需要灰度级差值将映射的新坐标匹配到输出像素之间。最简单的插值方法是最近邻插值，就是令输出像素的灰度值等于映射最近的位置像素，该方法可能会产生锯齿。这种方法也叫零阶插值，相应比较复杂的还有
OpenCV旋转估计（2）用于自动检测波浪校正类型的函数autoDetectWaveCorrectKind() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::autoDetectWaveCorrectKind是OpenCV中用于自动检测波浪校正类型的函数，它根据输入的旋转矩阵集合来决定使用哪种波浪校正模式。波浪校正（WaveCorrection）是图像拼接过程中的一部分，主要用于纠正由于相机在拍
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
【OpenCV C++】如何快速高效的计算出图像中大于值的像素个数？遍历比较吗？ No，效率太低！那么如何更高效？ R-G-B OpenCV C++opencv c++计算机视觉
文章目录1问题2分析3代码实现（两种方法实现）方法1:使用cv::compare方法2:使用cv::threshold3.2compare和threshold看起来都有二值化效果？那么二者效率？4compare函数解释4.1参数解释4.2底层行为规则4.3应用示例4.4典型应用场景1问题一幅图像的目标区域ROI尺寸为60*35的灰度图，快速计算出大于backVal的像素个数，其中backVal=2
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
使用opencv鼠标回调函数选择ROI区域开门儿大弟子 opencv 人工智能 c++计算机视觉
使用opencv绘制矩形ROI，点击鼠标左键开始绘制，鼠标右键退出绘制并返回矩形左上角和右下角坐标。可绘制多个ROI区域(图中红色区域)/****************************************函数名称:MouseCallbackDrawRect()函数功能:绘制矩形回调函数***************************************/booldrawin
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p