@BangBang

深度学习与OpenCV DNN模块:权威指南

计算机视觉领域自20世纪60年代末就已经存在。图像分类和目标检测是计算机视觉领域的一些最古老的问题，研究人员已经努力解决了几十年。使用神经网络和深度学习，我们已经达到了一个阶段，计算机可以开始真正地理解和识别一个物体，并具有很高的准确性，甚至在许多情况下超过了人类。要学习神经网络和计算机视觉的深度学习，OpenCV的DNN模块是一个很好的起点。由于其高度优化的CPU性能，初学者也可以很容易地开始，即使他们没有一个非常强大的GPU启用系统.

希望这篇博文能成为最好的起点之一

使用深度学习和OpenCV的DNN模块的图像分类(左)和目标检测(右)示例。

不仅是理论部分，我们还介绍了OpenCV DNN的实践经验。我们将详细讨论图像和实时视频中的分类和目标检测。

什么是OpenCV DNN模块?

我们都知道OpenCV是最好的计算机视觉库之一。此外，它还具有运行深度学习推理的功能。最好的部分是支持从不同的框架加载不同的模型，使用它我们可以进行一些深度学习功能。从3.3版开始，支持来自不同框架的模型的特性就成为了OpenCV的一部分。尽管如此，许多新进入该领域的人并不知道OpenCV的这个伟大特性。因此，他们往往会错过许多有趣和好的学习机会。

为什么选择OpenCV DNN模块?

OpenCV DNN模块只支持图像和视频的深度学习推理。它不支持微调和训练。不过，OpenCV DNN模块可以作为任何初学者进入基于深度学习的计算机视觉领域的完美起点。

OpenCV DNN模块最好的地方之一是它对英特尔处理器进行了高度优化。通过对实时视频进行推理，可以获得较好的帧率，用于目标检测和图像分割等应用。当我们使用一个预先训练过的模型，使用DNN模块时，我们通常会得到更高的FPS

不同框架下CPU上的图像分类推理速度比较。

以上结果是DenseNet121模型的推理时机。令人惊讶的是，OpenCV比TensorFlow的原始实现快得多，但却落后于PyTorch。事实上，TensorFlow的推断时间接近1秒，而OpenCV的推断时间不到200毫秒。

上述基准测试是在撰写本文时使用最新版本完成的。它们是PyTorch 1.8.0, OpenCV 4.5.1和TensorFlow 2.4。所有测试都是在谷歌Colab上完成的，它具有Intel Xeon处理器2.3Ghz处理器。

即使在物体检测的情况下也是如此。

上图显示了在最初的Darknet框架和OpenCV上使用Tiny YOLOv4进行视频FPS的结果。基准测试是在2.6Ghz的英特尔i7第八代笔记本电脑CPU上完成的。我们可以在同一个视频中看到，OpenCV的DNN模块以35 FPS运行，而OpenMP编译的Darknet和AVX以15 FPS运行。而Darknet(不含OpenMP或AVX)的《Tiny YOLOv4》则是最慢的，仅以3 FPS的速度运行。考虑到我们在两种情况下都使用原始的Darknet Tiny YOLOv4模型，这是一个巨大的差异。

上面的图表显示了OpenCV DNN模块在与cpu一起工作时的实际用途和功能。由于它的快速推理时间(即使在cpu上)，它可以作为计算能力有限的边缘设备上的出色部署工具。基于ARM处理器的边缘设备就是最好的例子。下图很好地证明了这一点.

柱状图比较不同框架和不同神经网络模型在树莓派3B上运行时的FPS(帧每秒)

上面的图显示了在树莓派3B上运行的不同框架和模型的FPS。结果令人印象深刻。对于SqueezeNet和MobileNet模型，OpenCV在FPS方面超过了所有其他框架。对GoogLeNet来说，OpenCV排在第二位，TensorFlow是最快的。对于 Network in Network，OpenCV树莓FPS是最慢的。

上面的几个图展示了优化后的OpenCV，以及它用于神经网络推理的速度。这些数据是我们选择详细了解OpenCV DNN模块的一个很好的理由。

OpenCV DNN模块支持的不同深度学习功能

我们已经建立了利用OpenCV DNN模块，可以对图像和视频进行基于深度学习的计算机视觉推理。让我们看看它支持的所有功能。有趣的是，我们能想到的大多数深度学习和计算机视觉任务都得到了支持。下面的列表将让我们对这些特性有一个很好的了解。

Image classification.
Object Detection.
Image segmentation.
Text detection and recognition.
Pose estimation.
Depth estimation.
Person and face verification and detection.
Person Reid.

这个列表很广泛，提供了很多实际的深度学习用例。通过访问OpenCV存储库的Wiki页面了解更多细节。

令人印象深刻的事实是，根据系统硬件、计算能力(我们稍后将看到它们)，有许多模型可供选择。从真正的计算密集型模型到能够在低功耗边缘设备上运行的模型，我们可以为每个用例找到一个模型。

注意，不可能在一篇博客文章中遍历上述所有用例。因此，我们将详细讨论目标检测和人体姿态估计.

OpenCV DNN模块支持的不同模型

为了支持上面讨论的所有应用程序，我们需要大量预训练模型。此外，还有许多state-of-the-art模型可供选择。下表列出了根据不同深度学习应用的一些模型。

上述模型并不详尽。还有更多的模型。如前所述，在单个博客中完整列出或详细讨论每一项几乎是不可能的。上面的列表让我们很好地了解了DNN模块在探索计算机视觉中的深度学习方面的实用性。

OpenCV DNN模块支持的不同框架

看看上面所有的模型，我想到的一个问题是，“所有这些模型都是由单个框架支持的吗?”事实上,不是。

OpenCV DNN模块支持许多流行的深度学习框架。下面是OpenCV DNN模块支持的深度学习框架。

Caffe
要在OpenCV DNN中使用预训练的Caffe模型，我们需要两件事。一个是模型。包含预训练权重的Caffemodel文件。另一个是扩展名为.prototxt的模型架构文件。它就像一个具有JSON结构的纯文本文件，包含所有神经网络层的定义。要清楚了解这个文件，请访问这个链接。

TensorFlow

为了加载预训练的TensorFlow模型，我们还需要两个文件。模型权重文件和protobuf文本文件包含模型配置。权重文件有一个.pb扩展名，它是一个protobuf文件，包含所有预先训练的权重。如果你以前使用过TensorFlow，你会知道.pb文件是我们在保存模型和冻结权重之后得到的模型检查点。模型配置保存在protobuf文本文件中，该文件扩展名为.pbtxt。

注意:在更新版本的TensorFlow中，模型权重文件可能不是.pb格式。如果你试图使用你自己保存的模型之一(可能是.ckpt或.h5格式)，这也是正确的。在这种情况下，在模型与OpenCV DNN模块一起使用之前，需要执行一些中间步骤。在这种情况下，将模型转换为ONNX格式，然后再转换为.pb格式是确保一切按预期工作的最好方法。

Torch和PyTorch

为了加载Torch模型文件，我们需要包含预训练权重的文件。通常，该文件的扩展名为。t7或.net。但由于最新的PyTorch模型具有.pth扩展名，首先转换为ONNX是最好的方法。转换到ONNX后，可以直接加载，因为OpenCV DNN支持ONNX型号。

Darknet
OpenCV DNN模块也支持著名的Darknet框架。如果他们在Darknet框架中使用了官方的YOLO模型，你就会意识到这一点。
通常，为了加载Darknet模型，我们需要一个扩展名为.weights的模型权重文件。对于Darknet模型，网络配置文件总是一个.cfg文件。

使用从Keras和PyTorch等不同框架转换为ONNX格式的模型
通常，在PyTorch或TensorFlow等框架中训练过的模型可能无法直接与OpenCV DNN模块一起使用。在这些情况下，我们通常将模型转换为ONNX格式(Open Neural Network Exchange)，然后可以按原样使用，甚至转换为TensorFlow或PyTorch等其他框架支持的格式。

要加载ONNX模型，我们只需要支持OpenCV DNN模块的. ONNX权重文件。
请访问官方OpenCV文档，了解不同框架、它们的权重文件和配置文件。

很可能，上面的列表涵盖了所有著名的深度学习框架。要获得OpenCV DNN模块支持的所有框架和模型，请访问官方Wiki页面。

我们在这里的所有模型都经过测试，可以完美地与OpenCV DNN模块一起工作。理论上，上述框架中的任何一个模型都可以与DNN模块适配。我们只需要找到正确的权重文件和相应的神经网络架构文件。当我们开始本教程的编码部分时，事情会变得更清楚。

使用OpenCV DNN模块进行图像分类的完整指南

在本节中，我们将使用OpenCV DNN模块对图像进行分类。我们将详细介绍每个步骤，以便在本节结束时清楚地了解所有内容。

我们将使用使用Caffe框架在非常著名的ImageNet数据集上训练的神经网络模型。具体来说，我们将使用DensNet121深度神经网络模型进行分类任务。它的优点是它对来自ImageNet数据集的1000个类进行了预训练。我们可以猜测，我们想要分类的图像将已经被模型训练过。这使得我们可以从广泛的图像中进行选择。

我们将使用下面的老虎图像进行图像分类任务。

简单地说，下面是我们在对图像进行分类时要遵循的步骤。

加载类名文件并提取所需的标签。
加载预训练的神经网络模型。
加载图像，并转换为适合深度学习模型输入的格式。
将输入图像通过模型向前传播，得到输出

现在让我们详细查看每个步骤和代码。

导入模块和加载类文件
我们需要为Python代码导入OpenCV和Numpy模块。对于c++，我们需要包含OpenCV和OpenCV的DNN库。

源码地址：https://github.com/yuanxinshui/DeepLearnCV/tree/main/Deep-Learning-with-OpenCV-DNN-Module

Python:

import cv2
import numpy as np

C++

#include 
#include 
#include 
#include 
#include 
 
using namespace std;
using namespace cv;
using namespace dnn;

记得我们讨论过，我们将使用的DenseNet121模型在ImageNet数据集中国训练过1000个类。我们需要一些方法来将这1000个类加载到内存中并方便地访问它们。这些类通常在文本文件中可用。其中一个文件叫做classification_classes_ILSVRC2012.txt文件，它包含以下格式的所有类名。

tench, Tinca tinca
goldfish, Carassius auratus
great white shark, white shark, man-eater, man-eating shark, Carcharodon carcharias
tiger shark, Galeocerdo cuvieri
hammerhead, hammerhead shark

每一行包含单个图像的所有标签或类名。例如，第一行包含tench, Tinca Tinca。这两个名字属于同一种鱼。同样，第二行有两个金鱼的名字。一般来说，第一个名字是几乎所有人都认识的最常见的名字。

让我们看看如何加载这样一个文本文件，并从每行中提取第一个名字，以便在对图像进行分类时将它们用作标签。

Python:

# read the ImageNet class names
with open('../../input/classification_classes_ILSVRC2012.txt', 'r') as f:
   image_net_names = f.read().split('\n')
# final class names (just the first word of the many ImageNet names for one image)
class_names = [name.split(',')[0] for name in image_net_names]

C++

std::vector class_names;
   ifstream ifs(string("../../input/classification_classes_ILSVRC2012.txt").c_str());
   string line;
   while (getline(ifs, line))
   {
       class_names.push_back(line);
   }

首先，打开并读取类名文件，并将所有类以以下格式存储在image_net_names列表中。

[‘tench, Tinca tinca’, ‘goldfish, Carassius auratus’, ‘great white shark, white shark, man-eater, man-eating shark’, ...]

但是，我们只需要每一行的第一个名字。这就是第二行代码所做的。对于image_net_names列表中的每个元素，我们使用逗号(，)作为分隔符分隔元素，并且只保留第一个元素。这些名称保存在class_names列表中。现在，列表看起来如下所示。

['tench', 'goldfish', 'great white shark', 'tiger shark', 'hammerhead', …]

加载预训练的DenseNet121模型
如前所述，我们将使用经过Caffe深度学习框架训练的DenseNet121模型。

我们需要模型权重文件(.caffemodel)和模型配置文件(.prototxt)。
让我们看看代码，然后进入模型加载的解释部分。

Python:

# load the neural network model
model = cv2.dnn.readNet(model='../../input/DenseNet_121.caffemodel', config='../../input/DenseNet_121.prototxt', framework='Caffe')

C++

// load the neural network model
   auto model = readNet("../../input/DenseNet_121.prototxt",
                       "../../input/DenseNet_121.caffemodel",
                       "Caffe");

您可以看到，我们正在使用OpenCV DNN模块的一个名为readNet()的函数，该函数接受三个输入参数。

model:这是预训练权重文件的路径。在我们的例子中，它是预先训练的Caffe模型。
config:这是模型配置文件的路径，在本例中是Caffe模型的.prototxt文件。
framework:最后，我们需要提供要从其中加载模型的框架名称。对我们来说，它是Caffe框架。

除了readNet()函数之外，DNN模块还提供了从特定框架加载模型的函数，在这些框架中我们不需要提供框架参数。下面是这些函数。

readNetFromCaffe():用于加载预训练的Caffe模型并接受两个参数。它们是prototxt文件的路径和Caffe模型文件的路径。
readNetFromTensorflow():我们可以使用这个函数直接加载预训练的TensorFlow模型。它还接受两个参数。一个是到冻结模型图的路径，另一个是到模型体系结构protobuf文本文件的路径。
readNetFromTorch():我们可以使用它来加载使用Torch .save()函数保存的Torch和PyTorch模型。我们需要提供模型路径作为参数。
readNetFromDarknet():这用于加载使用DarkNet框架训练的模型。我们还需要提供两个参数。一个是模型权重的路径，另一个是模型配置文件的路径。
readNetFromONNX():我们可以使用它来加载ONNX模型，我们只需要提供ONNX模型文件的路径。

读取图像并为模型输入做好准备
我们将像往常一样，使用OpenCV的imread()函数从磁盘中读取图像。注意，我们还需要处理一些其他细节。我们使用DNN模块加载的预训练模型并不直接将读取的图像作为输入。在那之前我们需要做一些预处理。

Python:

# load the image from disk
image = cv2.imread('../../input/image_1.jpg')
# create blob from image
blob = cv2.dnn.blobFromImage(image=image, scalefactor=0.01, size=(224, 224), mean=(104, 117, 123))

C++

// load the image from disk
Mat image = imread("../../input/image_1.jpg");
// create blob from image
Mat blob = blobFromImage(image, 0.01, Size(224, 224), Scalar(104, 117, 123));

在读取图片时，我们假设它位于当前目录之前的两个目录中，并且位于输入文件夹中。接下来的几个步骤至关重要。我们有一个blobFromImage()函数，用来将图像转换为合适的格式正输入模型。让我们看一下所有的参数，并详细学习一下。

image:这是我们刚才用imread()函数读取的输入图像。
scalefactor:根据这个值缩放图像。它的默认值为1，这意味着不执行缩放。
size:这是图像将被调整到的大小。我们提供了224×224的大小，因为大多数在ImageNet数据集上训练的分类模型都时这个大小。
mean: mean这个变量非常重要。这些实际上是从图像的RGB颜色通道中减去的平均值，归一化输入。

这里还有一件事需要注意。所有的深度学习模型都需要批量输入。然而，我们这里只有一张图像。然而，我们在这里得到的blob输出实际上是[1,3,224,224]的形状。注意，blobFromImage()函数已经添加了一个额外的批处理维度。这将是神经网络模型的最终和正确的输入格式。

模型前向传播
Python

# set the input blob for the neural network
model.setInput(blob)
# forward pass image blog through the model
outputs = model.forward()

输出是一个数组，包含所有的预测。但是在我们能够正确地看到输出和类标签之前，我们需要完成几个预处理步骤

目前，输出的形状为(1,1000,1,1)，很难提取类标签。因此，下面的代码块重塑了输出，在此之后，我们可以轻松地获得正确的类标签并将标签ID映射到类名。

Python:

final_outputs = outputs[0]
# make all the outputs 1D
final_outputs = final_outputs.reshape(1000, 1)
# get the class label
label_id = np.argmax(final_outputs)
# convert the output scores to softmax probabilities
probs = np.exp(final_outputs) / np.sum(np.exp(final_outputs))
# get the final highest probability
final_prob = np.max(probs) * 100.
# map the max confidence to the class label names
out_name = class_names[label_id]
out_text = f"{out_name}, {final_prob:.3f}"
# put the class name text on top of the image
cv2.putText(image, out_text, (25, 50), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
cv2.imshow('Image', image)
cv2.waitKey(0)
cv2.imwrite('result_image.jpg', image)

C++

// set the input blob for the neural network
model.setInput(blob);
// forward pass the image blob through the model
Mat outputs = model.forward(); 
Point classIdPoint;
double final_prob;
minMaxLoc(outputs.reshape(1, 1), 0, &final_prob, 0, &classIdPoint);
int label_id = classIdPoint.x; 
// Print predicted class.
string out_text = format("%s, %.3f", (class_names[label_id].c_str()), final_prob);
// put the class name text on top of the image
putText(image, out_text, Point(25, 50), FONT_HERSHEY_SIMPLEX, 1, Scalar(0, 255, 0), 2);
imshow("Image", image);
imwrite("result_image.jpg", image);

CMakelists

以下两个CMakeLists.txt都可以用来编译

cmake_minimum_required(VERSION 3.0.0)    #设置cmake最小版本,可以在终端通过cmake --version查看
project(classify VERSION 0.1.0)         # 项目名  版本号

include(CTest)
enable_testing()

set(OpenCV_DIR /home/SMCV/einrj/imgproc/opencv-4.4.0/build) # 设置Opencv目录                           
find_package(OpenCV REQUIRED)
find_package(Threads REQUIRED)

add_executable(classify detect_img.cpp)

set(CPACK_PROJECT_NAME ${PROJECT_NAME})
set(CPACK_PROJECT_VERSION ${PROJECT_VERSION})
include(CPack)

set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX__STANDARD_REQUIRED ON)

include_directories(${OpenCV_INCLUDE_DIRS})
target_link_libraries(classify ${OpenCV_LIBS} ${CMAKE_THREAD_LIBS_INIT})

或者

c# cmake needs this line
cmake_minimum_required(VERSION 3.1)

# Define project name
project(opencv_detect_project)
set(OpenCV_DIR /home/SMCV/einrj/imgproc/opencv-4.4.0/build)
# Find OpenCV, you may need to set OpenCV_DIR variable
# to the absolute path to the directory containing OpenCVConfig.cmake file
# via the command line or GUI
find_package(OpenCV REQUIRED)

# If the package has been found, several variables will
# be set, you can find the full list with descriptions
# in the OpenCVConfig.cmake file.
# Print some message showing some of them
message(STATUS "OpenCV library status:")
message(STATUS "    config: ${OpenCV_DIR}")
message(STATUS "    version: ${OpenCV_VERSION}")
message(STATUS "    libraries: ${OpenCV_LIBS}")
message(STATUS "    include path: ${OpenCV_INCLUDE_DIRS}")

# Declare the executable target built from your sources
add_executable(opencv_detect_vid detect_img.cpp)

# Link your application with OpenCV libraries
target_link_libraries(opencv_detect_vid PRIVATE ${OpenCV_LIBS})

执行编译

cmake .
make

在我们对输出进行reshape之后，它的形状为(1000,1)，这表明它有1000行对应于1000个标签。每一行保存与类标签对应的分数，如下所示。

[[-1.44623446e+00]
[-6.37421310e-01]
 [-1.04836571e+00]
 [-8.40160131e-01]
…
]

在上面的Python代码中，我们使用 $np.exp(final_{outputs}) / np.sum(np.exp(final_{outputs}))$ 将分数转换为softmax概率。然后我们将概率最高的分数与100相乘，得到预测的分数百分比。

在执行代码之后，我们将得到以下输出：

DenseNet121模型准确地预测出了老虎的图像，准确率也高达91%。

在上面的章节中，我们看到了如何使用OpenCV DNN模块使用DenseNet121神经网络模型进行图像分类。为了更好地理解DNN模块的工作原理，我们也详细地介绍了每一个步骤。

接下来我们将使用OpenCV DNN在图像和视频中进行目标检测。

基于OpenCV DNN的目标检测

使用OpenCV DNN模块，我们可以很容易上手目标检测任务。像分类一样，我们将加载图像、选择适当的模型，并根据输入进行前向推理。在目标检测中预处理步骤将会有一点不同。我们将在接下来的博文中讨论所有这些问题。

基于OpenCV DNN的图像目标检测

就像分类一样，这里我们也会利用预先训练的模型。这些模型在MS COCO数据集上进行了训练，MS COCO数据集是目前基于深度学习的目标检测模型的benhmarkc数据集。

MS COCO几乎有80类物品，从人到汽车，再到牙刷。该数据集包含80类日常对象。我们还将使用一个文本文件来加载MS COCO数据集中的所有标签，以进行对象检测

对于目标检测，我们将使用以下图像

我们将使用MobileNet SSD (Single Shot Detector)，它已经在MS COCO数据集上使用TensorFlow深度学习框架进行了训练。SSD模型通常比其他对象检测模型更快。此外，MobileNet骨干网也更加轻量化。因此MobileNet SSD是一个好的模型去学习目标检测。

让我们从编码部分开始。

Python

import cv2
import numpy as np

C++

#include 
#include 
#include 
#include 
#include 
 
using namespace std;
using namespace cv;
using namespace dnn;

Python

# load the COCO class names
with open('object_detection_classes_coco.txt', 'r') as f:
   class_names = f.read().split('\n')
 
# get a different color array for each of the classes
COLORS = np.random.uniform(0, 255, size=(len(class_names), 3))

C++

std::vector class_names;
   ifstream ifs(string("../../../input/object_detection_classes_coco.txt").c_str());
string line;
while (getline(ifs, line))
{
    class_names.push_back(line);
}

接下来我们读取object_detection_classes_coco.txt文件，我们将每个类名存储在class_names列表中。

class_names列表类似如下所示

['person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck', 'boat', 'traffic light', … 'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush', '']

加载MobileNet SSD模型并输入

我们将使用readNet()函数加载MobileNet SSD模型，我们在前面也使用过该函数。
Python

# load the DNN model
model = cv2.dnn.readNet(model='frozen_inference_graph.pb',                config='ssd_mobilenet_v2_coco_2018_03_29.pbtxt.txt',framework='TensorFlow')

C++

// load the neural network model
auto model = readNet("../../../input/frozen_inference_graph.pb",
"../../../input/ssd_mobilenet_v2_coco_2018_03_29.pbtxt.txt", "TensorFlow");

接下来，我们将从磁盘读取图像并准备输入blob文件。
Python

# read the image from disk
image = cv2.imread('../../input/image_2.jpg')
image_height, image_width, _ = image.shape
# create blob from image
blob = cv2.dnn.blobFromImage(image=image, size=(300, 300), mean=(104, 117, 123), swapRB=True)
# set the blob to the model
model.setInput(blob)
# forward pass through the model to carry out the detection
output = model.forward()

C++

// read the image from disk
Mat image = imread("../../../input/image_2.jpg");
int image_height = image.cols;
int image_width = image.rows;
//create blob from image
Mat blob = blobFromImage(image, 1.0, Size(300, 300), Scalar(127.5, 127.5, 127.5),true, false);
//create blob from image
model.setInput(blob);
//forward pass through the model to carry out the detection
Mat output = model.forward();
Mat detectionMat(output.size[2], output.size[3], CV_32F, output.ptr());

对于目标检测，我们在blobFromImage()函数中使用了一个稍微不同的参数值。

我们将大小指定为300×300，因为这是SSD模型在几乎所有框架中通常期望的输入大小。对于TensorFlow也是一样的。
这次我们还使用了swapRB参数。通常，OpenCV以BGR格式读取图像，而对于目标检测，模型通常期望输入为RGB格式。因此，swapRB参数将交换图像的R和B通道，使其成为RGB格式。

我们的输出结构如下

[[[[0.00000000e+00 1.00000000e+00 9.72869813e-01 2.06566155e-02 1.11088693e-01 2.40461200e-01 7.53399074e-01]]]]

在这里，索引位置1包含了从1到80的类标签。
索引位置2为confidence得分。这不是一个概率分数，而是模型对属于它检测到的类的对象的信心。
在最后四个值中，前两个是x, y边界框坐标，最后两个分别是边界框的宽度和高度。

循环检测并绘制边界框

Python

# loop over each of the detection
for detection in output[0, 0, :, :]:
   # extract the confidence of the detection
   confidence = detection[2]
   # draw bounding boxes only if the detection confidence is above...
   # ... a certain threshold, else skip
   if confidence > .4:
       # get the class id
       class_id = detection[1]
       # map the class id to the class
       class_name = class_names[int(class_id)-1]
       color = COLORS[int(class_id)]
       # get the bounding box coordinates
       box_x = detection[3] * image_width
       box_y = detection[4] * image_height
       # get the bounding box width and height
       box_width = detection[5] * image_width
       box_height = detection[6] * image_height
       # draw a rectangle around each detected object
       cv2.rectangle(image, (int(box_x), int(box_y)), (int(box_width), int(box_height)), color, thickness=2)
       # put the FPS text on top of the frame
       cv2.putText(image, class_name, (int(box_x), int(box_y - 5)), cv2.FONT_HERSHEY_SIMPLEX, 1, color, 2)
 
cv2.imshow('image', image)
cv2.imwrite('image_result.jpg', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

C++

for (int i = 0; i < detectionMat.rows; i++){
       int class_id = detectionMat.at(i, 1);
       float confidence = detectionMat.at(i, 2);
      
       // Check if the detection is of good quality
       if (confidence > 0.4){
           int box_x = static_cast(detectionMat.at(i, 3) * image.cols);
           int box_y = static_cast(detectionMat.at(i, 4) * image.rows);
           int box_width = static_cast(detectionMat.at(i, 5) * image.cols - box_x);
           int box_height = static_cast(detectionMat.at(i, 6) * image.rows - box_y);
           rectangle(image, Point(box_x, box_y), Point(box_x+box_width, box_y+box_height), Scalar(255,255,255), 2);
           putText(image, class_names[class_id-1].c_str(), Point(box_x, box_y-5), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0,255,255), 1);
       }
   }   
 
   imshow("image", image);
   imwrite("image_result.jpg", image);
   waitKey(0);
   destroyAllWindows();

在for循环中，首先，我们提取当前检测到的对象的可信度得分。如前所述，我们可以从索引位置2得到它。
然后我们使用if块来检查被检测对象的置信度是否高于某个阈值。我们只是在绘制信心值高于0.4的边界框。
我们获得类ID并将其映射到MS COCO类名。然后我们为当前类获得一个单一的颜色来绘制边界框，并将类标签文本放在边界框的顶部。
然后我们提取边界框的x和y坐标

这是我们使用OpenCV DNN在图像中进行目标检测所需的所有代码。执行该代码将得到以下结果。

在上图中，我们可以看到效果似乎不错。该模型正在检测几乎所有可见的物体。然而，也有一些不正确的预测。例如，MobileNet SSD模型将右侧自行车检测为的摩托车。MobileNet ssd往往会犯这样的错误，因为它们在实时应用程序中会犯这样的错误，以准确性换取速度。

基于OpenCV DNN的视频目标检测

视频中对象检测的代码将非常类似于图像。会有一些变化，因为我们将在视频帧而不是图像上进行预测。

这几行代码完全类似于图像中的目标检测。让我们先完成这一部分。

Python

import cv2
import time
import numpy as np
 
# load the COCO class names
with open('object_detection_classes_coco.txt', 'r') as f:
   class_names = f.read().split('\n')
 
# get a different color array for each of the classes
COLORS = np.random.uniform(0, 255, size=(len(class_names), 3))
 
# load the DNN model
model = cv2.dnn.readNet(model='frozen_inference_graph.pb',                       config='ssd_mobilenet_v2_coco_2018_03_29.pbtxt.txt',framework='TensorFlow')
 
# capture the video
cap = cv2.VideoCapture('../../input/video_1.mp4')
# get the video frames' width and height for proper saving of videos
frame_width = int(cap.get(3))
frame_height = int(cap.get(4))
# create the `VideoWriter()` object
out = cv2.VideoWriter('video_result.mp4', cv2.VideoWriter_fourcc(*'mp4v'), 30, (frame_width, frame_height))

C++

#include 
#include 
#include 
#include 
#include 
 
using namespace std;
using namespace cv;
using namespace dnn;
 
 
int main(int, char**) {
   std::vector<std::string> class_names;
   ifstream ifs(string("../../../input/object_detection_classes_coco.txt").c_str());
   string line;
   while (getline(ifs, line))
   {
       class_names.push_back(line);
   } 
  
   // load the neural network model
   auto model = readNet("../../../input/frozen_inference_graph.pb",
"../../../input/ssd_mobilenet_v2_coco_2018_03_29.pbtxt.txt","TensorFlow");
 
   // capture the video
   VideoCapture cap("../../../input/video_1.mp4");
   // get the video frames' width and height for proper saving of videos
   int frame_width = static_cast<int>(cap.get(3));
   int frame_height = static_cast<int>(cap.get(4));
   // create the `VideoWriter()` object
   VideoWriter out("video_result.avi", VideoWriter::fourcc('M', 'J', 'P', 'G'), 30, Size(frame_width, frame_height));

我们可以看到大部分代码是相同的。我们正在加载相同的MS COCO类文件和相同的MobileNet SSD模型。

这里，我们使用videcapture()对象捕捉视频，而不是图像。我们还创建了一个VideoWriter()对象，用于正确保存生成的视频帧。

在视频中循环检测每帧对象

到目前为止，我们已经准备好了视频和MobileNet SSD模型。下一步是循环播放每一帧视频，并在每一帧中进行目标检测。这样，我们将把每一帧都看作是一幅图像。

Python

# detect objects in each frame of the video
while cap.isOpened():
   ret, frame = cap.read()
   if ret:
       image = frame
       image_height, image_width, _ = image.shape
       # create blob from image
       blob = cv2.dnn.blobFromImage(image=image, size=(300, 300), mean=(104, 117, 123), swapRB=True)
       # start time to calculate FPS
       start = time.time()
       model.setInput(blob)
       output = model.forward()       
       # end time after detection
       end = time.time()
       # calculate the FPS for current frame detection
       fps = 1 / (end-start)
       # loop over each of the detections
       for detection in output[0, 0, :, :]:
           # extract the confidence of the detection
           confidence = detection[2]
           # draw bounding boxes only if the detection confidence is above...
           # ... a certain threshold, else skip
           if confidence > .4:
               # get the class id
               class_id = detection[1]
               # map the class id to the class
               class_name = class_names[int(class_id)-1]
               color = COLORS[int(class_id)]
               # get the bounding box coordinates
               box_x = detection[3] * image_width
               box_y = detection[4] * image_height
               # get the bounding box width and height
               box_width = detection[5] * image_width
               box_height = detection[6] * image_height
               # draw a rectangle around each detected object
               cv2.rectangle(image, (int(box_x), int(box_y)), (int(box_width), int(box_height)), color, thickness=2)
               # put the class name text on the detected object
               cv2.putText(image, class_name, (int(box_x), int(box_y - 5)), cv2.FONT_HERSHEY_SIMPLEX, 1, color, 2)
               # put the FPS text on top of the frame
               cv2.putText(image, f"{fps:.2f} FPS", (20, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
      
       cv2.imshow('image', image)
       out.write(image)
       if cv2.waitKey(10) & 0xFF == ord('q'):
           break
   else:
       break
 
cap.release()
cv2.destroyAllWindows()

C++

while (cap.isOpened()) {
       Mat image;
       bool isSuccess = cap.read(image);
       if (! isSucess) break;
      
       int image_height = image.cols;
       int image_width = image.rows;
       //create blob from image
       Mat blob = blobFromImage(image, 1.0, Size(300, 300), Scalar(127.5, 127.5, 127.5),
                               true, false);
       //create blob from image
       model.setInput(blob);
       //forward pass through the model to carry out the detection
       Mat output = model.forward();
      
       Mat detectionMat(output.size[2], output.size[3], CV_32F, output.ptr<float>());
      
       for (int i = 0; i < detectionMat.rows; i++){
           int class_id = detectionMat.at<float>(i, 1);
           float confidence = detectionMat.at<float>(i, 2);
 
           // Check if the detection is of good quality
           if (confidence > 0.4){
               int box_x = static_cast<int>(detectionMat.at<float>(i, 3) * image.cols);
               int box_y = static_cast<int>(detectionMat.at<float>(i, 4) * image.rows);
               int box_width = static_cast<int>(detectionMat.at<float>(i, 5) * image.cols - box_x);
               int box_height = static_cast<int>(detectionMat.at<float>(i, 6) * image.rows - box_y);
               rectangle(image, Point(box_x, box_y), Point(box_x+box_width, box_y+box_height), Scalar(255,255,255), 2);
               putText(image, class_names[class_id-1].c_str(), Point(box_x, box_y-5), FONT_HERSHEY_SIMPLEX, 0.5, Scalar(0,255,255), 1);
           }
       }
      
       imshow("image", image);
       out.write(image);
       int k = waitKey(10);
       if (k == 113){
           break;
       }
   }
 
cap.release();
destroyAllWindows();
}

在上面的代码块中，模型检测每一帧中的对象，直到视频中没有需要循环的帧。需要注意的一些重要事项:

我们将检测前的开始时间存储在start变量中，检测结束后的结束时间存储在end变量中。
以上的时间变量帮助我们计算FPS(每秒帧数)。我们计算FPS并将其存储在FPS中。
在代码的最后一部分，我们还将在当前帧的基础上编写计算出的FPS，以了解在运行MobileNet SSD模型时我们可以期望的速度
最后，我们将每一帧在屏幕上进行可视化并将它们保存到磁盘。

执行上述代码将得到以下输出。

在GPU上推理

我们也可以在GPU上运行所有的分类和检测推理。为此，我们需要用从源代码编译OpenCV DNN模块。

如果你在Ubuntu上，请访问LearnOpenCV.com的这篇文章，来编译带GPU 的OpenCV。
如果在windows上，访问此链接来编译带GPU 的OpenCV。

为了在GPU上运行推断，我们需要对c++和Python代码做一个简单的更改。

Python:

net.setPreferableBackend(cv2.dnn.DNN_BACKEND_CUDA)
net.setPreferableTarget(cv2.dnn.DNN_TARGET_CUDA)

C++:

net.setPreferableBackend(DNN_BACKEND_CUDA);
net.setPreferableTarget(DNN_TARGET_CUDA);

加载神经网络模型后添加上述两行代码。第一行代码确保如果DNN模块支持CUDA GPU模型来进行神经网络将的反向传播。

第二行代码告诉我们所有的神经网络计算都将发生在GPU上，而不是CPU上。使用CUDA支持的GPU，我们在目标检测视频推断方面应该比CPU获得更高的FPS。即使是图像，推理时间也应该比CPU低很多。

总结

神经网络和深度学习已经达到了计算机能够理解和识别高精度物体的阶段。有时，它们甚至在某些用例中超过人类。
OpenCV款模块:

是模型推理的首选，尤其是在Intel cpu上。
安装方便。
提供现成的，随时可以使用适合大多数用例的模型和算法。
虽然DNN模块不具备训练功能，但仍然对边缘设备具有强大的部署支持。

参考

https://learnopencv.com/deep-learning-with-opencvs-dnn-module-a-definitive-guide/

你可能感兴趣的:(opencv,深度学习,深度学习,opencv,计算机视觉)

FakeApp 技术浅析（一）爱研究的小牛 AIGC—深度伪造虚拟现实人工智能 AIGC 深度学习机器学习
FakeApp是一款早期的深度伪造（Deepfake）工具，最初于2018年发布，用于生成和编辑换脸视频。尽管FakeApp已经不再更新，但它在深度伪造技术的发展中起到了重要作用。1.技术背景与理论基础1.1生成对抗网络（GANs）生成对抗网络（GANs）是深度学习领域中的一种重要模型，由生成器（Generator）和判别器（Discriminator）组成。生成器负责生成逼真的数据（如图像、视频
DeepSeek 赋能工业软件之全流程方案爱吃青菜的大力水手人工智能自动化持续部署语言模型开源
deepseek赋能工业软件之全流程方案之侧重半导体FABdeepseek在工业软件中的应用场景“deepseek”大模型在工业软件领域拥有广泛的应用场景，包括以下几个方面：智能调度：利用深度学习和优化算法，根据实时数据动态调整生产计划和资源分配。它可以综合考虑订单需求、设备状态和产能限制，智能生成最优的生产排程方案，减少等待时间和切换成本。例如在汽车制造工厂，deepseek可根据订单需求和设备
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【干货】视频文件抽帧（opencv和ffmpeg方式对比） zkFun 超硬干货 Python opencv ffmpeg 人工智能
1废话不多说，直接上代码opencv方式importtimeimportsubprocessimportcv2,osfrommathimportceildefextract_frames_opencv(video_path,output_folder,frame_rate=1):"""使用OpenCV从视频中抽取每秒指定帧数的帧,并保存到指定文件夹。如果视频长度不是整数秒,则会在最后一帧时补充空白
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
大模型如何改变教育？典型应用场景的探究与展望！ AGI大模型学习大模型应用人工智能 AI产品经理 llama 大模型 AI 大模型教程
目前，大模型在教育领域的应用主要体现在个性化学习助手、智能问答系统、内容生成与创作辅助、智能写作评估、跨语言学习支持、数学解题辅助等几个方面。大模型技术在教育领域凭借卓越的数据处理能力和深度学习技术，极大推动了教育质量的提升与教育公平的实现。分级分类的教育数据助力大模型发展在构建与优化大模型的过程中，教育数据能够帮助我们更精准地理解教育现象，更有质量地辅助教学。教育数据涵盖广泛，包括但不限于学生的
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式 IT修炼家大模型部署大模型 auto-gptq cuda
目录1、auto-gptq是什么？2、auto-gptq安装3、auto-gptq不正确安装可能会出现的问题（1）爆出：`CUDAextensionnotinstalled.`（2）没有报错但是推理速度超级慢1、auto-gptq是什么？Auto-GPTQ是一种专注于量化深度学习模型的工具库。它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复
【deepseek与chatGPT辩论】辩论题： “人工智能是否应当具备自主决策能力？” 海宁不掉头发软件工程人工智能人工智能 chatgpt deepseek
探讨辩论题这个提案涉及创建一个精确的辩论题目，旨在测试deepseek的应答能力。创建辩论题目提议设计一个辩论题目以测试deepseek的应答能力。希望这个题目具有挑战性并能够测量其回应质量。好的，来一道适合深度学习的辩论题：辩论题：“人工智能是否应当具备自主决策能力？”这个话题涉及到人工智能的发展、伦理以及未来应用，可以从以下几个方面展开辩论：支持方：认为人工智能的自主决策能力能够加速科技进步，
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
深度应用场景：DeepSeek —— 探索AI赋能的智慧未来人工智能专属驿站人工智能
深度应用场景：DeepSeek——探索AI赋能的智慧未来随着人工智能的迅猛发展，数据的价值已不再局限于简单的存储与处理，它们正变得更加智能与高效。DeepSeek，这一创新的AI技术平台，正以其独特的深度学习能力，开启了各行各业的智能化变革。让我们走进一个由DeepSeek打造的深度应用场景，探索它如何推动未来的发展。1.智能医疗：精准诊断，拯救生命想象一下，医生们不再是唯一的诊断专家，而是与AI
使用BLIP模型生成图像描述的可查询索引 dgay_hua python 计算机视觉开发语言
在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。使用示例代码进行演示，帮助读者理解和实践。技术背景介绍随着计算机视觉技术的发展，图像描述生成成为了重要的研究领域。通过对图像内容自动生成文字描述，可以大大提高对图像信息的检索和管理效率。Salesfo
卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别知识鱼丸深度学习神经网络 cnn 人工智能深度学习 AlexNet 经典神经网络
深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。先看原理：AlexNet网络特点采用ReLU激活函数，使训练速度提升6倍采用dropout层，防止模型过拟合通过平移和翻转的方式对数据进行增强采用LRN局部响应归一化，限制数据大小，防止梯度消失和爆炸。但后续证明批
用 TensorFlow 搭建简单的手写数字识别模型 lozhyf 工作面试学习 tensorflow 人工智能 python
一、引言手写数字识别是机器学习领域中一个经典且基础的问题，它在很多实际场景中都有广泛的应用，比如邮政系统中的邮件分拣、银行支票金额识别等。TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
yolov8人脸识别与脸部关键点检测（代码+原理） QQ_1309399183 计算机视觉实战项目集锦 YOLO 人工智能人脸识别 yolo人脸检测
YOLOv8脸部识别是一个基于YOLOv8算法的人脸检测项目，旨在实现快速、准确地检测图像和视频中的人脸。该项目是对YOLOv8算法的扩展和优化，专门用于人脸检测任务。YOLOv8是一种基于深度学习的目标检测算法，通过将目标检测问题转化为一个回归问题，可以实现实时的目标检测。YOLOv8Face项目在YOLOv8的基础上进行了改进，使其更加适用于人脸检测。以下是YOLOv8Face项目的一些特点和
探索Vearch：高效的深度学习向量相似度搜索系统 scaFHIO 深度学习人工智能 python
Vearch是一个可扩展的分布式系统，用于高效搜索深度学习向量的相似度。在本文中，我们将介绍Vearch的技术背景及其核心原理，演示如何使用VearchPythonSDK进行安装和设置，并分析一些实际应用场景，最后提供一些实战建议。技术背景介绍随着深度学习技术的发展，向量相似度搜索在各类应用中变得越来越重要。从图像识别、推荐系统到自然语言处理，向量搜索可以极大地提升系统的性能。然而，随着数据量的增
华为的云端训练算力与迭代效率 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
华为云、云端训练、算力、迭代效率、人工智能、深度学习、模型训练、分布式训练、优化算法1.背景介绍人工智能（AI）技术近年来发展迅速，深度学习作为其核心驱动力，在图像识别、自然语言处理、语音识别等领域取得了突破性进展。然而，深度学习模型的训练需要海量数据和强大的计算资源，这成为AI技术发展面临的瓶颈之一。云计算作为一种新型的计算模式，为深度学习提供了强大的算力支持。华为云作为国内领先的云计算平台，在
AI外呼机器人：营销新利器还是骚扰电话的升级版？ yoloGina 客户管理外呼系统电话外呼人工智能机器人
"您好，这里是XX房产，最近有购房需求吗？""您好，您最近有种牙需求吗？"相信很多人都接到过类似的营销电话，而电话那头，很可能已经不是真人，而是AI外呼机器人。近年来，AI外呼系统凭借其高效率、低成本的优势，迅速在电销行业普及，成为企业营销的"新宠"。据统计，2022年中国AI外呼市场规模已达50亿元，预计2025年将突破100亿元。AI外呼系统的核心技术是语音识别和自然语言处理。通过深度学习海量
查看opencv版本信息 zhanghui9020
在VS2010中编写控制台C++程序：#include#include"cv.h"usingnamespacestd;main(){cout<<CV_VERSION;}运行即可打印安装的opencv的版本信息
深入浅出：CUDA是什么，如何利用它进行高效并行计算码上飞扬 CUDA
在当今这个数据驱动的时代，计算能力的需求日益增加，特别是在深度学习、科学计算和图像处理等领域。为了满足这些需求，NVIDIA推出了CUDA（ComputeUnifiedDeviceArchitecture），这是一种并行计算平台和编程模型。本文将带你全面了解CUDA的基本概念、工作原理及其应用场景。一、什么是CUDA？CUDA（ComputeUnifiedDeviceArchitecture）是由
【深度学习】学习率调度策略黑白交界深度学习学习深度学习
什么是学习率可以理解为模型在每一次迭代中的模型更新调整的幅度，“学习”新信息的速度。学习率定义了模型权重（参数）在梯度下降或其他优化算法中的更新步伐。较大的学习率意味着在每次参数更新时，模型会进行更大幅度的调整，而较小的学习率则意味着细致的、渐进的调整。适当的学习率可以帮助模型跳出局部最优解。当使用较大的学习率时，模型有可能跨越一些小的局部最优，从而找到全局最优解，但也有可能错过全局最优。因此，在
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
深度学习模型中的知识蒸馏是如何工作的? c++服务器开发深度学习人工智能
深度学习模型在多个领域，特别是计算机视觉和自然语言处理中，已经取得了革命性的进展。然而，随着模型复杂性和资源需求的不断攀升，如何将这些庞大模型的知识浓缩为更紧凑、更高效的形式，成为了当前研究的热点。知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。在本文中，我们将深入探究深度学习模型中知识蒸馏的概念、原理及其在各领域的应用，以期为读者提供一个全面而严谨的视角
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。