iflyBird@zhang

【深度学习入门】Paddle实现车辆检测和车辆类型识别（基于YOLOv3和ResNet18）

Paddle实现车辆检测和车辆类型识别（基于YOLOv3和ResNet18）

一. PaddleDetection 简介：
二. 配置环境并安装 Paddle：
三. 安装 PaddleDetetion：
四. 调试 YOLOv3 代码：
五. YOLO 系列算法详解：

YOLOv1：
YOLOv2：
YOLOv3：

六. 检测自己的数据：

测试图片：
测试视频：

七. 使用 X2Paddle 进行模型转换：
八. 总结：

今天我们使用 Paddle 开源的两个工具：PaddleDetection 和 X2Paddle 来进行一个车辆检测和类型识别的小demo~

源码地址：https://github.com/Sharpiless/yolov3-vehicle-detection-paddle

最终的检测效果如图：

一. PaddleDetection 简介：

源码地址：https://github.com/PaddlePaddle/PaddleDetection

官方文档：https://paddledetection.readthedocs.io/

PaddleDetection 创立的目的是为工业界和学术界提供丰富、易用的目标检测模型。不仅性能优越、易于部署，而且能够灵活的满足算法研究的需求。

简而言之就是，该工具使用百度开源的 Paddle 框架，集成了多种图像识别和目标检测框架，并且提供了相应的训练、推理和部署工具，使得用户可以自己 DIY 数据集和模型细节，实现深度学习落地应用的快速部署。

特点：

易部署：PaddleDetection的模型中使用的核心算子均通过C++或CUDA实现，同时基于PaddlePaddle的高性能推理引擎可以方便地部署在多种硬件平台上。
高灵活度：PaddleDetection通过模块化设计来解耦各个组件，基于配置文件可以轻松地搭建各种检测模型。
高性能：基于PaddlePaddle框架的高性能内核，在模型训练速度、显存占用上有一定的优势。例如，YOLOv3的训练速度快于其他框架，在Tesla V100 16GB环境下，Mask-RCNN(ResNet50)可以单卡Batch Size可以达到4 (甚至到5)。

支持的主流模型包括：

并且支持多种拓展特性：

该工具使得开发者只需修改相应的 yml 格式参数文件，即可一键 DIY 并训练自己的模型：

二. 配置环境并安装 Paddle：

(本机配置：1050Ti，CUDA10.0）

安装 anaconda：

创建 python 环境：

conda create -n paddle_env python=3.6

     
     
     
     
     
     
     
     
      
      
      
      1

激活环境：

conda activate paddle_env

     
     
     
     
     
     
     
     
      
      
      
      1

使用清华源安装依赖库（如opencv-python，matplotlib,Cython等）：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U 库名 --default-time=1000 --user

     
     
     
     
     
     
     
     
      
      
      
      1

安装 paddlepaddle：

python -m pip install paddlepaddle-gpu

     
     
     
     
     
     
     
     
      
      
      
      1

清华源安装也可以：

进入 python 环境并测试：

>>> import paddle.fluid as fluid
>>> fluid.install_check.run_check()

     
     
     
     
     
     
     
     
      
      
      
      1
      
      
      
      2

安装成功~

三. 安装 PaddleDetetion：

新建一个文件夹，在该目录激活环境：

克隆 PaddleDetection 模型库：

git clone https://github.com/PaddlePaddle/PaddleDetection.git

     
     
     
     
     
     
     
     
      
      
      
      1

再次安装依赖库：

pip install -r requirements.txt

     
     
     
     
     
     
     
     
      
      
      
      1

指定当前 Python 路径然后测试：

set PYTHONPATH=%PYTHONPATH%;.

     
     
     
     
     
     
     
     
      
      
      
      1

python ppdet/modeling/tests/test_architectures.py

     
     
     
     
     
     
     
     
      
      
      
      1

安装成功~

四. 调试 YOLOv3 代码：

安装 cocotools：

pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI

     
     
     
     
     
     
     
     
      
      
      
      1

下载模型的权重文件，地址：https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.2/docs/featured_model/CONTRIB_cn.md

解压到文件目录：

检测这里的几张图片：

python -u tools/infer.py -c contrib/VehicleDetection/vehicle_yolov3_darknet.yml \
                         -o weights=vehicle_yolov3_darknet \
                         --infer_dir contrib/VehicleDetection/demo \
                         --draw_threshold 0.2 \
                         --output_dir contrib/VehicleDetection/demo/output

     
     
     
     
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5

检测结果保存在 contrib\VehicleDetection\demo 目录下：

可以看到检测效果非常好~

五. YOLO 系列算法详解：

这一节我们讲一下上面车辆检测使用的算法原理。

这个我之前写过：

【论文阅读笔记】YOLO v1——You Only Look Once: Unified, Real-Time Object Detection：
https://blog.csdn.net/weixin_44936889/article/details/104384273

【论文阅读笔记】YOLO9000: Better, Faster, Stronger：
https://blog.csdn.net/weixin_44936889/article/details/104387529

【论文阅读笔记】YOLOv3: An Incremental Improvement：
https://blog.csdn.net/weixin_44936889/article/details/104390227

这里以车牌检测为例简单复述一下（图是自己画的hahhh，所以不是很好看的样子）：

YOLOv1：

论文地址：https://arxiv.org/pdf/1506.02640.pdf

YOLO算法采用一个单独的卷积神经网络实现了端到端的的目标检测[3]，其算法的基本流程为：首先将输入图片通过双线性插值的方法放缩到统一大小（文中使用448×448大小）并划分成互不重叠的网格，然后将放缩后的图像矩阵送入卷积神经网络提取高维语义特征，最后通过全连接层预测每个网格内存在目标的概率，并预测目标的坐标框位置。由于无需RPN网络提取感兴趣区域，所以YOLO的网络结构十分简洁，如图所示：

即YOLO的卷积神经网络（也称之为主干网络）将输入的图片分割成大小相同、互不重叠的单元格，然后每个单元格在卷积提取特征的过程中同时参与计算。提取特征后，每个单元格对应特整层上的特征向量通过全连接层负责去检测那些中心点落在该单元格内的目标，从而输出相应位置存在目标类别的概率和目标的预测坐标，如图所示：

YOLO将原图化分车7×7的49个单元格，主干网络依然采用了分类网络，但最后两层使用了全卷积层，最终输出一个 7×7×30 的特征层，其中每个特征点包含的特征向量代表了每个单元格的特征。这样对于每个区域的特征向量，YOLO分别使用全连接层输出预测，相应的预测值包括：

该区域可能包含的相应目标的个坐标框的4个预测坐标值（文中 B=2），分别为{x,y,w,h}，同时输出这B个预测框的置信度，选取置信度最高的那个预测框作为最终的结果；
该区域可能包含的目标的分类置信度，该置信度记为C，是一个长度为分类书的概率向量，使用softmax函数作为激活函数；

其置信度定义为：

IOU即相应物体预测框与真值框的交并比。因此每个区域生成30个预测值，最后全连接层的输出大小为S×S×30。这里使用B个预选框并生成置信度，是为了使得网络能够在同一个单元格内预测重叠目标，从而提高预测结果的容错率。增大B可以提高模型的鲁棒性，但相应的全连接层的计算复杂度也会大大提高。

此外，为了避免使用Relu函数激活而造成的特征丢失问题，作者在YOLO中将所有的Relu改为Leacky Relu激活：

最终的网络结构如图所示：

YOLOv2：

论文地址：

YOLO算法采用网格划分来检测不同区域的目标，但是由于网络结构较为简单，保证检测速度下精度还有很大的提升空间。因此作者在 YOLO 的基础上，使用了批量标准化来规范特征数据分布并加速收敛；使用高分辨率的图像作为分类器的输入，从而提高检测的精度；加入预选框的概念，提高小目标的检测精度。由此提出了一个更为高效的目标检测算法，称之为YOLO v2。并在此基础上，使用联合训练（Joint Training）算法，能够在有大量分类的图像识别数据集训练目标检测任务（只有分类的loss参与梯度下降），由此训练出的YOLO 9000能够识别和检测超过9000个物体类别。

Batch Normalization在Inception V2中提出的方法，用来替代ResNet使用的残差结构，防止梯度消失的问题。该算法将一个批次的特征值矩阵，通过简单的线性变换，转换为均值为0、方差为1的正太分布上，从而使网络中每一层的特征值大体分布一致。因此每层的梯度不会随着网络结构的加深发生太大变化，从而避免发生梯度爆炸或者梯度消失等问题。因此作者在YOLO中大量使用了Batch Normalization，使得相比原来的YOLO算法mAP上升了2%。计算过程为：
（1）计算数据的均值u；
（2）计算数据的方差σ^2；
（3）通过公式 x’=(x-u)/√(σ^2+ε)标准化数据；
（4）通过公式 y=γx’+β 进行缩放平移；

为了解决预测框对于小目标和重叠目标检测精度缺失的问题，作者不再使用YOLO采用网格分割+全连接预测坐标的方法，而是采用了跟SSD、 Faster-RCNN等相似的预选框的方法。

因此YOLOv2中移除了全连接层和最后一个下采样层，来最终得到一个较大的特整层。并且为了使图像最后的预测具有单中心网格，作者使用了416×416 大小作为输入，下采样参数为32，最后得到了一个 13×13大小的特征层；在使用Anchor Boxes之后，虽然mAP下降了0.3%，但是召回率从81%上升到了88%。

并且为了融合目标分类需要的高层语义特征和目标检测需要的低层轮廓特征，YOLOv2还设计了Pass Through层，即取出了最后一个池化层的特整层，（大小为 26×26×512），将每个2×2局部空间区域转换成通道特征，最后得到了一个13×13×4048的用于预测的特征层。

作者在训练时采用了 32 倍数的输入大小为，分别为：320,352,…,608，每 10 个 epoch 重新随机选取一个输入大小；

YOLOv3：

YOLOv3在网络结构上并没有太大改动，主要是将YOLOv2提出后目标检测领域提出的一些模型结构和训练技巧融合到了YOLO框架中。

作者首先在主干网络DarkNet-19的基础上加入了残差结构，使得它在 ImageNet上的表现跟ResNet-101相差无几，但是处理速度却快得多。

此外YOLOv3中，每个单元格对应使用了三个不同比率和大小的预选框，并且还构建了跟FPN目标检测算法相似的特征金字塔，利用不同大小、不同深度的特整层进行不同大小目标的预测。

在特征金字塔中，YOLOv3共选出了3个通过反卷积得到的特征层去检测不同大小的物体，这三个特征层大小分别为：13，26，52。特征金字塔使用卷积网络生成的金字塔型的特征层（左），生成一个融合了高度语义信息和低维特征信息的特征金字塔（右），再在这些特征金字塔的不同层上，使用不共享权重的不同卷积层预测目标的类别和检测框坐标：

六. 检测自己的数据：

这里我写了一个调用 PaddleDetection 车辆检测模型的程序，源码地址：https://github.com/Sharpiless/yolov3-vehicle-detection-paddle

点一个⭐然后下载解压：

这里我使用 VSCode，选择好配置的环境：

测试图片：

将图片路径修改为自己的路径即可：

运行 demo_img.py：

测试视频：

将图片视频修改为自己的路径即可：

七. 使用 X2Paddle 进行模型转换：

（下面只是演示一下如何使用X2Paddle进行模型转换，感兴趣的同学可以试一下）

看到这里有同学要问了，这个类型识别是如何实现的？

这里我们使用的是 torch 的开源车辆类型识别模型，并使用 X2Paddle 工具将其转换为 Paddle 模型；

X2Paddle 源码地址：https://github.com/PaddlePaddle/X2Paddle

深度学习的应用主要包括两个部分，一是通过深度学习框架训练出模型，二是利用训练出来的模型进行预测。

开发者基于不同的深度学习框架能够得到不同的训练模型，如果想要基于一种框架进行预测，就必须要解决不同框架的模型之间的匹配问题。基于这种考虑，也为了帮助用户快速从其他框架迁移，PaddlePaddle开源了模型转换工具X2Paddle。

它可以将TensorFlow、Caffe 的模型转换为PaddlePaddle的核心框架Paddle Fluid可加载的格式。同时X2Paddle还支持ONNX格式的模型转换，这样也相当于支持了众多可以转换为ONNX格式的框架，比如PyTorch、MXNet、CNTK等。

下载 torch 源码：

源码地址：https://github.com/Sharpiless/Paddle-Car-type-recognition

点⭐然后下载解压：

下载权重文件，放到 src 文件夹下面：

链接：https://pan.baidu.com/s/1fBwOr9PM9S7LmCgRddX0Gg

提取码：pv6e

首先运行 torch2onnx.py，将 pth 模型转换为 onnx 中间模型：

然后运行：

x2paddle --framework=onnx --model=classifier.onnx --save_dir=pd_model

     
     
     
     
     
     
     
     
      
      
      
      1

可以看到生成了相应的 Paddle 模型；

此时将 model.py 替换为：

from paddle.fluid.initializer import Constant
from paddle.fluid.param_attr import ParamAttr
import paddle.fluid as fluid

def x2paddle_net(inputs):
x2paddle_124 = fluid.layers.fill_constant(shape=[1], dtype=‘int32’, value=0)
x2paddle_193 = fluid.layers.fill_constant(shape=[1], dtype=‘int32’, value=512)
x2paddle_194 = fluid.layers.fill_constant(shape=[1], dtype=‘int32’, value=1)
x2paddle_202 = fluid.layers.fill_constant(shape=[1], dtype=‘int32’, value=262144)
x2paddle_207 = fluid.layers.fill_constant(shape=[1], dtype=‘float32’, value=9.999999747378752e-06)
# x2paddle_input_1 = fluid.layers.data(dtype=‘float32’, shape=[1, 3, 224, 224], name=‘x2paddle_input_1’, append_batch_size=False)
x2paddle_input_1 = inputs
x2paddle_fc_bias = fluid.layers.create_parameter(dtype=‘float32’, shape=[19], name=‘x2paddle_fc_bias’, attr=‘x2paddle_fc_bias’, default_initializer=Constant(0.0))
x2paddle_fc_weight = fluid.layers.create_parameter(dtype=‘float32’, shape=[19, 262144], name=‘x2paddle_fc_weight’, attr=‘x2paddle_fc_weight’, default_initializer=Constant(0.0))
x2paddle_196 = fluid.layers.assign(x2paddle_193)
x2paddle_197 = fluid.layers.assign(x2paddle_194)
x2paddle_204 = fluid.layers.assign(x2paddle_202)
x2paddle_123 = fluid.layers.shape(x2paddle_input_1)
x2paddle_126 = fluid.layers.conv2d(x2paddle_input_1, num_filters=64, filter_size=[7, 7], stride=[2, 2], padding=[3, 3], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_0_weight’, name=‘x2paddle_126’, bias_attr=False)
x2paddle_125 = fluid.layers.gather(input=x2paddle_123, index=x2paddle_124)
x2paddle_127 = fluid.layers.batch_norm(x2paddle_126, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_1_weight’, bias_attr=‘x2paddle_features_1_bias’, moving_mean_name=‘x2paddle_features_1_running_mean’, moving_variance_name=‘x2paddle_features_1_running_var’, use_global_stats=False, name=‘x2paddle_127’)
x2paddle_195 = fluid.layers.assign(x2paddle_125)
x2paddle_203 = fluid.layers.assign(x2paddle_125)
x2paddle_128 = fluid.layers.relu(x2paddle_127, name=‘x2paddle_128’)
x2paddle_198 = fluid.layers.concat([x2paddle_195, x2paddle_196, x2paddle_197], axis=0)
x2paddle_205 = fluid.layers.concat([x2paddle_203, x2paddle_204], axis=0)
x2paddle_129 = fluid.layers.pool2d(x2paddle_128, pool_size=[3, 3], pool_type=‘max’, pool_stride=[2, 2], pool_padding=[1, 1], ceil_mode=False, name=‘x2paddle_129’, exclusive=False)
x2paddle_130 = fluid.layers.conv2d(x2paddle_129, num_filters=64, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_4_0_conv1_weight’, name=‘x2paddle_130’, bias_attr=False)
x2paddle_131 = fluid.layers.batch_norm(x2paddle_130, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_4_0_bn1_weight’, bias_attr=‘x2paddle_features_4_0_bn1_bias’, moving_mean_name=‘x2paddle_features_4_0_bn1_running_mean’, moving_variance_name=‘x2paddle_features_4_0_bn1_running_var’, use_global_stats=False, name=‘x2paddle_131’)
x2paddle_132 = fluid.layers.relu(x2paddle_131, name=‘x2paddle_132’)
x2paddle_133 = fluid.layers.conv2d(x2paddle_132, num_filters=64, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_4_0_conv2_weight’, name=‘x2paddle_133’, bias_attr=False)
x2paddle_134 = fluid.layers.batch_norm(x2paddle_133, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_4_0_bn2_weight’, bias_attr=‘x2paddle_features_4_0_bn2_bias’, moving_mean_name=‘x2paddle_features_4_0_bn2_running_mean’, moving_variance_name=‘x2paddle_features_4_0_bn2_running_var’, use_global_stats=False, name=‘x2paddle_134’)
x2paddle_135 = fluid.layers.elementwise_add(x=x2paddle_134, y=x2paddle_129, name=‘x2paddle_135’)
x2paddle_136 = fluid.layers.relu(x2paddle_135, name=‘x2paddle_136’)
x2paddle_137 = fluid.layers.conv2d(x2paddle_136, num_filters=64, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_4_1_conv1_weight’, name=‘x2paddle_137’, bias_attr=False)
x2paddle_138 = fluid.layers.batch_norm(x2paddle_137, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_4_1_bn1_weight’, bias_attr=‘x2paddle_features_4_1_bn1_bias’, moving_mean_name=‘x2paddle_features_4_1_bn1_running_mean’, moving_variance_name=‘x2paddle_features_4_1_bn1_running_var’, use_global_stats=False, name=‘x2paddle_138’)
x2paddle_139 = fluid.layers.relu(x2paddle_138, name=‘x2paddle_139’)
x2paddle_140 = fluid.layers.conv2d(x2paddle_139, num_filters=64, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_4_1_conv2_weight’, name=‘x2paddle_140’, bias_attr=False)
x2paddle_141 = fluid.layers.batch_norm(x2paddle_140, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_4_1_bn2_weight’, bias_attr=‘x2paddle_features_4_1_bn2_bias’, moving_mean_name=‘x2paddle_features_4_1_bn2_running_mean’, moving_variance_name=‘x2paddle_features_4_1_bn2_running_var’, use_global_stats=False, name=‘x2paddle_141’)
x2paddle_142 = fluid.layers.elementwise_add(x=x2paddle_141, y=x2paddle_136, name=‘x2paddle_142’)
x2paddle_143 = fluid.layers.relu(x2paddle_142, name=‘x2paddle_143’)
x2paddle_144 = fluid.layers.conv2d(x2paddle_143, num_filters=128, filter_size=[3, 3], stride=[2, 2], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_5_0_conv1_weight’, name=‘x2paddle_144’, bias_attr=False)
x2paddle_149 = fluid.layers.conv2d(x2paddle_143, num_filters=128, filter_size=[1, 1], stride=[2, 2], padding=[0, 0], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_5_0_downsample_0_weight’, name=‘x2paddle_149’, bias_attr=False)
x2paddle_145 = fluid.layers.batch_norm(x2paddle_144, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_5_0_bn1_weight’, bias_attr=‘x2paddle_features_5_0_bn1_bias’, moving_mean_name=‘x2paddle_features_5_0_bn1_running_mean’, moving_variance_name=‘x2paddle_features_5_0_bn1_running_var’, use_global_stats=False, name=‘x2paddle_145’)
x2paddle_150 = fluid.layers.batch_norm(x2paddle_149, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_5_0_downsample_1_weight’, bias_attr=‘x2paddle_features_5_0_downsample_1_bias’, moving_mean_name=‘x2paddle_features_5_0_downsample_1_running_mean’, moving_variance_name=‘x2paddle_features_5_0_downsample_1_running_var’, use_global_stats=False, name=‘x2paddle_150’)
x2paddle_146 = fluid.layers.relu(x2paddle_145, name=‘x2paddle_146’)
x2paddle_147 = fluid.layers.conv2d(x2paddle_146, num_filters=128, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_5_0_conv2_weight’, name=‘x2paddle_147’, bias_attr=False)
x2paddle_148 = fluid.layers.batch_norm(x2paddle_147, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_5_0_bn2_weight’, bias_attr=‘x2paddle_features_5_0_bn2_bias’, moving_mean_name=‘x2paddle_features_5_0_bn2_running_mean’, moving_variance_name=‘x2paddle_features_5_0_bn2_running_var’, use_global_stats=False, name=‘x2paddle_148’)
x2paddle_151 = fluid.layers.elementwise_add(x=x2paddle_148, y=x2paddle_150, name=‘x2paddle_151’)
x2paddle_152 = fluid.layers.relu(x2paddle_151, name=‘x2paddle_152’)
x2paddle_153 = fluid.layers.conv2d(x2paddle_152, num_filters=128, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_5_1_conv1_weight’, name=‘x2paddle_153’, bias_attr=False)
x2paddle_154 = fluid.layers.batch_norm(x2paddle_153, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_5_1_bn1_weight’, bias_attr=‘x2paddle_features_5_1_bn1_bias’, moving_mean_name=‘x2paddle_features_5_1_bn1_running_mean’, moving_variance_name=‘x2paddle_features_5_1_bn1_running_var’, use_global_stats=False, name=‘x2paddle_154’)
x2paddle_155 = fluid.layers.relu(x2paddle_154, name=‘x2paddle_155’)
x2paddle_156 = fluid.layers.conv2d(x2paddle_155, num_filters=128, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_5_1_conv2_weight’, name=‘x2paddle_156’, bias_attr=False)
x2paddle_157 = fluid.layers.batch_norm(x2paddle_156, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_5_1_bn2_weight’, bias_attr=‘x2paddle_features_5_1_bn2_bias’, moving_mean_name=‘x2paddle_features_5_1_bn2_running_mean’, moving_variance_name=‘x2paddle_features_5_1_bn2_running_var’, use_global_stats=False, name=‘x2paddle_157’)
x2paddle_158 = fluid.layers.elementwise_add(x=x2paddle_157, y=x2paddle_152, name=‘x2paddle_158’)
x2paddle_159 = fluid.layers.relu(x2paddle_158, name=‘x2paddle_159’)
x2paddle_160 = fluid.layers.conv2d(x2paddle_159, num_filters=256, filter_size=[3, 3], stride=[2, 2], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_6_0_conv1_weight’, name=‘x2paddle_160’, bias_attr=False)
x2paddle_165 = fluid.layers.conv2d(x2paddle_159, num_filters=256, filter_size=[1, 1], stride=[2, 2], padding=[0, 0], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_6_0_downsample_0_weight’, name=‘x2paddle_165’, bias_attr=False)
x2paddle_161 = fluid.layers.batch_norm(x2paddle_160, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_6_0_bn1_weight’, bias_attr=‘x2paddle_features_6_0_bn1_bias’, moving_mean_name=‘x2paddle_features_6_0_bn1_running_mean’, moving_variance_name=‘x2paddle_features_6_0_bn1_running_var’, use_global_stats=False, name=‘x2paddle_161’)
x2paddle_166 = fluid.layers.batch_norm(x2paddle_165, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_6_0_downsample_1_weight’, bias_attr=‘x2paddle_features_6_0_downsample_1_bias’, moving_mean_name=‘x2paddle_features_6_0_downsample_1_running_mean’, moving_variance_name=‘x2paddle_features_6_0_downsample_1_running_var’, use_global_stats=False, name=‘x2paddle_166’)
x2paddle_162 = fluid.layers.relu(x2paddle_161, name=‘x2paddle_162’)
x2paddle_163 = fluid.layers.conv2d(x2paddle_162, num_filters=256, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_6_0_conv2_weight’, name=‘x2paddle_163’, bias_attr=False)
x2paddle_164 = fluid.layers.batch_norm(x2paddle_163, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_6_0_bn2_weight’, bias_attr=‘x2paddle_features_6_0_bn2_bias’, moving_mean_name=‘x2paddle_features_6_0_bn2_running_mean’, moving_variance_name=‘x2paddle_features_6_0_bn2_running_var’, use_global_stats=False, name=‘x2paddle_164’)
x2paddle_167 = fluid.layers.elementwise_add(x=x2paddle_164, y=x2paddle_166, name=‘x2paddle_167’)
x2paddle_168 = fluid.layers.relu(x2paddle_167, name=‘x2paddle_168’)
x2paddle_169 = fluid.layers.conv2d(x2paddle_168, num_filters=256, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_6_1_conv1_weight’, name=‘x2paddle_169’, bias_attr=False)
x2paddle_170 = fluid.layers.batch_norm(x2paddle_169, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_6_1_bn1_weight’, bias_attr=‘x2paddle_features_6_1_bn1_bias’, moving_mean_name=‘x2paddle_features_6_1_bn1_running_mean’, moving_variance_name=‘x2paddle_features_6_1_bn1_running_var’, use_global_stats=False, name=‘x2paddle_170’)
x2paddle_171 = fluid.layers.relu(x2paddle_170, name=‘x2paddle_171’)
x2paddle_172 = fluid.layers.conv2d(x2paddle_171, num_filters=256, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_6_1_conv2_weight’, name=‘x2paddle_172’, bias_attr=False)
x2paddle_173 = fluid.layers.batch_norm(x2paddle_172, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_6_1_bn2_weight’, bias_attr=‘x2paddle_features_6_1_bn2_bias’, moving_mean_name=‘x2paddle_features_6_1_bn2_running_mean’, moving_variance_name=‘x2paddle_features_6_1_bn2_running_var’, use_global_stats=False, name=‘x2paddle_173’)
x2paddle_174 = fluid.layers.elementwise_add(x=x2paddle_173, y=x2paddle_168, name=‘x2paddle_174’)
x2paddle_175 = fluid.layers.relu(x2paddle_174, name=‘x2paddle_175’)
x2paddle_176 = fluid.layers.conv2d(x2paddle_175, num_filters=512, filter_size=[3, 3], stride=[2, 2], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_7_0_conv1_weight’, name=‘x2paddle_176’, bias_attr=False)
x2paddle_181 = fluid.layers.conv2d(x2paddle_175, num_filters=512, filter_size=[1, 1], stride=[2, 2], padding=[0, 0], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_7_0_downsample_0_weight’, name=‘x2paddle_181’, bias_attr=False)
x2paddle_177 = fluid.layers.batch_norm(x2paddle_176, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_7_0_bn1_weight’, bias_attr=‘x2paddle_features_7_0_bn1_bias’, moving_mean_name=‘x2paddle_features_7_0_bn1_running_mean’, moving_variance_name=‘x2paddle_features_7_0_bn1_running_var’, use_global_stats=False, name=‘x2paddle_177’)
x2paddle_182 = fluid.layers.batch_norm(x2paddle_181, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_7_0_downsample_1_weight’, bias_attr=‘x2paddle_features_7_0_downsample_1_bias’, moving_mean_name=‘x2paddle_features_7_0_downsample_1_running_mean’, moving_variance_name=‘x2paddle_features_7_0_downsample_1_running_var’, use_global_stats=False, name=‘x2paddle_182’)
x2paddle_178 = fluid.layers.relu(x2paddle_177, name=‘x2paddle_178’)
x2paddle_179 = fluid.layers.conv2d(x2paddle_178, num_filters=512, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_7_0_conv2_weight’, name=‘x2paddle_179’, bias_attr=False)
x2paddle_180 = fluid.layers.batch_norm(x2paddle_179, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_7_0_bn2_weight’, bias_attr=‘x2paddle_features_7_0_bn2_bias’, moving_mean_name=‘x2paddle_features_7_0_bn2_running_mean’, moving_variance_name=‘x2paddle_features_7_0_bn2_running_var’, use_global_stats=False, name=‘x2paddle_180’)
x2paddle_183 = fluid.layers.elementwise_add(x=x2paddle_180, y=x2paddle_182, name=‘x2paddle_183’)
x2paddle_184 = fluid.layers.relu(x2paddle_183, name=‘x2paddle_184’)
x2paddle_185 = fluid.layers.conv2d(x2paddle_184, num_filters=512, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_7_1_conv1_weight’, name=‘x2paddle_185’, bias_attr=False)
x2paddle_186 = fluid.layers.batch_norm(x2paddle_185, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_7_1_bn1_weight’, bias_attr=‘x2paddle_features_7_1_bn1_bias’, moving_mean_name=‘x2paddle_features_7_1_bn1_running_mean’, moving_variance_name=‘x2paddle_features_7_1_bn1_running_var’, use_global_stats=False, name=‘x2paddle_186’)
x2paddle_187 = fluid.layers.relu(x2paddle_186, name=‘x2paddle_187’)
x2paddle_188 = fluid.layers.conv2d(x2paddle_187, num_filters=512, filter_size=[3, 3], stride=[1, 1], padding=[1, 1], dilation=[1, 1], groups=1, param_attr=‘x2paddle_features_7_1_conv2_weight’, name=‘x2paddle_188’, bias_attr=False)
x2paddle_189 = fluid.layers.batch_norm(x2paddle_188, momentum=0.8999999761581421, epsilon=9.999999747378752e-06, data_layout=‘NCHW’, is_test=True, param_attr=‘x2paddle_features_7_1_bn2_weight’, bias_attr=‘x2paddle_features_7_1_bn2_bias’, moving_mean_name=‘x2paddle_features_7_1_bn2_running_mean’, moving_variance_name=‘x2paddle_features_7_1_bn2_running_var’, use_global_stats=False, name=‘x2paddle_189’)
x2paddle_190 = fluid.layers.elementwise_add(x=x2paddle_189, y=x2paddle_184, name=‘x2paddle_190’)
x2paddle_191 = fluid.layers.relu(x2paddle_190, name=‘x2paddle_191’)
x2paddle_192 = fluid.layers.pool2d(x2paddle_191, pool_type=‘avg’, global_pooling=True, name=‘x2paddle_192’)
x2paddle_198_cast = fluid.layers.cast(x2paddle_198, dtype=‘int32’)
x2paddle_199 = fluid.layers.reshape(x2paddle_192, name=‘x2paddle_199’, actual_shape=x2paddle_198_cast, shape=[1, 512, 1])
x2paddle_200 = fluid.layers.transpose(x2paddle_199, perm=[0, 2, 1], name=‘x2paddle_200’)
x2paddle_201 = fluid.layers.matmul(x=x2paddle_199, y=x2paddle_200, name=‘x2paddle_201’)
x2paddle_205_cast = fluid.layers.cast(x2paddle_205, dtype=‘int32’)
x2paddle_206 = fluid.layers.reshape(x2paddle_201, name=‘x2paddle_206’, actual_shape=x2paddle_205_cast, shape=[1, 262144])
x2paddle_208 = fluid.layers.elementwise_add(x=x2paddle_206, y=x2paddle_207, name=‘x2paddle_208’)
x2paddle_209 = fluid.layers.sqrt(x2paddle_208, name=‘x2paddle_209’)
x2paddle_210_mm = fluid.layers.matmul(x=x2paddle_209, y=x2paddle_fc_weight, transpose_x=False, transpose_y=True, alpha=1.0, name=‘x2paddle_210_mm’)
x2paddle_210 = fluid.layers.elementwise_add(x=x2paddle_210_mm, y=x2paddle_fc_bias, name=‘x2paddle_210’)

return [x2paddle_input_1], [x2paddle_210]

def run_net(param_dir="./"):
import os
inputs, outputs = x2paddle_net()
for i, out in enumerate(outputs):
if isinstance(out, list):
for out_part in out:
outputs.append(out_part)
del outputs[i]
exe = fluid.Executor(fluid.CPUPlace())
exe.run(fluid.default_startup_program())

def if_exist(var):
    b = os.path.exists(os.path.join(param_dir, var.name))
    return b

fluid.io.load_vars(exe,
                   param_dir,
                   fluid.default_main_program(),
                   predicate=if_exist)

然后创建调用 Paddle 模型的 test_img.py：

import cv2
from pd_model.model_with_code.model import x2paddle_net

import argparse
import functools
import numpy as np
import paddle.fluid as fluid
from PIL import ImageFont, ImageDraw, Image

font_path = r’./simsun.ttc’
font = ImageFont.truetype(font_path, 32)

def putText(img, text, x, y, color=(0, 0, 255)):

img_pil = Image.fromarray(img)
draw = ImageDraw.Draw(img_pil)
b, g, r = color
a = 0
draw.text((x, y), text, font=font, fill=(b, g, r, a))
img = np.array(img_pil)
return img

# 定义一个预处理图像的函数
def process_img(img_path=’’, image_shape=[3, 224, 224]):

mean = [0.485, 0.456, 0.406]
std = [0.229, 0.224, 0.225]

img = cv2.imread(img_path)
img = cv2.resize(img, (image_shape[1], image_shape[2]))
#img = cv2.resize(img,(256,256))
#img = crop_image(img, image_shape[1], True)

# RBG img [224,224,3]->[3,224,224]
img = img[:, :, ::-1].astype('float32').transpose((2, 0, 1)) / 255
#img = img.astype('float32').transpose((2, 0, 1)) / 255
img_mean = np.array(mean).reshape((3, 1, 1))
img_std = np.array(std).reshape((3, 1, 1))
img -= img_mean
img /= img_std

img = img.astype('float32')
img = np.expand_dims(img, axis=0)

return img

# 模型推理函数

color_attrs = [‘Black’, ‘Blue’, ‘Brown’,
‘Gray’, ‘Green’, ‘Pink’,
‘Red’, ‘White’, ‘Yellow’] # 车体颜色

direction_attrs = [‘Front’, ‘Rear’] # 拍摄位置

type_attrs = [‘passengerCar’, ‘saloonCar’,
‘shopTruck’, ‘suv’, ‘trailer’, ‘truck’, ‘van’, ‘waggon’] # 车辆类型

def inference(img):
fetch_list = [out.name]

output = exe.run(eval_program,
                 fetch_list=fetch_list,
                 feed={'image': img})
color_idx, direction_idx, type_idx = get_predict(np.array(output))

color_name = color_attrs[color_idx]
direction_name = direction_attrs[direction_idx]
type_name = type_attrs[type_idx]

return color_name, direction_name, type_name

def get_predict(output):
output = np.squeeze(output)
pred_color = output[:9]
pred_direction = output[9:11]
pred_type = output[11:]

color_idx = np.argmax(pred_color)
direction_idx = np.argmax(pred_direction)
type_idx = np.argmax(pred_type)

return color_idx, direction_idx, type_idx

use_gpu = True
# Attack graph
adv_program = fluid.Program()

# 完成初始化
with fluid.program_guard(adv_program):
input_layer = fluid.layers.data(
name=‘image’, shape=[3, 224, 224], dtype=‘float32’)
# 设置为可以计算梯度
input_layer.stop_gradient = False

# model definition
_, out_logits = x2paddle_net(inputs=input_layer)
out = fluid.layers.softmax(out_logits[0])

place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()
exe = fluid.Executor(place)
exe.run(fluid.default_startup_program())

# 记载模型参数
fluid.io.load_persistables(exe, './pd_model/model_with_code/')

# 创建测试用评估模式
eval_program = adv_program.clone(for_test=True)

# im_pt = ‘./a.jpg’
im_pt = ‘./a.png’
img = process_img(im_pt)

color_name, direction_name, type_name = inference(img)

label = ‘颜色：{}\n朝向：{}\n类型：{}’.format(color_name, direction_name, type_name)

img = cv2.imread(im_pt)
img = putText(img, label, x=1, y=10, color=(0, 215, 255))

cv2.imshow(‘a’, img)
cv2.waitKey(0)

cv2.destroyAllWindows()

运行测试：

成功~

八. 总结：

在本篇文章中，我们使用了 PaddleDetection 和 X2Paddle 两个工具，实现了一个图片、视频中车帘检测和类型识别的小项目。

其中：

PaddleDetection 提供了很好的应用接口和预训练模型，实现了快速的车辆检测；
X2Paddle 则解决了不同深度学习框架的模型权重文件转换的问题；

更多其他项目和信息请关注我的博客：https://blog.csdn.net/weixin_44936889


            
                                
                    
        
            
                
            
            
                                    Memory逆光
                    
                                                                                        
                原创文章 120获赞 243访问量 6万+
            
                            
                                        已关注
                                                            私信

你可能感兴趣的:(计算机视觉)

NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
计算机视觉｜3D 点云处理黑科技：PointNet++ 原理剖析与实战指南紫雾凌寒 AI 炼金厂 #深度学习 #计算机视觉深度学习计算机视觉 3d cnn PointNet++3d云 3d云数据
一、引言在当今数字化与智能化快速发展的时代，3D点云处理技术在多个前沿领域中发挥着重要作用。特别是在自动驾驶和机器人视觉等领域，这项技术已成为实现智能化的关键支撑。以自动驾驶为例，车辆需要实时感知周围复杂的环境信息，包括行人、车辆、交通标志和路况等。3D点云数据能够提供高精度的三维空间信息，使自动驾驶车辆更准确地识别和定位周围物体，从而做出安全、合理的行驶决策。在城市街道上，自动驾驶车辆通过3D点
【基于手势识别的音量控制系统】合肥玉安人工智能工作室 Python OpenCV python mediapipe 手势手势控制音量
基于手势识别的音量控制系统github项目效果这是一个结合了计算机视觉和系统控制的实用项目，通过识别手势来实现音量的无接触控制，同时考虑到了用户隐私，加入了实时人脸遮罩功能。核心功能实现1.手势识别与音量映射系统使用MediaPipe框架进行手部关键点检测，通过计算大拇指和食指之间的距离来控制音量：def_process_landmarks(self,hand_landmarks):#获取手指关键
利用CUDA与OpenCV实现高效图像处理：全面指南快撑死的鱼 C++（C语言）算法大揭秘 opencv 图像处理人工智能
利用CUDA与OpenCV实现高效图像处理：全面指南前言在现代计算机视觉领域，图像处理的需求日益增加。无论是自动驾驶、安防监控，还是医疗影像分析，图像处理技术都扮演着至关重要的角色。然而，图像处理的计算量非常大，往往需要强大的计算能力来保证实时性和高效性。幸运的是，CUDA和OpenCV为我们提供了一种高效的图像处理解决方案。本篇文章将详细介绍如何结合CUDA与OpenCV，利用GPU的强大计算能
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
PSPNet在图像超分辨率中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PSPNet在图像超分辨率中的应用1.背景介绍图像超分辨率(ImageSuper-Resolution,ISR)是计算机视觉领域的一个重要研究方向,旨在从低分辨率图像中重建高分辨率图像。传统的ISR方法主要基于插值算法,如双线性插值、双三次插值等,但这些方法往往无法恢复图像的高频细节信息。近年来,随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的
多宠识别：基于计算机视觉的智能宠物管理系统架构解析深圳市快瞳科技有限公司计算机视觉宠物系统架构
一、行业痛点与技术方案演进在多宠家庭场景中，传统方案面临三大技术瓶颈：1.生物特征混淆：同品种/毛色宠物识别准确率低于65%2.动态场景适应：进食/奔跑状态下的误检率达30%+3.数据孤岛问题：离线设备无法实现持续学习优化快瞳科技采用**双模态视觉融合架构**，结合轻量化YOLOv7-Tiny模型与CLIP多模态大模型，实现：-98.7%的跨品种宠物识别准确率（CVPR2024最新测试数据）-单次
Training-free Neural Architecture Searchthrough Variance of Knowledge of Deep Network Weights（预览版本）境心镜免训练深度学习人工智能 NAS
代码位置摘要深度学习彻底改变了计算机视觉，但它使用深度网络架构取得了巨大的成功，而这些架构大多是手工制作的，因此可能不是最理想的。神经架构搜索(NAS)旨在通过遵循明确定义的优化范式来弥补这一差距，该范式系统地寻找最佳架构，给定客观标准，例如最大分类准确度。然而，NAS的主要限制是其天文数字般的计算成本，因为它通常需要从头开始训练每个候选网络架构。在本文中，我们旨在通过基于Fisher信息提出一种
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
【人工智能基础】生成模型：让数据“无中生有”的神奇魔法 roman_日积跬步-终至千里 #人工智能基础知识人工智能
文章目录一、生成模型的发展脉络二、生成模型的基本原理三、主要生成模型及其逻辑1、生成对抗网络（GAN）2、变分自编码器（VAE）3、扩散模型（DPM）4、基于能量的模型（EBM）5、正规化流（NF）四、生成模型对比分析五、生成模型的应用拓展一、生成模型的发展脉络在深度学习尚未兴起的时期，计算机视觉领域的传统图像生成算法主要依赖纹理合成和纹理映射等技术。这些算法基于手工设计的特征进行图像构建，然而，
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
大规模语言模型构建流程人工智能技术笔记语言模型人工智能自然语言处理
大规模语言模型1.大语言模型大规模语言模型（LargeLanguageModels，LLM），也称大语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。2.预训练语言模型受到计算机视觉领域采用ImageNet对模型进行一次预训练，使得模型可以通过海量图像充分学习如何提取特征，然后再根据任务目标进行模型精调的预训练范式影响，自然语言处理
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证 CodeWG fpga开发 matlab 开发语言
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证图像处理是计算机视觉和图像识别领域的重要组成部分。其中，中值滤波是一种常用的图像去噪方法，广泛应用于图像增强、边缘检测和特征提取等任务中。本文将介绍基于FPGA的图像中值滤波Verilog实现，并通过MATLAB进行辅助验证。首先，我们需要了解什么是中值滤波。中值滤波是一种非线性滤波器，它的原理是将图像中每个像素的灰度值替换为该像素
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
【Hugging Face】datasets 库：加载、处理和分享大规模数据集彬彬侠大模型 datasets Hugging Face
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务。1.为什么使用Datasets？在深度学习中，处理大规模数据集通常面临以下挑战：数据集太大，无法一次性加载到内存不同任务的数据格式不统一数据预处理和转换较慢需要快速流式加载数据datasets库
【Python运维】实现高效的自动化备份与恢复：Python脚本从入门到实践蒙娜丽宁 Python杂谈运维运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在信息化时代，数据备份和恢复的有效性对企业和个人来说至关重要。本文将带领读者深入了解如何使用Python编写自动化备份与恢复脚本，确保重要数据的安全。本篇文章涵盖了文件系统的备份、MySQL数据库的备份与恢复、定期任务的自动化调度等内容。我们将通过大量的
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
双目立体视觉（6.1）测距 2501_90596733 双目立体视觉计算机视觉人工智能 opencv
在计算机视觉领域，双目相机测距是一项关键技术，它通过模拟人类双眼的视觉机制，利用两个相机从不同角度拍摄同一场景，进而计算出物体的深度信息。一、双目测距的基本原理1.1视差图（DisparityMap）视差图是一种存储了单视图所有像素的视差值的二维图像。视差值是同一物体在左右两幅图像中的列坐标差，即通过比较左右两幅图像的对应像素差异来计算物体的深度信息。视差图是以图像对中任一幅图像为基准生成的，其大
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后