shuzfan

人脸检测——DDFD

本文所介绍的人脸检测,主要学习和实现了ICMR-2015年雅虎实验室的文章”Multi-view Face Detection Using Deep Convolutional Neural Networks”.这是我接触和实现的第一个深度学习案例,本文除了讲解该文的算法以外,也是对我近2个月工作的总结.

学习还不够深入，有不足之处欢迎大家提出指正。

此外，本文在讲解的过程中会包含全部的源代码以及训练数据。

目录
- 1- 构建深度学习训练数据集
  - 1-1 制作训练正样本
  - 1-2 制作训练负样本
- 2- 训练一个深度人脸分类器
  - 2-1 ImageNet或者AlexNet网络
  - 2-2 Cifar10网络
  - 2-3 NIN_Cifar10网络
  - 2-4 自定义滑窗网络SlipW
    - 2-4-1 全卷积网络
    - 2-4-2 我自己设计的滑窗网络SlipW
- 3- 应用分类器进行人脸检测
  - 3-1 NMS-多窗口融合

1- 构建深度学习训练数据集

AFLW原始数据集：[百度云链接——链接：http://pan.baidu.com/s/1czZXme 密码：rw3g)

尺寸归一化为224×224的正负训练样本：百度云链接——密码：zf98

深度学习需要大量的数据，否则根本无法发挥出深度神经网络的优势。雅虎的文章中为了训练一个性能优异的人脸分类器，制作了超过20W的正样本（人脸）和超过2000W的负样本（非人脸）。此外，为了有效解决遮挡、不同角度、光照的人脸检测，文章还强调训练样本中应包含大量这类的样本。这就需要应用一些特殊Data Augmentation方法，一方面扩充训练样本，另一方面改善样本的分布（即增加那些存在遮挡、倾斜、偏转等的人脸样本）。通常，我们可以采用随机平移、翻转、随机旋转、泛红泛绿等操作来完成上述扩充，但是需要注意人为的添加一些遮挡或者噪声通常是不可取的，因为深度网络很有可能学习到这些人为的“操作”。

1-1 制作训练正样本

我和原文一样，使用了AFLW数据集作为正负样本的来源。AFLW数据集中有大概2.1W张图片（基本都是高清的图片），其中标记了大概2.4W个人脸的矩形框、3维旋转角度、是否遮挡、是否戴眼镜等信息。因此，生成正样本时，我的主要操作就是将原有的矩形框进行随机的平移和旋转，如果操作之后的矩形框和原来矩形框相交面积比（IOU）大于某个阈值（如，我使用了0.64），那么就可以认为经过“采样”得到了一个新的正样本。如果原矩形框下的人脸是存在遮挡或者戴眼镜或者低头仰头的，那么“采样”的次数就会加倍。

关于正样本IOU阈值，原文设定的是0.5，我觉得这不是一个很好的数值。首先，AFLW数据集中标定的矩形框也不是特别准确，如果IOU太小，很容易生成较多的弱正样本，一方面这将增加未来训练分类器的难度，另一方面实际检测的时候也会在目标周围生成许多影响我们判断的矩形框（这一点后面会再次说明）。但是，IOU阈值过大也不好，因为这将降低未来我们对缺失人脸（部分人脸）的检测率。

1-2 制作训练负样本

制作负样本时，我设定了一个新的IOU阈值为0.1，然后对整个图像进行滑动窗口，如果窗口与原人脸矩形框的相交面积比小于0.1，就认为该窗口为负样本。窗口大小和滑动步长是根据图片大小来确定的，平均下来一张图片会滑动产生200个窗口，最终被认定为负样本的大概有120左右。

需要特别说明的是，AFLW数据集中存在这样的问题：一张图片中有多个人，但只标注了少数几个明显的目标；背景存在密集人群。这将导致我们滑动窗口产生的负样本中包含一些“正样本”。因此，对于负样本我们需要人工审核一遍来剔除那些“异常”。（因为我是一个人，而且还在上课，这部分剔除工作就花费了我半个月之多 T_T）

最终，我获得了352240的正样本和1600128的负样本（负样本本来有200W+,但我没有时间全部校验一遍了）。下面看几个正负样本的例子。

2- 训练一个深度人脸分类器

训练一个深度人脸分类器，也就是利用深度卷积神经网络训练一个图片二分类器，该分类器可以将输入图片分类为人脸或者非人脸。考虑到人脸检测的召回率和准确率以及时间花费，下面我尝试了多种网络结构。

2-1 ImageNet或者AlexNet网络

原文作者是在AlexNet上进行finetune的。AlexNet的输入图片尺寸是227×227，ImageNet的输入图片尺寸是224×224，二者的结构类似。以ImageNet网络为例，该网络共有8层，包含5个卷积层和3个全连接层（某些层后面还跟有pooling层和LRN层）。整个网络下来，有大概60millon 个参数，65W个神经元，其caffemodel大概有220M之大。

下面说一下，实际使用ImageNet模型做人脸和非人脸分类的感受：

模型太大，我实际用的caffemodel大概有225M大小，这也就导致运行模型时需要很大的系统内存，同时也导致时间花费增大。我用笔记本4G内存，跑这个模型基本无望。
输入图片尺寸太大，ImageNet要求输入224×224大小的图片，这也就意味着如果你需要检测到最小40×40左右大小的人脸时，你必须首先将你的图片放大至少5倍。这将带来更大的内存消耗和时间花费。

2-2 Cifar10网络

这里尝试了Cifar10-quick网络结构，该网络输入图片尺寸为32×32，包含3个卷积层和2个全连接层（某些层后面有pooling层）。最终的caffemodel大小不足600K，是一个轻量级的网络模型。

模型过小，分类能力不足。

2-3 NIN_Cifar10网络

NIN，也即是Network in Network. 。这篇文章，主要讲

传统的线性卷积+非线性激活的方式不能很好地描述一个高度非线性的图像分类空间；
在每一层网络之间添加一个具有良好非线性表示能力的“多层感知机”可以改善上述问题。
图示如下：

因为每层之间又添加了一个“多层感知机”网络，因此称为Network in Network.

其实，这个方法只是名字叫的特别好听，其本质只不过是加深了网络深度，但确实又是work的（关于这一点，大家可以通过查看NIN模型的train_val.prototxt来认识）

NIN_Cifar10的cafemodel大小约3M，但在测试集上的准确率要高于单纯的Cifar10，接近ImageNet的测试准确率。

2-4 自定义滑窗网络SlipW

这是我自己定义的一个网络结构，输入大小32×32，caffemodel大小约2.2M，测试集分类准确率97.2%，接近NIN_Cifar10的表现。为什么我最终要自己设计这样一个名为“滑窗”的网络？接下来我将说明原因。

将一个人脸分类器升级为一个人脸检测器的最简单直接的方法就是滑动窗口。但是，假如我的待检测图片大小为640×480，当以16的步长去滑动32×32的窗口时，那么将产生39×29=1131个窗口，如果把这些窗口一个一个去送到神经网络中做分类，那么可想而知效率会有多低。为了加快这个滑窗检测的过程，有人采用了下面的一种“全卷积”网络的方法：

2-4-1 全卷积网络

了解卷积神经网络的都应该知道，在卷积层中有“卷积核大小：kernel_size”、“卷积步长：stride”等参数。大家是否觉得卷积整个图像的过程和滑窗有点类似？于是，有人就从这个角度出发，去改造已有的网络使之只包含卷积层，从而使得网络可以接受任意尺寸大小的图片输入，并自动完成“滑窗”的过程。具体改造如下：（以ImageNet改造为例）
改造即是将全连接层改为卷积层，原来的ImageNet最后的3个全连接层，参数维度分别为fc6: 4096×9216×1×1，fc7: 4096×4096×1×1，fc8: 2×4096×1×1（分2类）。

1- 在deploy文件中将最后2层重写为卷积核大小为1，卷积步长为1的卷积层。以最后一层的改造为例，下图左边是改造之前，右图是改造之后的结果。
2- 倒数第3层fc6稍微有点不同，为了和上一个卷积层的输出个数256对齐，因此需要将9216拆解成6×6的卷积核（256×6×6=9216）。如下图：
3- 完成上述改造之后，实际使用的时候还要做一点工作。因为我们在deploy.prototxt中已经固定了输入图片的尺寸，如下图：
```
  如果我们想要输入一张451×451的图片，那么你需要修改deploy文件为：
```
这样看起来很麻烦，因为直接在deploy文件中修改的话，你需要改完之后保存deploy文件然后重新读取caffemodel。幸亏这里还有简单的方法：

    %读取我的图片的尺寸
    [newM,newN,newD]=size(myimage);
    blobdata = imNet.blob_vec(imNet.name2blob_index('data'));
    newshape=[newM newN newD 1];
    %将data层reshape为我的尺寸
    blobdata.reshape(newshape);

上面的方法使得我们只需创建一次网络，便可以通过快速reshape来应对各种不同尺寸的输入图片。

最终，我们可以直接将一张大小为451×451的图片输入到神经网络当中，而得到一个8×8×2的输出。其中8=（451-224）/32+1。也就是说改造之后的网络相当于以滑动步长32的进行窗口大小为224×224的滑动。（其中滑动步长等于网络中所有卷积步长stride的乘积）。

更加详细的介绍也可参考这里：http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/net_surgery.ipynb

但是，上述改造的网络其实并不等于滑动窗口。因为该网络中的每一个卷积层中卷积步长都小于卷积核的大小，这也就意味着上述过程中产生的窗口其实都有着相互之间的影响。于是，本来不存在人脸的地方就可能由于“滑动窗口”而受到远处的人脸影响，最终被检测为人脸

为此，我设计了下面的滑窗网络

2-4-2 我自己设计的滑窗网络SlipW

我这个网络主要就是针对上面的问题而设计的，方法很简单：只要出现卷积核的地方，卷积步长一定等于卷积核大小。至于整体结构，主要参考了NIN的设计思想，多次使用了卷积核为大小1的卷积层。
下面是第一层的示例：

layers {
  name: "conv1"
  type: CONVOLUTION
  bottom: "data"
  top: "conv1"
  convolution_param {
    num_output: 256
    stride: 4
    kernel_size: 4
  }
}

最终，模型大小2.2M，测试集上分类准确率为97.5%。
具体可参考我打包的源代码中的SlipW_net2文件夹。

3- 应用分类器进行人脸检测

所有代码，包括样本制作、以及一些尝试等等：百度云链接密码：m3zw

前面也提到过，将一个人脸分类器转化为人脸检测器的最简单直接的方法就是“滑动窗口”，所幸我们的神经网络可以“自动滑窗”。现在还有一个问题，我们的窗口是32×32的，但实际当中的人脸尺寸可能远大于此。为了检测到更大的人脸，我们需要按照一定比例缩小图片，然后再用固定窗口检测。文章中建议该比例因子为0.7937.

3-1 NMS-多窗口融合

上面多尺度检测之后，同一个目标一般会得到多个框，就像下面这样：

所以接下来我们还要做一点最后的处理工作，使得每一个目标只有一个矩形框。

这一部分到目前为止，我还没有特别理想的方法，我觉得这是一个很有挑战和技巧性的佛你工作。主要因为：

为了检测到侧脸和遮挡的人脸，我们在训练样本中增加了很多“部分”人脸。但是，这也导致实际应用时会在目标周围产生各种偏离的框。
经过深度卷积神经网络分类器，正面好的人脸的输出得分并不一定就比侧面较差人脸的得分高。这将导致，很多按照得分进行排序合并的NMS算法不能正常工作
由于存在偏离的框比较多，当目标比较密集或者一个较大目标旁边有一个较小目标时，合并的难度可想而知

检测的入口函数为face_detection.m，下面我就依照该函数来简要说明最终的检测流程：

下面的代码只是简单的流程，大家可以只看红色注释部分，就可以快速把握检测的流程

caffe_('reset');%caffe初始化

%构建滑窗网络
imNet=Net('SlipW_net2\SlipW_deploy.prototxt','SlipW_net2\SlipW_2_iter_444000','test');

%再建立另外两个网络，用于最后对检测结果做校验        
test_net1=Net('Cifar10\cifar10_deploy.prototxt','Cifar10\cifar10_iter_270000','test');
test_net2=Net('SlipW_net1\SlipW_deploy.prototxt','SlipW_net1\SlipW_1_iter_553000','test');

%一些参数设置
winsize=32;%窗口大小
stride=16; %滑动步长
mean_data=[94.6683 104.1116 117.5282];%像素均值BGR
img=imread([PathName,FileName]);%读取待检测图片
[M,N,~]=size(img);%图片尺寸
factor= 0.793700526; %图像的缩小比例因子0.5^(1/3)
minL=min(M,N);
scales=factor.^(0:fix(-log(minL/winsize)/log(factor))); %缩放比例表

%依据缩放比例表，来循环对图像进行缩放，然后检测
for i=1:length(scales)
    imimg=imresize(img,scales(i)*[M N]);%按表缩放
    intemp =io.load_image(imimg);%图像预处理（RBG->BGR，Width<->Height）
    [newM,newN,newD]=size(intemp);

    %减去均值
    intemp(:,:,1)=intemp(:,:,1)-mean_data(1);
    intemp(:,:,2)=intemp(:,:,2)-mean_data(2);

    %reshape网络data层，使之可以接受当前尺寸的输入
    blobdata= imNet.blob_vec(imNet.name2blob_index('data'));
    newshape=[newM newN newD 1];
    blobdata.reshape(newshape);

    %前向传播，输出分类结果
    out=imNet.forward({intemp});

    %对分类结果判断整理，并依据缩放比例还原出包围框位置
    mboundingBox=generateBoundingBox(out);
    boundingBox=[boundingBox;mboundingBox]; %存储所有的矩形框
end

%处理得到的大量矩形框：NMS+验证
if ~isempty(boundingBox)
    boundingBox=sortrows(boundingBox,-6);%将矩形框按照得分降序排列
    leftboxes=nms_gauss(double(boundingBox),0.15);%应用基于gauss的NMS方法，进行窗口合并
    [numboxes,~]=size(leftboxes);

    %利用2个test CNNs来对最后的检测结果进一步进行验证，减少误检
    for i=1:numboxes
        ...
        out1=test_net1.forward({intemp});
        out2=test_net2.forward({intemp});
        %如果2个网络验证为人脸的概率都大于0.1或者概率之和大于1.2，则确定为人脸
        if out2{1}(2)>0.1 && out1{1}(2)>0.1 && blobout1(2)>0.5 || out1{1}(2)+out2{1}(2)>1.2
        ...
    end
end

下面放一些检测结果,大家可以发现,准确率和召回率没有太大问题,对遮挡,光照,偏转的鲁棒性也挺高,但就是定位不够准确.各位读者有好的方法,我们也可以相互交流一下.

未完待续………………………………..

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
基于YOLOV5人脸检测打上码赛克 Deep-white YOLO 人工智能深度学习
还在为自己的隐私而烦恼吗，还在为拍摄的视频因不想露脸而无法发布吗。yolov5检测人脸，并打上马赛克，保护自己的隐私。只需下载代码，解压缩后就可以传入你想要打马赛克的视频或者图片了。这个是需要你对代码有一些了解的，等我开发一下使大家都可以用。里面权重已经训练好了，也有一些人脸的数据集，数据量不多，训练完的权重不是很好，但是给自己的视频打上马赛克足够了。大家要是想去增加数据集，可以使用里面的权重利用
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：94标注数量(xml文件个数)：94标注数量(txt文件个数)：94标注类别数：1标注类别名称:["baolu"]每个类别标注的框数：baolu框数=107总框数：107使用标注工具：labelImg标注规则：对类别进行
YOLOv8改进 | 检测头篇 | YOLOv8引入DynamicHead检测头小李学AI YOLOv8有效涨点专栏 YOLO 深度学习目标检测计算机视觉机器学习人工智能
1.DynamicHead描述1.1摘要：在目标检测中，定位和分类相结合的复杂性导致了各种方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能，但未能呈现出统一的观点。本文根据目标检测的特点，推导了一种新的动态头部框架，将目标检测头部与注意力统一起来。该方法通过在特征层次间、空间位置间和输出通道内协调组合多种自注意机制，在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验表明，本
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集_深度学习目标检测 YOLO 人工智能计算机视觉葡萄
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集：链接：https://pan.baidu.com/s/1YMwAaSJc8H5SI0f8RVSidw?pwd=iygs提取码：iygs数据集信息介绍：共有1646张图像和一一对应的标注文件标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。标注的对象共有以下几种：[‘grape’]标注框的数量信息如下：（标注
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
人脸识别技术框架 weixin_30314813 人工智能
1、人脸检测（确定人脸的位置）。2、人脸关键点（确定眼睛，嘴角等特征位置）。3、人脸几何校正（把人脸通过缩放、旋转、拉伸等图像变化到一个比较标准的大小位置）。4、人脸光学校正（滤波，去除一些对光照敏感的面部特征）。5、人脸特征提取（包括LBP,HOG,Gabor等）。6、人脸识别转载于:https://www.cnblogs.com/lanye/p/3620621.html
人脸识别概述 TreeFish2012 FaceRecognition
欢迎关注微博：http://weibo.com/facerecog一人脸识别系统结构图1显示了人脸识别系统所包含的各个模块，其中，图像采集模块用于采集包含人脸的图像；人脸检测跟踪模块用于确定视频中人脸的位置和大小，并确定同一个人在帧间的对应关系；而特征点定位模块用于定位眼睛、嘴巴等脸部特征点的位置；图像质量评估模块，用于从采集的同一个人的多张人脸图像中，根据人脸姿态和光照条件选择最适合识别的一张或
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
[数据集][目标检测]井盖丢失未盖破损检测数据集VOC+YOLO格式2890张5类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2890标注数量(xml文件个数)：2890标注数量(txt文件个数)：2890标注类别数：5标注类别名称:["broke","circle","good","lose","uncovered"]每个类别标注的框数：br
YOLOv8改进更换轻量级网络结构学yolo的小白 Upgrade YOLOv8进阶 YOLO 目标检测深度学习
一、GhostNet论文论文地址：1911.11907.pdf(arxiv.org)二、GhostNet结构GhostNet是一种高效的目标检测网络，具有较低的计算复杂度和较高的准确性。该网络采用了轻量级的架构，可以在计算资源有限的设备上运行，并能够快速地实时检测图像中的目标物体。GhostNet基于MobileNetV3的设计思路，采用了Ghost模块来减少网络参数数量，从而减少计算量并提高模型
【Python】成功解决TypeError: list indices must be integers or slices, not str 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决TypeError:listindicesmustbeintegersorslices,notstr欢迎进入我的个人主页，我是高斯小哥！博主档案：广东某985本硕，SCI顶刊一作，深耕深度学习多年，熟练掌握PyTorch框架。技术专长：擅长处理各类深度学习任务，包括但不限于图像分类、图像重构(去雾\去模糊\修复)、目标检测、图像分割、人脸识别、多标签分类、重识别(行人\车辆
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
Python 使用 Detectron2 进行目标检测 (Detectron2, CenterNet2, Detic) Eric Woo X Python AI Ubuntu python 目标检测开发语言
代码说明代码主要是一个用来演示如何使用Detectron2进行目标检测的脚本。它可以从摄像头或视频文件中读取图像，并应用指定的配置文件进行目标检测。其中，Detectron2结合了CenterNet2和Detic进行目标检测。主要库介绍Detectron2Detectron2是由FacebookAIResearch开发的一个用于目标检测和实例分割的开源库。它提供了一系列预训练模型和灵活的配置系统，
Transformer+目标检测，这一篇入门就够了 BIT可达鸭 ▶深度学习-计算机视觉 transformer 深度学习目标检测计算机视觉自然语言处理
VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT：图像分类之PyramidViT：目标检测之DETR：目标检测之DeformableDETR：本文作者：
目标检测-YOLOv2 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv2介绍YOLOv2（YouOnlyLookOnceversion2）是一种用于目标检测的深度学习模型，由JosephRedmon等人于2016年提出，并详细论述在其论文《YOLO9000:Better,Faster,Stronger》中。YOLOv2在保持高速检测的同时，显著提升了检测的精度和泛化能力，成为实时目标检测领域的重要算法之一。核心原理YOLOv2的核心原理是将目标检测问题转化
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name