图像算法AI

深度学习-09(目标检测:Object Detection)

文章目录

目标检测（Object Detection）
- 一、基本概念
- - 1. 什么是目标检测
  - 2. 目标检测的核心问题
  - 3. 目标检测算法分类
  - 4. 目标检测应用
- 目标检测原理
- - 1.候选区域产生
  - - 1 )滑动窗口
    - 2 )选择性搜索
  - 2.数据表示
  - 3.效果评估
  - 4.非极大值抑制
- 三、目标检测模型
- - 1. R-CNN系列
  - - 1 ) R-CNN
    - 2 ) Fast R-CNN
    - 3 ) Faster RCNN
  - 2. YOLO系列
  - - 1)YOLOv1(2016)
    - 2)YOLOv2(2016)
    - 3) YOLOv3 ( 2018 )
- 三、视频关键帧处理
- - 1.什么是关键帧
  - 2.如何提取关键帧
- 四、目标检测数据集
- - 1. PASCAL VOC
  - 2. MS COCO
- 五、常用图像标注工具
- - 1. Labellmg
  - 2. Labelme
  - 3. Labelbox
  - 4. RectLabel
  - 5. CVAT
  - 6. VIA
- 附录:术语表

目标检测（Object Detection）

一、基本概念

1. 什么是目标检测

目标检测( Object Detection )的任务是找出图像中所有感兴趣的目标(物体) ,确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
计算机视觉中关于图像识别有四大类任务:
( 1 )分类.Classification :解决”是什么?”的问题,即给定一-张图片或一段视频判断里面包含什么类别的目标。
( 2 )定位Location :解决"在哪里? "的问题,即定位出这个目标的的位置。
( 3 )检测-Detection :解决"在哪里?是什么?”的问题,即定位出这个目标的位置并且知道目标物是什么。
( 4)分割-Segmentation :分为实例的分割( Instance-level )和场景分割( Scene-level) , 解决"每一个像素属于哪个目标物或场景”的问题。

2. 目标检测的核心问题

( 1 ) 分类问题:即图片(或某个区域)中的图像属于哪个类别。
( 2 ) 定位问题:目标可能出现在图像的任何位置。
( 3 ) 大小问题:目标有各种不同的大小。
( 4 ) 形状问题:目标可能有各种不同的形状。

3. 目标检测算法分类

基于深度学习的目标检测算法主要分为两类: Two stage和One stage.
1 ) Tow Stage
先进行区域生成,该区域称之为region proposal (简称RP , -个有可能包含待检物体的预选框) , 再通过卷积神经网络进行样本分类。
任务流程:特征提取–>生成RP -->分类/定位回归。常见tow stage目标检测算法有: R-CNN、SPP-Net、 Fast R-CNN、Faster R-CNN和R-FCN等。
2 ) One Stage
不用RP ,直接在网络中提取特征来预测物体分类和位置。
任务流程:特征提取–>分类/定位回归。
常见的one stage目标检测算法有: OverFeat. YOLOv1、 YOLOv2、 YOLOv3、 SSD和RetinaNet等。

4. 目标检测应用

1 )人脸检测

智能门控
员工考勤签到
智慧超市
人脸支付
车站、机场实名认证
公共安全:逃犯抓捕、走失人员检测

2 )行人检测

智能辅助驾驶
智能监控
暴恐检测(根据面相识别暴恐倾向)
移动侦测、区域入侵检测、安全帽/安全带检测

3 )车辆检测

自动驾驶
违章查询、关键通道检测
广告检测(检测广告中的车辆类型,弹出链接)

4 )遥感检测

大地遥感,如土地使用、公路、水渠、河流监控
农作物监控
军事检测

目标检测原理

目标检测分为两大系列-- -RCNN系列和YOLO系列 , RCNN系列是基于区域检测的代表性算法, YOLO是基于区域提取的代表性算法,另外还有著名的SSD是基于前两个系列的改进。

1.候选区域产生

很多目标检测技术都会涉及候选框( bounding boxes )的生成,物体候选框获取当前主要使用图像分割与区域生长技术。区域生长(合并)主要由于检测图像中存在的物体具有局部区域相似性(颜色、纹理等)。目标识别与图像分割技术的发展进一步推动有效提取图像中信息。

1 )滑动窗口

通过滑窗法流程图可以很清晰理解其主要思路:首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分,最后采用非极大值抑制(Non-MaximumSuppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。滑窗法简单易于理解,但是不同窗口大小进行图像全局搜索导致效率低下,而且设计窗口大小时候还需要考虑物体的长宽比。所以,对于实时性要求较高的分类器，不推荐使用滑窗法。

2 )选择性搜索

①什么是选择性搜索

滑窗法类似穷举进行图像子区域搜索,但是一般情况下图像中大部分子区域是没有物体的。学者们自然而然想到只对图像中最有可能包含物体的区域进行搜索以此来提高计算效率。选择搜索( selective search ,简称SS )方法是当下最为熟知的图像bounding boxes提取算法,由Koen E.A于2011年提出。选择搜索算法的主要思想:图像中物体可能存在的区域应该是有某些相似性或者连续性区域的。因此,选择搜索基于上面这一想法采用子区域合并的方法进行提取bounding boxes。首先,对输入图像进行分割算法产性许多小的子区域。欺,根据这些子区域之间相似性(相似性标准主要有颜色、纹理、大小等等)进行区域合并,不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做bounding boxes(外切矩形) ,这些子区域外切矩形就是通常所说的候选框。

②选择搜索流程

● step0 :生成区域集R
● step1 :计算区域集R里每个相邻区域的相似度S={s1, s2…}
● step2 :找出相似度最高的两个区域,将其合并为新集,添加进R
● step3 :从S中移除所有与step2中有关的子集
● step4 :计算新集与所有子集的相似度
● step5 :跳至step2 ,直至S为空

③选择搜索优点

● 计算效率优于滑窗法
● 由于采用子区域合并策略,所以可以包含各种大小的疑似物体框
● 合并区域相似的指标多样性,提高了检测物体的概率

2.数据表示

经过标记后的样本数据如下所示 :

预测输出可以表示为:

其中, pc为预测结果的置信概率, bx, by, bw, bn为边框坐标, C1, C2, C3为属于某个类别的概率。通过预测结果、实际结果,构建损失函数。损失函数包含了分类、回归两部分组成。

3.效果评估

使用loU ( Intersection over Union ,交并比)来判断模型的好坏。所谓交并比,是指预测边框、实际边框交集和并集的比率, -般约定0.5为-个可以接收的值。

4.非极大值抑制

预测结果中,可能多个预测结果间存在重叠部分,需要保留交并比最大的、去掉非最大的预测结果,这就是非极大值抑制( Non-MaximumSuppression ,简写作NMS )。如下图所示,对同一个物体预测结果包含三个概率0.8/0.9/0.95 ,经过非极大值抑制后,仅保留概率最大的预测结果。

三、目标检测模型

1. R-CNN系列

1 ) R-CNN

①定义

R-CNN(全称Regions with CNN features) ,是R-CNN系列的第一代算法,实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉的知识相结合。比如R-CNN pipeline中的第二步和第四步其实就属于传统的“计算机视觉"技术。使用selective search提取region proposals ,使用SVM实现分类。

②流程

● 预训练模型。选择一个预训练( pre-trained )神经网络(如AlexNet、VGG)。
● 重新训练全连接层。使用需要检测的目标重新训练( re-train )最后全连接层( connected layer )。
● 提取proposals并计算CNN特征。利用选择性搜索( Selective Search )算法提取所有proposals (大约2000幅images ) , 调整( resize/warp )它们成固定大小,以满足CNN输入要求(因为全连接层的限制) , 然后将feature map保存到本地磁盘。
● 训练SVM。利用feature map训练SVM来对目标和背景进行分类(每个类一个二进制SVM )
● 边界框回归( Bounding boxes Regression )。训练将输出一些校正因子的线性回归分类器

③效果

●R-CNN在VOC 2007测试集上mAP达到58.5% ,打败当时所有的目标检测算法

④缺点

● 重复计算,每个region proposal ,都需要经过一个AlexNet特征提取,为所有的Rol ( region of interest )提取特征大约花费47秒，占用空间
● selective search方法生成region proposal ,对一-帧图像,需要花费2秒
● 三个模块(提取、分类、回归)是分别训练的,并且在训练时候,对于存储空间消耗较大

2 ) Fast R-CNN

①定义

Fast R-CNN是基于R-CNN和SP Pnets进行的改进。SPPnets ,其创新点在于只进行一次图像特征提取 (而不是每个候选区域计算一次) ,然后根据算法,将候选区域特征图映射到整张图片特征图中。

②流程

● 使用selective search生成region proposal ,大约2000个左右区域候选框
● (joint training)缩放图片的scale得到图片金字塔, FP得到conv5的特征金字塔
● (joint training)对于每个scale的每个ROI ,求取映射关系,在conv5中剪裁出对应的patch。并用一个单层的SSP layer来统一-到- 样的尺度(对于AlexNet是6*6 )
● (joint training)继续经过两个全连接得到特征,这特征又分别共享到两个新的全连接,连接上两个优化目标。第一个优化目标是分类,使用softmax ,第二个优化目标是bbox regression ,使用了一个平滑的L1-loss
● 测试时需要加上NMS处理:利用窗[得分分别对每一类物体进行非极大值抑制提出重叠建议框,最终得到每个类别中回归修正后的得分最高的窗口

③改进

● 和RCNN相比,训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒。在VGG16上, Fast RCNN训练速度是RCNN的9倍,测试速度是RCNN的213倍;训练速度是SPP-net的3倍,测试速度是SPP-net的3倍
● Fast RCNN在PASCAL VOC 2007.上准确率相差无几,约在66~67%之间
● 加入Rol Pooling ,采用一个神经网络对全图提取特征
● 在网络中加入了多任务函数边框回归,实现了端到端的训练

④缺点

● 依旧采用selective search提取region proposal (耗时2~3秒,特征提取耗时0.32秒)
● 无法满足实时应用,没有真正实现端到端训练测试
● 利用了GPU ,但是region proposal方法是在CPU上实现的

3 ) Faster RCNN

经过R-CNN和Fast-RCNN的积淀, Ross B.Girshick在201 6年提出了新的FasterRCNN ,在结构上将特征抽取、region proposal提取，bbox regression ,分类都整合到了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。

①整体流程

● Conv Layers。作为- -种CNN网络目标检测方法, Faster RCNN首先使用- -组基础的卷积/激活/池化层提取图像的特征,形成一个特征图,用于后续的RPN层和全连接层。 Region Proposal Networks ( RPN )。RPN网络用于生成候选区域,该层通过softmax判断锚点( anchors )属于前景还是背景,在利用bounding boxregression (包围边框回归)获得精确的候选区域。
● Rol Pooling。该层收集输入的特征图和候选区域,综合这些信息提取候选区特征图( proposal feature maps ) , 送入后续全连接层判定目标的类别。
● Classification。利用取候选区特征图计算所属类别,并再次使用边框回归算法获得边框最终的精确位置。

②Anchors

Anchors (锚点)指由一组矩阵,每个矩阵对应不同的检测尺度大小。如下矩阵:

其中每行4个值( x1,91,x2,Y2) , 对应矩形框左上角、右下角相对于中心点的偏移量。9个矩形共有三种形状,即1:1, 1:2, 2:1 ,即进行多尺度检测。

例如，一张800 x 600的原始图片,经过VGG下采样后(生成特征矩阵)16倍大小,大小变为50*38 ,每个点设置9个anchor ,则总数为:

③Bounding box regression

物体识别完成后,通过一种方式对外围框进行调整,使得和目标物体更加接近。

④损失函数

对一个图像的损失函数,是-一个分类损失函数与回归损失函数的叠加:

● i是一个mini-batch中anchor的索引
● p是anchor i为目标的预测概率
● ground truth标签p;就是1 ,如果anchor为负, p;就是0
● ti是一个向量,表示预测的包围盒的4个参数化坐标
● Nels 是与正anchor对应的ground truth的坐标向量
● Nreg为anchor位置的数量(大约2400) , λ=10

⑤改进

● 在V0C2007测试集测试mAP达到73.2% ,目标检测速度可达5帧/秒
● 提出Region Proposal Network(RPN) ,取代selective search ,生成待检测区域,时间从2秒缩减到了10毫秒
● 真正实现了一个完全的End-To-End的CNN目标检测模型
● 共享RPN与Fast RCNN的特征

⑥缺点

● 还是无法达到实时检测目标
● 获取region proposal，再对每个proposal分类计算量还是较大

2. YOLO系列

1)YOLOv1(2016)

①基本思想

YOLO ( You Only Look Once ) 是继RCNN , fast-RCNN和faster-RCNN之后, RossGirshick针对DL目标检测速度问题提出的另一种框架,其核心思想是生成Rol+目标检测两阶段( two-stage )算法用一套网络的一-阶段( one-stage )算法替代,直接在输出层回归bounding box的位置和所属类别。
之前的物体检测方法首先需要产生大量可能包含待检测物体的先验框,然后用分类器判断每个先验框对应的边界框里是否包含待检测物体,以及物体所属类别的概率或者置信度,同时需要后处理修正边界框,最后基于- -些准则过滤掉置信度不高和重叠度较高的边界框,进而得到检测结果。这种基于先产生候选区再检测的方法虽然有相对较高的检测准确率,但运行速度较慢。
YOLO创造性的将物体检测任务直接当作回归问题( regression problem )来处理,将候选区和检测两个阶段合_为一。只需一-眼就能知道每张图像中有哪些物体以及物体的位置。下图展示了各物体检测系统的流程图。

实际上, YOLO并没有真正去掉候选区,而是采用了预定义候选区的方法,也就是将图片划分为77个网格,每个网格允许预测出2个边框,总共492个boundingbox ,可以理解为98个候选区域,它们很粗略地覆盖了图片的整个区域。YOLO以降低mAP为代价,大幅提升了时间效率。

每个网格单元预测这些框的2个边界框和置信度分数。这些置信度分数反映了该模型对框是否包含目标的可靠程度,以及它预测框的准确程度。置信度定义为:

如果该单元格中不存在目标,则置信度分数应为零。否则,我们希望置信度分数等于预测框与真实值之间联合部分的交集( I0U )。
每个边界框包含5个预测: x , y, w , h和置信度。(x , y)坐标表示边界框相对于网格单元边界框的中心。宽度和高度是相对于整张图像预测的。最后,置信度预测表示预测框与实际边界框之间的I0U。
每个网格单元还预测C个条件类别概率Pr(Class; |Object)。这些概率以包含目标的网格单元为条件。每个网格单元我们只预测的一组类别概率,而不管边界框的的数量B是多少。

②网络结构

YOLOv1网络有24个卷积层,后面是2个全连接层。我们只使用1 X 1降维层,后面是3 X 3卷积层。如下图所示:

为了快速实现快速目标检测, YOLOV1还训练了快速版本。快速YOLO使用具有较少卷积层( 9层而不是24层)的神经网络,在这些层中使用较少的滤波器。除了网络规模之外, YOLO和快速YOLO的所有训练和测试参数都是相同的。网络的最终输出是7730(1470)的预测张量。

③训练过程与细节

( 1 )预训练。采用前20个卷积层、平均池化层、全连接层进行了大约一周的预训练;
( 2 )输入。输入数据为224224和448448大小的图像;
( 3 )采用相对坐标。通过图像宽度和高度来规范边界框的宽度和高度,使它们落在0和1之间;边界框x和y坐标参数化为特定网格单元位置的偏移量,边界也在0和1之间;
(4 )损失函数

● 损失函数由坐标预测、是否包含目标物体置信度、类别预测构成;
● 其中10”表示目标是否出现在网格单元中,表示1003网格单元i中的第个边界框预测器”负责"该预测;
● 如果目标存在于该网格单元中(前面讨论的条件类别概率) , 则损失函数仅惩罚分类错误;
● 如果预测器”负责”实际边界框(即该网格单元中具有最高lOU的预测器) , 则它也仅惩罚边界框坐标错误。
(5)学习率。第一个迭代周期,慢慢地将学习率从10- 3提高到10-2 ;然后继续以10-2的学习率训练75个迭代周期,用10 -3的学习率训练30个迭代周期,最后用10- 4的学习率训练30个迭代周期。
( 6 )避免过拟合策略。使用dropout和数据增强来避免过拟合。

④优点与缺点

(1)优点
● YOLO检测物体速度非常快,其增强版GPU中能跑45fps ( frame per
second ) , 简化版155fps
● YOLO在训练和测试时都能看到一整张图的信息(而不像其它算法看到局部图片
信息) ,因此YOLO在检测物体是能很好利用上下文信息,从而不容易在背景上预测出错误的物体信息
● YOLO可以学到物体泛化特征

(2)缺点
● 精度低于其它state-of-the-art的物体检测系统
● 容易产生定位错误
● 对小物体检测效果不好,尤其是密集的小物体,因为-一个栅格只能检测2个物体
● 由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体处理上还有待加强

2)YOLOv2(2016)

Ross Girshick吸收fast-RCNN和SSD算法,设计了YOLOv2 (论文原名《YOL09000:Better, Faster, Stronger》) , 在精度上利用- -些列训练技巧,在速度上应用了新的网络模型DarkNet19 , 在分类任务上采用联合训练方法,结合wordtree等方法,使YOLOv2的检测种类扩充到了，上千种,作者在论文中称可以检测超过9000个目标类别,所以也称YOLO9000. YOLOv2模型可以以不同的尺寸运行,从而在速度和准确性之间提供了-个简单的折衷,在67FPS时, YOLOv2在VOC 2007上获得了76.8 mAP。在40FPS时 , YOLOv2获得了78.6 mAP ,比使用ResNet的Faster R-CNN和SSD等先进方法表现更出色,同时仍然运行速度显著更快。

①改进策略

YOLOv2对YOLOv1采取了很多改进措施,以提高模型mAP ,如下图所示:

(1 ) Batch Normalization (批量正则化)。YOLOv2中在每个卷积层后加BatchNormalization(BN)层,去掉dropout. BN层可以起到一定的正则化效果,能提升模型收敛速度,防止模型过拟合。YOLOv2通过使用BN层使得mAP提高了2%。
(2 ) High Resolution Classifier (高分辨率分类器)。原来的YOLO网络在预训练的时候采用的是224224的输入(这是因为一-般预训练的分类模型都是在lmageNet数据集上进行的) , 然后在detection的时候采用448448的输入,这会导致从分类模型切换到检测模型的时候,模型还要适应图像分辨率的改变。而YOLOv2则将预训练分成两步:先用224224的输入从头开始训练网络,大概160个epoch (表示将所有训练数据循环跑160次) , 然后再将输入调整到448448 ,再训练10个epoch。注意这两步都是在ImageNet数据集上操作。最后再在检测的数据集上fine-tuning ,也就是detection的时候用448* 448的图像作为输入就可以顺利过渡了。作者的实验表明这样可以提高几乎4%的mAP。
( 3) Convolutional With Anchor Boxes (带Anchor Boxes的卷积)。
YOLOv1利用全连接层直接对边界框进行预测,导致丢失较多空间信息,定位不准。YOLOv2去掉了YOLOv1中的全连接层,使用Anchor Boxes预测边界框,同时为了得到更高分辨率的特征图, YOLOv2还去掉了一个池化层。由于图片中的物体都倾向于出现在图片的中心位置,若特征图恰好有一个中心位置,利用这个中心位置预测中心点落入该位置的物体,对这些物体的检测会更容易。所以总希望得到的特征图的宽高都为奇数。YOLOv2通过缩减网络,使用41 641 6的输入,模型下采样的总步长为32 ,最后得到1313的特征图,然后对1313的特征图的每个cel预测5个anchor
( 4) Dimension Clusters (维度聚类)。
在Faster R-CNN和SSD中,先验框都是手动设定的,带有一定的主观性。YOLOv2采用k- means聚类算法对训练集中的边界框做了聚类分析,选用boxes之间的I0U值作为聚类指标。综合考虑模型复杂度和召回率,最终选择5个聚类中心,得到5个先验框,发现其中中扁长的框较少,而瘦高的框更多,更符合行人特征。通过对比实验,发现用聚类分析得到的先验框比手动选择的先验框有更高的平均I0U值,这使得模型更容易训练学习。

VOC和COCO的聚类边界框尺寸。我们对边界框的维度进行k-means聚类,以获得我们模型的良好先验。左图显示了我们通过对k的各种选择得到的平均I0U。我们发现k=5给出了- -个很好的召回率与模型复杂度的权衡。右图显示了VOC和COCO的相对中心。这两种先验都赞成更薄更高的边界框,而COCO比VOC在尺寸上有更大的变化。
(5 ) New Network (新的网络)。
YOLOv2采用Darknet-19 ,其网络结构如下图所示,包括19个卷积层和5个max pooling层,主要采用33卷积和11卷积,这里.11卷积可以压缩特征图通道数以降低模型计算量和参数,每个卷积层后使用BN层以加快模型收敛同时防止过拟合。最终采用global avg pool做预测。采用YOLOv2 ,模型的mAP值没有显著提升,但计算量减少了。

(6)直接定位预测( Direct location Prediction )。
Faster R-CNN使用anchorboxes预测边界框相对先验框的偏移量,由于没有对偏移量进行约束,每个位置预测的边界框可以落在图片任何位置,会导致模型不稳定,加长训练时间。YOLOv2沿用YOLOv1的方法,根据所在网格单元的位置来预测坐标,则Ground Truth的值介于0到1之间。网络中将得到的网络预测结果再输入sigmoid函数中,让输出结果介于0到1之间。设-一个网格相对于图片左上角的偏移量是cx , Cy。先验框的宽度和高度分别是pw和Ph ,则预测的边界框相对于特征图的中心坐标(bx , by )和宽高bw , bn的计算公式如下图所示。

其中,为sigmoid函数; tx, ty是预测的坐标偏移值(中心点坐标) ; tw, tr是尺度缩放,分别经过sigmoid ,输出0-1之间的偏移量,与Cx , cy相加后得到boundingbox中心点的位置。
( 7 )细粒度特征( Fine-Grained Features)。
YOLOv2借鉴SSD使用多尺度的特征图做检测,提出pass through层将高分辨率的特征图与低分辨率的特征图联系在-起,从而实现多尺度检测。YOLOv2提取Darknet-1 9最后一个max pool层的输入,得到2626512的特征图。经过1164的卷积以降低特征图的维度,得到26* 2664的特征图,然后经过pass through层的处理变成1313* 256的特征图(抽取原特征图每个22的局部区域组成新的channel ,即原特征图大小降低4倍,channel增加4倍) ,再与13131024大小的特征图连接,变成13131280的特征图,最后在这些特征图上做预测。使用Fine-Grained Features , YOLOv2的性能提升了1%。
(8)多尺度训练( Multi-Scale Training)。
YOLOv2中使用的Darknet-19网络结构中只有卷积层和池化层,所以其对输入图片的大小没有限制。YOLOv2采用多尺度输入的方式训练,在训练过程中每隔1 0个batches,重新随机选择输入图片的尺寸，由于Darknet-19~下采样总步长为32 ,输入图片的尺寸-般选择32的倍数{320,352,…0… (最小的选项是320x320 ,最大的是608608.我们调整网络的尺寸并继续
训练)。采用Multi-Scale Training,可以适应不同大小的图片输入,当采用低分辨率的图片输入时, mAP值略有下降,但速度更快,当采用高分辨率的图片输入时，能得到较高mAP值,但速度有所下降。

YOLOv2比先前的检测方法更快,更准确。它也可以以不同的分辨率运行,以便在速度和准确性之间进行简单折衷

②训练过程

● 第一阶段:现在ImageNet分类数据集上训练Darknet-1 9,此时模型输入为224224 ,共训练160轮
● 第二阶段:将网络输入调整为448448 ,继续在ImageNet分类数据集上训练细调模型,共10轮,此时分类模型top-1准确率为76.5% ,而top-5准确度为93.3%
● 第三阶段:修改Darknet-19分类模型为检测模型,并在检测数据集上继续细调网络

③优点与缺点

(1)优点
● YOLOv2使用了- -个新的分类器作为特征提取部分,较多使用了33卷积核,在每次池化后操作后把通道数翻倍。网络使用了全局平均池化,把11卷积核置于3*3卷积核之间,用来压缩特征。也用了batch normalization稳定模型训练
● 最终得出的基础模型就是Darknet-19 ,包含19个卷积层, 5个最大池化层,运算次数55.8亿次, top-1图片分类准确率72.9% , top-5准确率91.2%
● YOLOv2比VGG16更快,精度略低于VGG16
(2)缺点
● YOLOv2检测准确率不够,比SSD稍差
● 不擅长检测小物体
● 对近距离物体准确率较低

3) YOLOv3 ( 2018 )

YOLOv3总结了自己在YOLOv2的基础上做的一些尝试性改进,有的尝试取得了成功,而有的尝试并没有提升模型性能。其中有两个值得一提的亮点 ,一个是使用残差模型,进-步加深了网络结构;另一个是使用FPN架构实现多尺度检测。

①改进

● 新网络结构: DarkNet-53 ;
● 用逻辑回归替代softmax作为分类器;
● 融合FPN (特征金字塔网络) ,实现多尺度检测。

②多尺度预测

YOLOv3在基本特征提取器上添加几个卷积层,其中最后-个卷积层预测了-个三维张量–边界框 ,目标和类别预测。在COCO实验中 ,为每个尺度预测3个框,所以对于4个边界框偏移量, 1个目标预测和80个类别预测,张量的大小为NxNx[3* ( 4+1 +80)]。接下来,从前面的2个层中取得特征图,并将其上采样2倍。YOLOv3还从网络中的较前的层中获取特征图,并使用按元素相加的方式将其与上采样特征图进行合并。这种方法使得能够从上采样的特征图中获得更有意义的语义信息，同时可以从更前的层中获取更细粒度的信息。然后,再添加几个卷积层来处理这个组合的特征图,并最终预测出一个类似的张量,虽然其尺寸是之前的两倍。最后,再次使用相同的设计来预测最终尺寸的边界框。因此,第三个尺寸的预测将既能从所有先前的计算,又能从网络前面的层中的细粒度的特征中获益。

③网络结构

YOLOv3在之前Darknet-1 9的基础上引入了残差块,并进一步加深了网络 ,改进后的网络有53个卷积层,取名为Darknet-53 ,网络结构如下图所示(以256*256的输入为例):

从YOLOv1到YOLOv2再到YOLO9000、YOLOv3, YOLO经历E代变革,在保持速度优势的同时,不断改进网络结构,同时汲取其它优秀的目标检测算法的各种trick ,先后引入anchor box机制、引入FPN实现多尺度检测等。
不同backbone的各种网络在准确度, bllins of operations , bllin floating point operations persecond和FPS_上的比较
每个网络都使用相同的设置进行训练,并在256* 256的图像上进行单精度测试。运;行时间是在Titan X.上用256*256图像进行测量的。因此,Darknet-53可与最先进的分类器相媲美,但浮点运算更少,速度更快。Darknet-53比ResNet-101更好, 且速度快1.5倍。Darknet-53与ResNet-152具有相似的性能 ,但速度快2倍。
Darknet-53也实现了最高的每秒浮点运算测量。这意味着网络结构可以更好地利用GPU ,使它的评测更加高效,更快。这主要是因为ResNet的层数太多 , 效率不高。

④效果

( 1 )兼顾速度与准确率。在COCO数据机上, mAP指标与SSD模型相当,但速度提高了3倍; mAP指标比RetinaNet模型差些,但速度要高3.8倍。

( 2 )小目标检测有所提升,但中等和更大尺寸的物体.上的表现相对较差。

当然, YOLOv3也有些失败的尝试,并未起到有效作用,请自行查阅原始论文。

三、视频关键帧处理

例如,需要从一台晚会中抹去某个违法明星的视频,如果视频每秒25帧,采用逐帧扫描,每处理一-帧需要2秒,则需要的处理时间为:

共需要200个小时才能处理完成。所以就需要借助关键帧来提高处理速度,降低目标检测复杂度。

1.什么是关键帧

关键帧( I-Frame) :

● 关键帧是包含该段视频中主要信息的帧
● 关键帧在压缩成AVI, MP4, MOV等格式时,该帧会完全保留
● 视频解码时只需要本帧数据,不需要从前一-帧、后- -帧获取数据

前向差别帧( P-Frame )

● 当前帧与前一个I-Frame或前一个P-Frame之间的差别,可以理解为与前- -帧的数据偏移值
● P-Frame没有完整数据画面,只有与前一-帧的差别信息,解码时需要从前一帧获取数据

双向差别帧( B-Frame )

● 记录本帧与前- -帧、后- -帧的差别
● 解码时需要获取前一帧、后- -帧的数据
● 压缩后的视频体积小,但编解码计算较慢

2.如何提取关键帧

可以使用FFMPEG工具提取视频中的关键帧。

也可以使用FFMPEG工具进行视频截取。

四、目标检测数据集

1. PASCAL VOC

VOC数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本: 2007和2012。学术界常用5k的train/val 2007和1 6k的train/val 201 2作为训练集, test 2007作为测试集，用10k的train/val 2007+test 2007和16k的train/val 2012作为训练集，test2012作为测试集,分别汇报结果。

2. MS COCO

COCO数据集是微软团队发布的一个可以用来图像
recognition+segmentation+captioning数据集,该数据集收集了大量包含常见物体的日常场景图片,并提供像素级的实例标注以更精确地评估检测和分割算法的效果，致力于推动场景理解的研究进展。依托这一数据集,每年举办一次比赛,现已涵盖检测、分割、关键点识别、注释等机器视觉的中心任务,是继lmageNetChallenge以来最有影响力的学术竞赛之一。
相比lmageNet , COCO更加偏好目标与其场景共同出现的图片, 即non-iconicimages.这样的图片能够反映视觉上的语义,更符合图像理解的任务要求。而相对的iconic images则更适合浅语义的图像分类等任务.
COCO的检测任务共含有80个类,在2014年发布的数据规模train/val/test分别为80k/40k/40k ,学术界较为通用的划分是使用train和35k的val子集作为训练集( trainval35k ) , 使用剩余的va作为测试集( minival ) ,同时向官方的evaluationserver提交结果( test-dev)。除此之外, COCO官方也保留一部分test数据作为比赛的评测集。

3. Google Open Image

Open Image是谷歌团队发布的数据集。最新发布的Open lmages V4包含190万图像、600个种类, 1540万个bounding-box标注,是当前最大的带物体位置标注信息的数据集。这些边界框大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。另外,这些图像是非常多样化的,并且通常包含有多个对象的复杂场景(平均每个图像8个)。

4. ImageNet

lmageNet是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。lmageNet是美国斯坦福的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。ImageNet数据集文档详细 ,有专]的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的”标准”数据集。ImageNet数据集有 1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

五、常用图像标注工具

1. Labellmg

1 ) Labellmg是一款开源的图像标注工具 ,标签可用于分类和目标检测,它是用Python编写的,并使用Qt作为其图形界面,简单好用。注释以PASCAL VOC格式保存为XML文件,这是IlmageNet使用的格式。此外,它还支持COCO数据集格式。
2)安装方法:
前置条件:安装Python3以上版本,安装pyqt5第一步:下载安装包第二步:使用Pycharm打开项目,运行labellmg.py文件;或直接运行labellmg.py文件
3)常见错误处理:
①报错: ModuleNotFoundError: No module named ‘libs.resources’
● 处理方式:

将python 下scripts添加到环境变量path中
在labellmg目录下执行命令: pyrcc5 -0 resources.py resources.qrc
将生成的resources.py拷贝到labellmg/libs/ 下
执行labellmg.py程序

2. Labelme

labelme是一款开源的图像/视频标注工具 ,标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Labelme。Labelme具有的特点是 :
● 支持图像的标注的组件有:矩形框,多边形,圆，线,点( rectangle,
polygons, circle, lines, points )
● 支持视频标注
● GUI自定义
● 支持导出VOC格式用于semantic/instance segmentation
● 支出导出COCO格式用于instance segmentation

3. Labelbox

Labelbox是-家为机器学习应用程序创建、管理和维护数据集的服务提供商,其中包含-款部分免费的数据标签工具,包含图像分类和分割,文本,音频和视频注释的接口,其中图像视频标注具有的功能如下:
● 可用于标注的组件有: 矩形框,多边形,线,点，画笔,超像素等(boundingbox, polygons, lines, points , brush, subpixels )
● 标签可用于分类,分割，目标检测等
● 以JSON / CSV / WKT / COCO / Pascal VOC等格式导出数据
● 支持Tiled Imagery (Maps)
● 支持视频标注(快要更新)

4. RectLabel

RectLabel是-款在线免费图像标注工具,标签可用于目标检测、分割和分类。具有的功能或特点:
● 可用的组件:矩形框,多边形,三次贝塞尔曲线,直线和点,画笔,超像素
● 可只标记整张图像而不绘制
● 可使用画笔和超像素
● 导出为YOLO , KITTI , COCO JSON和CSV格式
● 以PASCAL VOC XML格式读写
● 使用Core ML模型自动标记图像
● 将视频转换为图像帧

5. CVAT

CVAT是一款开源的基于网络的交互式视频/图像标注工具,是对加州视频标注工具( Video Annotation Tool )项目的重新设计和实现。OpenCV团队正在使用该工具来标注不同属性的数百万个对象,许多UI和UX的决策都基于专业数据标注团队的反馈。具有的功能
● 关键帧之间的边界框插值
● 自动标注(使用TensorFlow OD API和Intel OpenVINO IR格式的深度学习模型)

6. VIA

VGG Image Annotator (VIA)是一款简单独立的手动注释软件,适用于图像,音频和视频。VIA 在Web浏览器中运行,不需要任何安装或设置。页面可在大多数现代Web浏览器中作为离线应用程序运行。
● 支持标注的区域组件有:矩形,圆形,椭圆形,多边形,点和折线

附录:术语表

英文全写	英文简写	中文名称
one stage		一阶段检测
region proposal	RP	候选区域（一个有可能包含待检物体的预选框）
bounding boxes	bb	候选框
Non-Maximum Suppressionone stage	NMS	非极大值抑制
selective search	SS	选择搜索
Regions with CNN featuresone stage	R-CNN
region of interest	RoI	感兴趣区域（候选区域）
You Only Look Once	YOLO
frame per second	fps	帧每秒
High Resolution Classififier		高分辨率分类器
Batch Normalization	BN	批量正则化
Mean Average Precision	mAP	平均精度均值
Intersection over Union	IOU	交并比（“预测的边框” 和 “真实的边框” 的交集和并集的比值）
Fine-Grained Features		细粒度特征
Feature Pyramid Network	FPN	特征金字塔网络

你可能感兴趣的:(深度学习,目标检测)

仓库货物检测：基于YOLOv5的深度学习应用与UI界面开发 YOLO实战营 YOLO 深度学习 ui 目标跟踪目标检测人工智能
一、引言随着电商和物流行业的快速发展，仓库货物管理已经成为企业运营中至关重要的环节。为了提高仓库管理的效率和准确性，越来越多的企业开始应用自动化技术来完成货物的盘点、分类、分拣等任务。传统的货物管理方式通常依赖人工检查，不仅效率低下，而且容易出现误差。为了克服这些问题，利用计算机视觉和深度学习技术来实现仓库货物的自动化检测成为了一种有效的解决方案。本博客将介绍如何使用YOLOv5进行仓库货物检测，
Transformer：自注意力驱动的神经网络革命引擎大千AI助手人工智能 Python #OTHER transformer 神经网络深度学习 google 人工智能机器学习大模型
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从语言理解到多模态智能的通用架构基石⚙️一、核心定义与历史意义Transformer是由Google团队在2017年论文《AttentionIsAllYouNeed》中提出的深度学习架构，其颠覆性创新在于：完全摒弃RNN/CNN：仅依赖自注意力机制（S
[特殊字符] LLM（大型语言模型）：智能时代的语言引擎与通用推理基座大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理 LLM 大模型 Transformer
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从千亿参数到人类认知的AI革命一、核心定义与核心特征LLM（LargeLanguageModel）是基于海量文本数据训练的深度学习模型，通过神经网络架构（尤其是Transformer）模拟人类语言的复杂规律，实现文本理解、生成与推理任务。其核心特征可概
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例你喜欢喝可乐吗？ deep learning deploy 深度学习 YOLO 目标检测
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例深度学习模型从开发到部署的完整流程包含需求分析、数据准备、模型训练、模型优化、模型测试和部署运行六大核心环节。YOLOv11作为新一代目标检测模型，不仅延续了YOLO系列的高效实时性能，还在检测精度和泛化能力上取得显著突破，使其成为工业质检、安防监控、自动驾驶等领域的理想选择。本文将详细阐述这一完整流程，并结合YOLOv11的具体实现，提
预测导管原位癌浸润性复发的深度学习：利用组织病理学图像和临床特征浪漫的诗人论文深度学习人工智能
文章目录研究内容目的方法数据集模型开发模型训练与评估外部验证统计分析研究结果模型性能风险分层外部验证特征重要性原文链接原文献：Deeplearningforpredictinginvasiverecurrenceofductalcarcinomainsitu:leveraginghistopathologyimagesandclinicalfeatures研究背景【DCIS与IBC的关联】乳腺导管
深度学习：让 AI 拥有 “思考” 能力的核心技术田园Coder 人工智能科普人工智能科普
1.深度学习：突破传统的AI“进阶版”1.1什么是深度学习？深度学习是机器学习的一个分支，它通过模拟人脑神经网络的多层结构，让AI能够自动学习数据中的复杂特征，从而完成更高级的认知任务。例如，传统机器学习需要人类手动提取“猫有尖耳朵、胡须”等特征，而深度学习能直接从原始图片中，自主学习从像素到轮廓、再到整体形态的多层特征，最终实现更精准的识别。这种“自主提取特征”的能力，让深度学习突破了传统AI的
PyTorch torch.no_grad() 指南（笔记）拉拉拉拉拉拉拉马 pytorch 人工智能 python 笔记深度学习
PyTorchtorch.no_grad()权威在PyTorch深度学习框架中，高效的显存管理对于训练复杂模型和执行大规模推理任务至关重要。显存不足（OutOfMemory,OOM）错误是开发者经常面临的挑战之一。torch.no_grad()作为PyTorch提供的一个核心工具，能够在推理（inference）和验证（validation）阶段显著优化显存使用并提升计算速度。本报告旨在全面、深入
【深度学习基础】PyTorch中model.eval()与with torch.no_grad()以及detach的区别与联系？
目录1.核心功能对比2.使用场景对比3.区别与联系4.典型代码示例(1)模型评估阶段(2)GAN训练中的判别器更新(3)提取中间特征5.关键区别总结6.常见问题与解决方案(1)问题：推理阶段显存爆掉(2)问题：Dropout/BatchNorm行为异常(3)问题：中间张量意外参与梯度计算7.最佳实践8.总结以下是PyTorch中model.eval()、withtorch.no_grad()和.d
探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
院级医疗AI管理流程—基于数据共享、算法开发与工具链治理的系统化框架 Allen_Lyb 医疗高效编程研发人工智能算法时序数据库经验分享健康医疗
医疗AI：从“单打独斗”到“协同共进”在科技飞速发展的今天，医疗人工智能（AI）正以前所未有的速度改变着传统医疗模式。从最初在影像诊断、临床决策支持、药物发现等单一领域的“单点突破”，医疗AI如今已迈向“系统级协同”的新阶段。曾经，医疗AI的应用多集中在某一特定环节，比如利用深度学习算法分析医学影像，辅助医生进行疾病诊断。这种单点突破式的应用虽然在一定程度上提高了医疗效率，但随着医疗行业对AI技术
大型语言模型的智能本质是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力语言模型人工智能自然语言处理
大型语言模型的智能本质是什么基于海量数据的统计模式识别与生成系统，数据驱动的语言模拟系统，其价值在于高效处理文本任务（如写作、翻译、代码生成），而非真正的理解与创造大型语言模型（如GPT-4、Claude等）的智能本质可概括为基于海量数据的统计模式识别与生成系统，其核心能力源于对语言规律的深度学习，但缺乏真正的理解与意识。以下从本质特征、技术机制、典型案例及争议点展开分析：一、智能本质的核心特征统
渣土车识别漏检率高？陌讯算法实测降 90% 2501_92487936 目标跟踪人工智能计算机视觉目标检测算法智慧城市
在城市建筑垃圾运输管理中，渣土车的合规性监测一直是行业痛点。传统视觉算法在复杂工况下常常出现误判——阴雨天车牌识别模糊、夜间车灯眩光导致车型误分类、不同品牌渣土车混检时准确率骤降。某市政管理局的统计显示，采用传统方案时，日均漏检率高达23%，由此引发的违规倾倒投诉占比超60%。技术解析：从单模态到多特征融合的突破传统渣土车识别多依赖单一目标检测模型（如FasterR-CNN），其核心缺陷在于：特征
考场/工厂违规用机难捕捉？3维度优化方案部署成本直降40% 2501_92487762 视觉检测计算机视觉算法目标检测
开篇痛点工业场景中传统玩手机识别面临三重挑战：小目标检测（手机平均像素占比<0.5%）、遮挡干扰（人手/物体遮挡率超60%）、实时性要求（需200ms内响应）。某安检企业反馈，开源YOLOv5在车间场景误报率高达34%。技术解析：双流特征融合架构陌讯算法创新性融合双路径特征（图1）：#陌讯核心代码逻辑（简化版）defdual_path_fusion(backbone):shallow_path=C
复杂场景检测失效？陌讯多模态算法在千万级监控网的落地实战 2501_92473061 算法视觉检测安全计算机视觉
开篇痛点：安防监控的检测困境"明明人就在画面里，系统却毫无反应！"——这是某智慧园区安防负责人的吐槽。传统目标检测模型在安防监控场景面临三大死穴：漏报：夜间、遮挡场景下召回率骤降（实测ResNet50漏报率>40%）误报：树叶晃动、光影变化引发的误报占比超35%延迟：1080P视频流检测延迟普遍>100ms，难以满足实时响应需求技术解析：陌讯算法的三阶优化架构陌讯视觉算法采用多模态特征金字塔（MM
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本