AIchiNiurou

pytorch-faster-rcnn 代码实践

转载请注明出处！

目标检测在CV里面占很大一席之地了，而目标检测当红网络肯定少不了RCNN家族。在自己的数据集上使用了Faster RCNN，效果确实不错。

理解Faster RCNN还需要相应地看Fast RCNN和RCNN，因为有的公式在前2篇出现过的会略过，就不太明白。

ok进入正题~

1 Faster RCNN论文详解

Faster RCNN网络就是：

1) 卷积网络去掉全连接层的Feature Map；

2) Feature Map——>RPN生成region proposal；

3) region proposal+Feature Map——>ROI pooling 生成proposal feature maps；

4) proposal feature maps经过全连接层后分类+bounding box regression获得最终的检测框的精确定位以及类别。

这可能会有疑问（1）为什么要生成Feature Map而不是直接输入原始图像？（2） RPN是什么，生成的region proposal和proposal feature maps有什么区别？（3）为什么还要再经过bounding box regression？

问题（１），回想曾经行人检测是hog+SVM，选定一些窗口，通过滑窗来提取区域，并提取区域的ＨＯＧ特征，输入到ＳＶＭ判断是否行人．而Ｆaster RCNN就是利用神经网络提特征．

1.1 RPN（region proposal network）

RPN的作用是生成region proposal，受到空间金字塔的启发。再回到行人检测的问题。人因为远近在图像中表现大小不一样，如果用同一个（w，h）的窗口去滑动，结果可能会漏掉小的人。所以，之后人们会用多个（w，h）的窗口去检测，并且选取响应最大的那个（w,h）。多个(w,h)具体多少个？具体w和h是多少？RPN确定了具体多少个，具体w和h是多少。

RPN取代了滑窗的形式（也可以理解为窗口的步长是1个像素吧），借鉴了FCN的思想，变成了pixel-2pixel预测，只不过FCN对于每个像素输出是N个类别的概率值，而RPN输出的就是region proposal。上述说RPN确定了具体多少个窗口和具体w和h是多少。这个窗口呢，他们叫Anchors。文献中这个Anchors的数量k=9，分别是3种尺寸size、w和h比分别为{1:1 1:2 2:1}。顺便说一句，不管你输入的图像大小是多少，最后输入进网络都会reshape为统一尺寸，比如800x600。

所以RPN就相当于，用9个窗口，步长为1个像素地去检测行人。每个像素呢，会有9个判断(同时进行，所以很节约时间)，以它为中心的9个anchors最有可能存在的位置（每个点初始化的9个anchors是一样的，经过学习，每个点的9个anchors位置都会改变）。

RPN它不仅输出了region proposal，还要分个类，不过是二分类，背景还是目标。也就是它额外加了个预测的分支。

比如使用VGG网络后最后一层卷积层的输出是256个224x224的feature maps，输入RPN后变成了 6*k个224x224的通道。（region proposal是4k，分类是2k，因为anchors需要4个变量表示，左上角x、y和w，h，分类需要2个输出，分别是是背景的概率和是目标的概率）

再看看reg和cls不要想复杂了，这两个是并行的，reg使用的是bounding box回归，cls就是二分类！结合图和代码，可以看一下reg和cls具体如何操作的。

feature_maps --> 3x3 卷积+relu 后，

输入到cls:

-->1x1卷积+relu-->reshape -->softmax-->reshpe-->output (label prediction)

第一个reshape :[batch,channels,w,h]-->[batch,2,w*channels/2,h]。这里channels等于2(bg/fg) * 9 (anchors)

第二个reshape：[batch,channels,w,h]-->[batch,18,w*channels/18,h]。

为什么要reshape：要预测的话，输入channels表示你要预测的类别有channels个，比如二分类，输入到softmax里面必须channels等于2。所以要把channels = 2*9变成　２．

再看看bounding box reg，feature_maps --> 3x3 卷积后，

输入到reg:

-->1x1卷积+relu-->bounding box reg->output (region proposals)

1.2 bounding box regression

写在前面：BB回归是特征图的函数，而不是位置的函数！即通过前面的卷积提取特征，将这些特征与偏移量（表示anchor到GT的所要经历的表示平移+缩放的4个参数）的映射关系就是BB回归要学习的东西。

这个问题在RCNN文章中详细介绍了。比如图中，绿色的框框是groundtruth，而红色的框框为rpn中某个anchor。如何让anchor逼近groundtruth呢？

平移+缩放！

假设红色的框框是A，用左上角坐标和长、宽描述，则A={Ax, Ay, Aw, Ah}，绿色的groundtruth是G，G={Gx, Gy, Gw, Gh}。要找到一种映射F，是的F(A)=G'，而G'尽量等于G。

1 平移：

G'x = Ax + △x G'y = Ay + △y

2 缩放

G'w = Aw *△w G'h = G'h*△h

△x、△y、△w 和△h可以用A的函数来表示（因为要学习这四个变量，所以必须要写成A的函数形式）

$G'x = Aw \times d_{x}(A) +Ax$

$G'y = Ah \times d_{y}( A) +Ay$

$G'w = Aw \times exp(d_{w}( A))$

$G'h = Ah \times exp(d_{h}( A))$

要学习的就是这四个变换dx，dy，dw和dh。

为什么有个exp，这是为了让缩放因子大于0。

由于输入RPN的是feature map，在feature map每个像素都有k个anchor，这k个anchor会有相应的4对变换d（dx，dy，dw和dh），每个anchor 都有相应的偏移量作为标准：

x，y，w，h是预测的框框，xa，ya，wa，ha是第i个像素的某个anchor，x*，y*，w*和h*是groundtruth的框框。t实际中就是d，而偏移量d是feature map的特征向量的函数：

$d_{*} = \omega_{*}^{T} \times \Phi (P)$

~~$\Phi (Pi)$ 是feature maps第i个像素的第k个anchor，则 $\Phi (Pi)$ ：k_ancho_w*k_ancho_h*channels的值。如下图：~~

纠正：在RPN阶段， ~~$\Phi (Pi)$~~ 是整个feature maps的输入，而在后面的才是框框里面的。

(解释一下为什么是特征向量而不是坐标，因为特征向量是高级的语义信息，它可能包含坐标，也可能包含像素值和梯度等等，这都是需要学习后才能确定的，如果直接是坐标，这就属于低级的信息了，那也就不需要用VGG网络提取特征，直接输入原始图像就好了)

最终损失函数表示形式是：

$Loss = \sum _{i=1}^{N}(t_{*}^{'}-\omega _{*}^{T}\Phi (P^{i}))^{2}$

feature maps经过3x3卷积后，分别输入到cls和reg中，得到的rpn_cls_prob和rpn_bbox_pred，将这二者还有im_info输入到RPN_proposal。（im_info解释：https://blog.csdn.net/hejin_some/article/details/80743635）

1.3 RPN_proposal

＃为每个位置i产生一个以i为中心的anchor A

＃在像素 i 中预测的bbox偏移量应用在每个anchor中

＃剪辑预测框到图像

＃删除高度或宽度小于阈值的预测框

＃根据score对所有的（proposal，score）进行排序

＃在NMS之前提取前 top pre_nms_topN的proposals （NMS:nonmaximum suppression）

＃对其余提案应用阈值为0.7的NMS

#NMS之后，采取 after_nms_topN 个 proposals

＃返回最靠前的proposals（ - > RoIs top，得分排名靠前）

通过RPN_proposal后，还需要使用Fast RCNN。

1.4 Fast RCNN: ROI pooling+分类回归

Fast RCNN：ROI pooling+（分类/回归）。

为什么需要ROI pooling？我们知道，分类在全连接层后接一个softmax，但是是需要大小一样的。前面的rpn阶段输入的是整张feature map，而这里输入的是目标ROI的feature maps，如：

ROI 和anchor的区别，anchor是统一的一定size和ratio的矩形，ROI是anchor学习的偏移量所得。这一过程是：

anchor学习了4个偏移量，anchor根据4个偏移量得到的是原始的图像对应的位置，称为bounding box（如512x512resize到600x600，则对应的是这个600x600的），bounding box经过缩小变为feature maps上的ROI。

但RPN后，根据偏移量，会把这些anchors按偏移量缩放，这就不能保证每个ROI都一样了。所以ROI pooling的作用有2个：

第一就是提取ROI的特征；

第二个就是，将每个不同大小的ROI映射出相同大小size_fix的H和W，如（7*7*channels）。方便接下来的cls 和reg。

1.5 Sharing Features for RPN and Fast R-CNN

原文中是说，RPN和Fast R-CNN独立训练的话那二者将会以不同的方式调节参数，所以需要将RPN和fast R-CNN联合起来，共同学习。

他采取的方案是交替训练——4-Step Alternating Training：

第一步：用pre-trained 的用来提取特征的model（如VGG等）初始化RPN网络，然后训练RPN，在训练后，model以及RPN会被更新。
第二步：用pre-trained 的model（和第一步一样）初始化Fast-rcnn。然后使用训练过的RPN来计算proposal，再将proposal给予Fast-rcnn网络，接着训练Fast-rcnn。训练完以后，model以及Fast-rcnn会被更新（RPN没有参与训练所以不变）。

这有个疑问，我没想明白，我觉得这个时候，Fast-rcnn和RPN是共享了的，因为RPN的结果用来训练了Fast rcnn，但是文中说At this point the two networks do not share convolutional layers.可是这一步明明是：we train a separate detection network by Fast R-CNN using the proposals generated by the step-1 RPN.

这个博主给了我解答https://blog.csdn.net/weixin_40449426/article/details/78141635 我混淆了共享卷积的概念：model始终保持和上一步Fast-rcnn中model一致，所以就称之为着共享。

分享是美德，对我有启发的尽量po上，感谢博主的分享~~~~

第三步：使用第二步训练完成的model来初始化RPN网络，第二次训练RPN网络。但是这次要把model锁定，训练过程中，model始终保持不变，而RPN的会被改变。

第四步：仍然保持第三步的model不变，初始化Fast-rcnn，第二次训练Fast-rcnn网络。其实就是对其unique进行finetune，训练完毕，得到一个文中所说的unified network。

我觉得Faster RCNN就介绍到这，可能还需要补一些Fast rcnn，因为有个roi pooling，后续加上把~~

后面到重头戏了，用自己的数据训练网络，我使用的是pytorch，配置有点繁琐，所以第二步说一下如何配置以及最可能遇到的坑！

2 Pytorch 搭建 Faster RCNN系列——Linux环境

环境介绍：

Pytorch

GPU： l英伟达 1070 8G

CUDA:9.0（8.0也可以）

传输门： https://github.com/jwyang/faster-rcnn.pytorch/

改一下这个，比如我的是1070系列，则改成 sm_61

我觉得这个时候很多人都会遇到问题，我花了半天解决~~避免大家入坑，

RuntimeError: cuda runtime error (8) : invalid device function at /pytorch/torch/lib/THC/THCTensorCopy.cu:204

问题解决方案：

https://github.com/jwyang/faster-rcnn.pytorch/issues/110

然后就是运行例题了~~嗯，这个就略过了，bug这些东西真的看人品~~

下面进入我们的训练自己的数据的环节了.

3 Faster RCNN训练自己的数据集

3.1 准备自己的数据集

介绍一下为自己的数据，为的数据已经分割了．比如一幅图像中有３个杯子，则处理原始图像，还有３张每个杯子的分割图．

第一步是制作成txt:

xxxxx1.jpg xmin1 ymin1 xmax1 ymax1

xxxxx1.jpg xmin2 ymin2 xmax2 ymax2

第二步是将txt变成ｘｍｌ．

尊重他人劳动成果，传输门：

https://github.com/ChaoPei/create-pascal-voc-dataset

3.２训练自己的网络

首先可以下载别人训练好的模型，我下载的是VGG提特征的那个．resnet效果会好一点．

上述链接有训练好的模型：https://github.com/jwyang/faster-rcnn.pytorch

Pretrained Model

We used two pretrained models in our experiments, VGG and ResNet101. You can download these two models from:

VGG16: Dropbox, VT Server
ResNet101: Dropbox, VT Server

点击VT Server.

介绍一下如何改参数把，以及调整网络：


 
   
   
   
   
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     def parse_args():
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
        
     """
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       Parse input arguments
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       """
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser = argparse.ArgumentParser(description=
     'Train a Fast R-CNN network')
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--dataset', dest=
     'dataset',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'training dataset',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     'pascal_voc', type=str)　＃可不改动
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--net', dest=
     'net',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                         help=
     'vgg16, res101',　＃我使用的是ＶＧＧ，所以把default改了
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                         default=
     'vgg16', type=str)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--start_epoch', dest=
     'start_epoch',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'starting epoch',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     1, type=int)　＃训练的时候ｅｐｏｃｈ从哪开始
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--epochs', dest=
     'max_epochs',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'number of epochs to train',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     100, type=int)　＃迭代多少次
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--disp_interval', dest=
     'disp_interval',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'number of iterations to display',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     10, type=int)　＃在一个迭代中，间隔多少个ｂａｔｃｈ显示
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--checkpoint_interval', dest=
     'checkpoint_interval',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'number of iterations to display',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     20, type=int)　＃每多少个迭代显示
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
       
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--save_dir', dest=
     'save_dir',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'directory to save models', default=
     "/home/faster-rcnn.pytorch/models",
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           type=str)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--nw', dest=
     'num_workers',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'number of worker to load data',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     0, type=int)　＃加载数据要多少个ｗｏｒｋｅｒ
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--cuda', dest=
     'cuda',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'whether use CUDA',default=
     True,
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           action=
     'store_true')　＃是否使用ｃｕｄａ
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--ls', dest=
     'large_scale',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'whether use large imag scale',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           action=
     'store_true')  ＃学习率                    
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--mGPUs', dest=
     'mGPUs',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'whether use multiple GPUs',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           action=
     'store_true')　＃是否使用ｃｕｄａ
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--bs', dest=
     'batch_size',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'batch_size',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     4, type=int)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--cag', dest=
     'class_agnostic',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'whether perform class_agnostic bbox regression',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           action=
     'store_true')　＃是否执行类无关的bbox回归
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
       
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     # config optimization
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--o', dest=
     'optimizer',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'training optimizer',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     "sgd", type=str) 
     #优化算法
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--lr', dest=
     'lr',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'starting learning rate',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     0.001, type=float)　＃初始学习率
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--lr_decay_step', dest=
     'lr_decay_step',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'step to do learning rate decay, unit is epoch',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     5, type=int)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--lr_decay_gamma', dest=
     'lr_decay_gamma',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'learning rate decay ratio',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     0.1, type=float)　＃学习率下降率
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
       
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     # set training session
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--s', dest=
     'session',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'training session',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     1, type=int)　＃训练会话，针对多ｇｐｕ
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
       
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     # resume trained model　＃使用训练好的模型
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--r', dest=
     'resume',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'resume checkpoint or not',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     False, type=bool)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--checksession', dest=
     'checksession',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'checksession to load model',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     1, type=int)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--checkepoch', dest=
     'checkepoch',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'checkepoch to load model',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     1, type=int)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--checkpoint', dest=
     'checkpoint',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'checkpoint to load model',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     0, type=int)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     # log and diaplay
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       parser.add_argument(
     '--use_tfboard', dest=
     'use_tfboard',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           help=
     'whether use tensorflow tensorboard',
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
                           default=
     False, type=bool)
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
       
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
       args = parser.parse_args()
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
        
     return args

题外话：介绍一下argparse:arguments parser参数解析器．有时需要在终端执行python文件的时候，我们需要传入参数，所以会有个argparse来传参数．

但如果本地可以直接执行，会定义个：


 
   
   
   
   
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     if __name__ == 
     '__main__':
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
         args = parse_args()

这个时候，应该如何修改或赋值上面定义的参数呢？


 
   
   
   
   
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
     if __name__ == 
     '__main__':
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
         args = parse_args()
    
      
      
      
      
   
     
     
     
     
    
    
    
    
   
     
     
     
     
    
      
      
      
      
   
     
     
     
     
   
     
     
     
     
    
      
      
      
      
       
       
       
       
         args.class_agnostic = 
     True

这个时候直接训练就可以了．训练的适合有可能出现loss会出现NaN还是-1来着，这是因为，在制作xmin ymin xmax和ymax有的是-1．python 默认是０开始，而有的坐标从１开始，具体自己谷歌吧吼吼

3.3 测试和计算ｍAP

我运行的是demo.py并且稍微改了一下使得能够测mAP，test_net.py有比较多的bug，这个一调试电脑就死机．放在我的

github帐号上把，需要的自取．

https://github.com/ShourenWang/Faster-RCNN-pytorch

恩，如有疑惑之处，欢迎留言～

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：94标注数量(xml文件个数)：94标注数量(txt文件个数)：94标注类别数：1标注类别名称:["baolu"]每个类别标注的框数：baolu框数=107总框数：107使用标注工具：labelImg标注规则：对类别进行
YOLOv8改进 | 检测头篇 | YOLOv8引入DynamicHead检测头小李学AI YOLOv8有效涨点专栏 YOLO 深度学习目标检测计算机视觉机器学习人工智能
1.DynamicHead描述1.1摘要：在目标检测中，定位和分类相结合的复杂性导致了各种方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能，但未能呈现出统一的观点。本文根据目标检测的特点，推导了一种新的动态头部框架，将目标检测头部与注意力统一起来。该方法通过在特征层次间、空间位置间和输出通道内协调组合多种自注意机制，在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验表明，本
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集_深度学习目标检测 YOLO 人工智能计算机视觉葡萄
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集：链接：https://pan.baidu.com/s/1YMwAaSJc8H5SI0f8RVSidw?pwd=iygs提取码：iygs数据集信息介绍：共有1646张图像和一一对应的标注文件标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。标注的对象共有以下几种：[‘grape’]标注框的数量信息如下：（标注
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
[数据集][目标检测]井盖丢失未盖破损检测数据集VOC+YOLO格式2890张5类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2890标注数量(xml文件个数)：2890标注数量(txt文件个数)：2890标注类别数：5标注类别名称:["broke","circle","good","lose","uncovered"]每个类别标注的框数：br
YOLOv8改进更换轻量级网络结构学yolo的小白 Upgrade YOLOv8进阶 YOLO 目标检测深度学习
一、GhostNet论文论文地址：1911.11907.pdf(arxiv.org)二、GhostNet结构GhostNet是一种高效的目标检测网络，具有较低的计算复杂度和较高的准确性。该网络采用了轻量级的架构，可以在计算资源有限的设备上运行，并能够快速地实时检测图像中的目标物体。GhostNet基于MobileNetV3的设计思路，采用了Ghost模块来减少网络参数数量，从而减少计算量并提高模型
【Python】成功解决TypeError: list indices must be integers or slices, not str 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决TypeError:listindicesmustbeintegersorslices,notstr欢迎进入我的个人主页，我是高斯小哥！博主档案：广东某985本硕，SCI顶刊一作，深耕深度学习多年，熟练掌握PyTorch框架。技术专长：擅长处理各类深度学习任务，包括但不限于图像分类、图像重构(去雾\去模糊\修复)、目标检测、图像分割、人脸识别、多标签分类、重识别(行人\车辆
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
Python 使用 Detectron2 进行目标检测 (Detectron2, CenterNet2, Detic) Eric Woo X Python AI Ubuntu python 目标检测开发语言
代码说明代码主要是一个用来演示如何使用Detectron2进行目标检测的脚本。它可以从摄像头或视频文件中读取图像，并应用指定的配置文件进行目标检测。其中，Detectron2结合了CenterNet2和Detic进行目标检测。主要库介绍Detectron2Detectron2是由FacebookAIResearch开发的一个用于目标检测和实例分割的开源库。它提供了一系列预训练模型和灵活的配置系统，
Transformer+目标检测，这一篇入门就够了 BIT可达鸭 ▶深度学习-计算机视觉 transformer 深度学习目标检测计算机视觉自然语言处理
VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT：图像分类之PyramidViT：目标检测之DETR：目标检测之DeformableDETR：本文作者：
目标检测-YOLOv2 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv2介绍YOLOv2（YouOnlyLookOnceversion2）是一种用于目标检测的深度学习模型，由JosephRedmon等人于2016年提出，并详细论述在其论文《YOLO9000:Better,Faster,Stronger》中。YOLOv2在保持高速检测的同时，显著提升了检测的精度和泛化能力，成为实时目标检测领域的重要算法之一。核心原理YOLOv2的核心原理是将目标检测问题转化
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
目标检测——YOLOv8模型预测结果张飞飞飞飞飞目标检测 YOLO 人工智能
fromultralyticsimportYOLOmodel_path=r'/home/zhangh/project1/workproject/YOLOv8/ultralytics/runs/train/2024723_yolov8n5/weights/best.pt'img_path=r'worker_data/images/val/%E9%93%B2%E6%96%97%E5%9D%90%E4%
基于yolov8的口罩佩戴检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 python
【算法介绍】基于YOLOv8的口罩佩戴检测系统是一款利用深度学习技术，特别是YOLOv8算法，实现高效、准确检测人脸是否佩戴口罩的系统。YOLOv8作为YOLO系列算法的最新版本，在检测速度和准确性上进行了显著优化，能够实时处理图像和视频数据。该系统通过训练大量标注了人脸和口罩状态（包括戴口罩、未戴口罩）的图片数据，构建了一个强大的目标检测模型。在实际应用中，该系统可以部署在公共场所如机场、车站、
[数据集][目标检测]卫星遥感舰船检测数据集VOC+YOLO格式2238张17类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2238标注数量(xml文件个数)：2238标注数量(txt文件个数)：2238标注类别数：17标注类别名称:[“AircraftCarrier”,“AuxiliaryShips”,“Cargo”,“Commander”
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓