alibabazhouyu

rpn

它的示意图如下：这里借用了 http://blog.csdn.net/zy1034092330/article/details/62044941里的图。

上面Conv layers包含了五层卷积层。接下来，对于第五层卷积层，进行了3*3的卷积操作，输出了256个通道，当然大小与卷积前的大小相同。

然后开始分别接入了cls层与regression层。对于cls层，使用1*1的卷积操作输出了18（9*2 bg/fg）个通道的feature map,大小不变。而对于regression层，也使用1*1的卷积层输出了36(4*9)个通道的feature map，大小不变。

对于cls层后又接了一个reshape层，为什么要接这个层呢？引用参考文献[1]的话，其实只是为了便于softmax分类，至于具体原因这就要从caffe的实现形式说起了。在caffe基本数据结构blob中以如下形式保存数据：
blob=[batch_size, channel，height，width]
对应至上面的保存bg/fg anchors的矩阵，其在caffe blob中的存储形式为[1, 2*9, H, W]。而在softmax分类时需要进行fg/bg二分类，所以reshape layer会将其变为[1, 2, 9*H, W]大小，即单独“腾空”出来一个维度以便softmax分类，之后再reshape回复原状。

我们可以用python模拟一下，看如下的程序：

>>> a=np.array([[[1,2],[3,4]],[[5,6],[7,8]],[[9,10],[11,12]],[[13,14],[15,16]]])

>>> a
array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12]],

       [[13, 14],
        [15, 16]]])
>>> a.shape
(4L, 2L, 2L)

然后由于caffe中是行优先，numpy也如此，那么reshape一下的结果如下：

>>> b=a.reshape(2,4,2)
>>> b
array([[[ 1,  2],
        [ 3,  4],
        [ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12],
        [13, 14],
        [15, 16]]])

从上面可以看出reshape是把相邻通道的矩阵移到它的下面了。这样就剩下两个大的矩阵了，就可以相邻通道之间进行softmax了。 从中其实我们也能发现，对于rpn每个点的18个输出通道，前9个为背景的预测分数，而后9个为前景的预测分数。

假定softmax昨晚后，我们看看是否能够回到原先？

>>> b.reshape(4,2,2)
array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12]],

       [[13, 14],
        [15, 16]]])

果然又回到了原始的状态。

而对于regression呢，不需要这样的操作，那么他的36个通道是不是也是如上面18个通道那样呢？即第一个9通道为dx,第二个为dy,第三个为dw，第五个是dh。还是我们比较容易想到的那种,即第一个通道是第一个盒子的回归量(dx1,dy1,dw1,dh1),第二个为(dx2,dy2,dw,2,dh2).....。待后面查看对应的bbox_targets就知道了。先留个坑。

正如图上所示，我们还需要准备一个层rpn-data。

layer {
  name: 'rpn-data'
  type: 'Python'
  bottom: 'rpn_cls_score'
  bottom: 'gt_boxes'
  bottom: 'im_info'
  bottom: 'data'
  top: 'rpn_labels'
  top: 'rpn_bbox_targets'
  top: 'rpn_bbox_inside_weights'
  top: 'rpn_bbox_outside_weights'
  python_param {
    module: 'rpn.anchor_target_layer'
    layer: 'AnchorTargetLayer'
    param_str: "'feat_stride': 16"
  }
}

这一层输入四个量：data,gt_boxes,im_info,rpn_cls_score,其中前三个是我们在前面说过的，

data: 1*3*600*1000
gt_boxes: N*5, N为groundtruth box的个数，每一行为(x1, y1, x2, y2, cls) ，而且这里的gt_box是经过缩放的。
im_info： 1*3 （h,w,scale）

rpn_cls_score是cls层输出的18通道，shape可以看成是1*18*H*W.

输出为4个量：rpn_labels 、rpn_bbox_targets（回归目标）、rpn_bbox_inside_weights（内权重）、rpn_bbox_outside_weights（外权重）。

通俗地来讲，这一层产生了具体的anchor坐标，并与groundtruth box进行了重叠度计算，输出了kabel与回归目标。

接下来我们来看一下文件anchor_target_layer.py

[plain] view plain copy

def setup(self, bottom, top):
layer_params = yaml.load(self.param_str_)
#在第5个卷积层后的feature map上的每个点取anchor,尺度为（8,16,32），结合后面的feat_stride为16，
#再缩放回原来的图像大小，正好尺度是(128,256,512),与paper一样。
anchor_scales = layer_params.get('scales', (8, 16, 32))
self._anchors = generate_anchors(scales=np.array(anchor_scales)) #产生feature map最左上角的那个点对应的anchor（x1,y1,x2,y2），
# 尺度为原始图像的尺度（可以看成是Im_info的宽和高尺度，或者是600*1000）。
self._num_anchors = self._anchors.shape[0] #9
self._feat_stride = layer_params['feat_stride'] #16
if DEBUG:
print 'anchors:'
print self._anchors
print 'anchor shapes:'
print np.hstack(( # 输出宽和高
self._anchors[:, 2::4] - self._anchors[:, 0::4], #第2列减去第0列
self._anchors[:, 3::4] - self._anchors[:, 1::4], #第3列减去第1列
))
self._counts = cfg.EPS
self._sums = np.zeros((1, 4))
self._squared_sums = np.zeros((1, 4))
self._fg_sum = 0
self._bg_sum = 0
self._count = 0
# allow boxes to sit over the edge by a small amount
self._allowed_border = layer_params.get('allowed_border', 0)
height, width = bottom[0].data.shape[-2:] #cls后的feature map的大小
if DEBUG:
print 'AnchorTargetLayer: height', height, 'width', width
A = self._num_anchors
# labels
top[0].reshape(1, 1, A * height, width) # 显然与rpn_cls_score_reshape保持相同的shape.
# bbox_targets
top[1].reshape(1, A * 4, height, width)
# bbox_inside_weights
top[2].reshape(1, A * 4, height, width)
# bbox_outside_weights
top[3].reshape(1, A * 4, height, width)

setup设置了top输出的shape,并且做了一些准备工作。

接下来看forward函数。

 def forward(self, bottom, top):
        # Algorithm:
        #
        # for each (H, W) location i
        #   generate 9 anchor boxes centered on cell i
        #   apply predicted bbox deltas at cell i to each of the 9 anchors
        # filter out-of-image anchors
        # measure GT overlap

        assert bottom[0].data.shape[0] == 1, \
            'Only single item batches are supported'     # 仅仅支持一张图片

        # map of shape (..., H, W)
        height, width = bottom[0].data.shape[-2:]        
        # GT boxes (x1, y1, x2, y2, label)
        gt_boxes = bottom[1].data                          
        # im_info
        im_info = bottom[2].data[0, :]

        if DEBUG:
            print ''
            print 'im_size: ({}, {})'.format(im_info[0], im_info[1])
            print 'scale: {}'.format(im_info[2])
            print 'height, width: ({}, {})'.format(height, width)
            print 'rpn: gt_boxes.shape', gt_boxes.shape
            print 'rpn: gt_boxes', gt_boxes

        # 1. Generate proposals from bbox deltas and shifted anchors
        shift_x = np.arange(0, width) * self._feat_stride  
        shift_y = np.arange(0, height) * self._feat_stride 
        shift_x, shift_y = np.meshgrid(shift_x, shift_y)
        shifts = np.vstack((shift_x.ravel(), shift_y.ravel(),
                            shift_x.ravel(), shift_y.ravel())).transpose()
        # add A anchors (1, A, 4) to
        # cell K shifts (K, 1, 4) to get
        # shift anchors (K, A, 4)
        # reshape to (K*A, 4) shifted anchors
        A = self._num_anchors
        K = shifts.shape[0]
        all_anchors = (self._anchors.reshape((1, A, 4)) +
                       shifts.reshape((1, K, 4)).transpose((1, 0, 2)))
        all_anchors = all_anchors.reshape((K * A, 4))
        total_anchors = int(K * A)                       # 根据左上角的anchor生成所有的anchor，这里将所有的anchor按照行排列。行：K*A(K= height*width ,A=9),列：4，且按照feature map按行优先这样排下来。

        # only keep anchors inside the image   #取所有在图像内部的anchor
        inds_inside = np.where(
            (all_anchors[:, 0] >= -self._allowed_border) &
            (all_anchors[:, 1] >= -self._allowed_border) &
            (all_anchors[:, 2] < im_info[1] + self._allowed_border) &  # width
            (all_anchors[:, 3] < im_info[0] + self._allowed_border)    # height
        )[0]                                   

        if DEBUG:
            print 'total_anchors', total_anchors
            print 'inds_inside', len(inds_inside)

        # keep only inside anchors
        anchors = all_anchors[inds_inside, :]
        if DEBUG:
            print 'anchors.shape', anchors.shape

        # label: 1 is positive, 0 is negative, -1 is dont care
        labels = np.empty((len(inds_inside), ), dtype=np.float32)
        labels.fill(-1)

        # overlaps between the anchors and the gt boxes
        # overlaps (ex, gt)
        overlaps = bbox_overlaps(
            np.ascontiguousarray(anchors, dtype=np.float),
            np.ascontiguousarray(gt_boxes, dtype=np.float))
        argmax_overlaps = overlaps.argmax(axis=1)   #对于每一个anchor，取其重叠度最大的ground truth的序号
        max_overlaps = overlaps[np.arange(len(inds_inside)), argmax_overlaps]   #生成max_overlaps,(为一列)即每个anchor对应的最大重叠度
        gt_argmax_overlaps = overlaps.argmax(axis=0)          #对于每个类，选择其对应的最大重叠度的anchor序号
        gt_max_overlaps = overlaps[gt_argmax_overlaps,       
                                   np.arange(overlaps.shape[1])]  #生成gt_max_overlaps，（为一行）即每类对应的最大重叠度
        gt_argmax_overlaps = np.where(overlaps == gt_max_overlaps)[0]  #找到那些等于gt_max_overlaps的anchor,这些anchor将参与训练rpn
        # 找到所有overlaps中所有等于gt_max_overlaps的元素，因为gt_max_overlaps对于每个非负类别只保留一个
        # anchor，如果同一列有多个相等的最大IOU overlap值，那么就需要把其他的几个值找到，并在后面将它们
        # 的label设为1，即认为它们是object，毕竟在RPN的cls任务中，只要认为它是否是个object即可，即一个
        # 二分类问题。   (总结)
		
		
		
		# 如下设置了前景(1)、背景(0)以及不关心(-1)的anchor标签
        if not cfg.TRAIN.RPN_CLOBBER_POSITIVES:
            # assign bg labels first so that positive labels can clobber them
            labels[max_overlaps < cfg.TRAIN.RPN_NEGATIVE_OVERLAP] = 0    #对于最大重叠度低于0.3的设为背景

        # fg label: for each gt, anchor with highest overlap  
        labels[gt_argmax_overlaps] = 1   

        # fg label: above threshold IOU
        labels[max_overlaps >= cfg.TRAIN.RPN_POSITIVE_OVERLAP] = 1 

        if cfg.TRAIN.RPN_CLOBBER_POSITIVES:
            # assign bg labels last so that negative labels can clobber positives
            labels[max_overlaps < cfg.TRAIN.RPN_NEGATIVE_OVERLAP] = 0
			
			
		# 取前景与背景的anchor各一半，目前一批有256个anchor.
        # subsample positive labels if we have too many
        num_fg = int(cfg.TRAIN.RPN_FG_FRACTION * cfg.TRAIN.RPN_BATCHSIZE)   #256*0.5=128
        fg_inds = np.where(labels == 1)[0]
        if len(fg_inds) > num_fg:
            disable_inds = npr.choice(
                fg_inds, size=(len(fg_inds) - num_fg), replace=False)
            labels[disable_inds] = -1

        # subsample negative labels if we have too many
        num_bg = cfg.TRAIN.RPN_BATCHSIZE - np.sum(labels == 1)  #另一半256*0.5=128
        bg_inds = np.where(labels == 0)[0]
        if len(bg_inds) > num_bg:
            disable_inds = npr.choice(
                bg_inds, size=(len(bg_inds) - num_bg), replace=False)
            labels[disable_inds] = -1
            #print "was %s inds, disabling %s, now %s inds" % (
                #len(bg_inds), len(disable_inds), np.sum(labels == 0))
        
		#计算了所有在内部的anchor与对应的ground truth的回归量
        bbox_targets = np.zeros((len(inds_inside), 4), dtype=np.float32)
        bbox_targets = _compute_targets(anchors, gt_boxes[argmax_overlaps, :])
         
		 #只有前景类内部权重才非0，参与回归
        bbox_inside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)
        bbox_inside_weights[labels == 1, :] = np.array(cfg.TRAIN.RPN_BBOX_INSIDE_WEIGHTS) #(1.0, 1.0, 1.0, 1.0)

		# Give the positive RPN examples weight of p * 1 / {num positives}
		# and give negatives a weight of (1 - p)/(num negative)    
		# Set to -1.0 to use uniform example weighting
        bbox_outside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)
        if cfg.TRAIN.RPN_POSITIVE_WEIGHT < 0:
            # uniform weighting of examples (given non-uniform sampling)
            num_examples = np.sum(labels >= 0)
            positive_weights = np.ones((1, 4)) * 1.0 / num_examples
            negative_weights = np.ones((1, 4)) * 1.0 / num_examples
        else:
            assert ((cfg.TRAIN.RPN_POSITIVE_WEIGHT > 0) &
                    (cfg.TRAIN.RPN_POSITIVE_WEIGHT < 1))
            positive_weights = (cfg.TRAIN.RPN_POSITIVE_WEIGHT /
                                np.sum(labels == 1))
            negative_weights = ((1.0 - cfg.TRAIN.RPN_POSITIVE_WEIGHT) /
                                np.sum(labels == 0))
        bbox_outside_weights[labels == 1, :] = positive_weights  # 前景与背景anchor的外参数相同，都是1/anchor个数
        bbox_outside_weights[labels == 0, :] = negative_weights

        if DEBUG:
            self._sums += bbox_targets[labels == 1, :].sum(axis=0)
            self._squared_sums += (bbox_targets[labels == 1, :] ** 2).sum(axis=0)
            self._counts += np.sum(labels == 1)
            means = self._sums / self._counts
            stds = np.sqrt(self._squared_sums / self._counts - means ** 2)
            print 'means:'
            print means
            print 'stdevs:'
            print stds

        # map up to original set of anchors 生成全部anchor的数据，将非0的数据填入。
        labels = _unmap(labels, total_anchors, inds_inside, fill=-1)
        bbox_targets = _unmap(bbox_targets, total_anchors, inds_inside, fill=0)
        bbox_inside_weights = _unmap(bbox_inside_weights, total_anchors, inds_inside, fill=0)
        bbox_outside_weights = _unmap(bbox_outside_weights, total_anchors, inds_inside, fill=0)

        if DEBUG:
            print 'rpn: max max_overlap', np.max(max_overlaps)
            print 'rpn: num_positive', np.sum(labels == 1)
            print 'rpn: num_negative', np.sum(labels == 0)
            self._fg_sum += np.sum(labels == 1)
            self._bg_sum += np.sum(labels == 0)
            self._count += 1
            print 'rpn: num_positive avg', self._fg_sum / self._count
            print 'rpn: num_negative avg', self._bg_sum / self._count

        # labels 
        labels = labels.reshape((1, height, width, A)).transpose(0, 3, 1, 2)
        labels = labels.reshape((1, 1, A * height, width))
        top[0].reshape(*labels.shape)
        top[0].data[...] = labels

        # bbox_targets
        bbox_targets = bbox_targets \
            .reshape((1, height, width, A * 4)).transpose(0, 3, 1, 2)
        top[1].reshape(*bbox_targets.shape)
        top[1].data[...] = bbox_targets

        # bbox_inside_weights
        bbox_inside_weights = bbox_inside_weights \
            .reshape((1, height, width, A * 4)).transpose(0, 3, 1, 2)
        assert bbox_inside_weights.shape[2] == height
        assert bbox_inside_weights.shape[3] == width
        top[2].reshape(*bbox_inside_weights.shape)
        top[2].data[...] = bbox_inside_weights

        # bbox_outside_weights
        bbox_outside_weights = bbox_outside_weights \
            .reshape((1, height, width, A * 4)).transpose(0, 3, 1, 2)
        assert bbox_outside_weights.shape[2] == height
        assert bbox_outside_weights.shape[3] == width
        top[3].reshape(*bbox_outside_weights.shape)
        top[3].data[...] = bbox_outside_weights

这里已经有详细的注释，总的来说，rpn_cls_score的作用就是告知第五层feature map的宽和高。便于决定生成多少个anchor. 而其他的bottom输入才最终决定top的输出。

首先这里生成了所有feature map各点对应的anchors。生成的方式很特别，先考虑了左上角一个点的anchor生成，考虑到feat_stride=16，所以这个点对应原始图像（这里统一指缩放后image）的(0,0,15,15)感受野。然后取其中心点，生成比例为1:1,1:2,2:1，尺度在128,256,512的9个anchor.然后考虑使用平移生成其他的anchor.

然后过滤掉那些不在图像内部的anchor. 对于剩下的anchor,计算与gt_boxes的重叠度，再分别计算label,bbox_targets,bbox_inside_weights,bbox_outside_weights.

最后将内部的anchor的相关变量扩充到所有的anchor,只不过不在内部的为0即可。尤其值得说的是对于内部的anchor,bbox_targets都进行了运算。但是选取了256个anchor,前景与背景比例为1:1，bbox_inside_weights中只有label=1,即前景才进行了设置。正如论文所说，对于回归项，需要内部参数来约束，bbox_inside_weights正好起到了这个作用。

我们统计一下top的shape:

rpn_labels ： (1, 1, 9 * height, width)

rpn_bbox_targets（回归目标）： (1, 36，height, width)

rpn_bbox_inside_weights（内权重）：(1, 36，height, width)

rpn_bbox_outside_weights（外权重）：(1, 36，height, width)

回到stage1_rpn_train.pt，接下里我们就可以利用rpn_cls_score_reshape与rpn_labels计算SoftmaxWithLoss，输出rpn_cls_loss。

而regression可以利用rpn_bbox_pred，rpn_bbox_targets，rpn_bbox_inside_weights，rpn_bbox_outside_weights计算SmoothL1Loss，输出rpn_loss_bbox。

回到我们之前有一个问题rpn_bbox_pred的shape怎么构造的。其实从rpn_bbox_targets的生成过程中可以推断出应该采用后一种，即第一个盒子的回归量(dx1,dy1,dw1,dh1),第二个为(dx2,dy2,dw,2,dh2).....，这样顺序着来。

其实怎么样认为都是从我们方便的角度出发。

至此我们完成了rpn的前向过程，反向过程中只需注意AnchorTargetLayer不参与反向传播。因为它提供的都是源数据。

参考：

1. http://blog.csdn.net/zy1034092330/article/details/62044941

2. Faster RCNN anchor_target_layer.py

Centos6.x/7.x yum安装LNMP oldartist
1、Centos6系统库中默认是没有nginx的rpn包的，所以我们需要先更新下rpm依赖库(1)：使用yum安装nginx，安装nginx库Centos6.x：rpm-Uvhhttp://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpmCentos7.x：http://nginx
深度学习知识点汇总-目标检测（1）深度学习模型优化
8.1R-FCNR-FCN属于two-stage的目标检测算法。backbone部分RPN，这里使用ResNet。head部分R-FCN，使用全连接网络。其中ResNet-101+R-FCN的方法在PASCALVOC2007测试数据集的mmAP达到83.6%。图1人脸检测R-FCN的核心思想得到目标多个特征。假设我们只有一个特征图用来检测右眼。那么我们可以使用它定位人脸吗？应该可以。因为右眼应该在
RFCN 精简讲解 KyleLou
一、前言之前的FasterRCNN对FastRCNN产生regionporposal的问题给出了解决方案，并且在RPN和FastRCNN网络中实现了卷积层共享。但是这种共享仅仅停留在第一卷积部分，RoIpooling及之后的部分没有实现完全共享，可以当做是一种“部分共享”，这导致两个损失：1.信息损失，精度下降。2.由于后续网络部分不共享，导致重复计算全连接层等参数，时间代价过高。(另外还需要多说
汪都能理解的逆波兰计算器(C++实现) vernzhao
简介EXPLANATION逆波兰表示法(ReversePolishnotation,RPN)也称作后缀表示法，与之对应的是波兰表示法（Polishnotation），也就是前缀表示法。之所以使用“波兰”来命名，是因为发明者的名字太难发音logicianJanŁukasiewicz，只好以国籍来命名。实际意义由于逆波兰表达式在计算时不需要将表达式括起来，进行计算时输入较少。此外，用户在使用时也可以更
Faster R-CNN 圆圆栗子君 cnn 人工智能神经网络目标检测深度学习
1FasterR-CNN的改进RPN实际上是FasterR-CNN中的一个小的神经网络，通过这个网络来生成候选区域框ROI；集成RegionProposalNetwork(RPN)网络:1FasterR-CNN=FastR-CNN+RPN2使用RPN网络取代SelectiveSearch模块解决FastR-CNN的性能瓶颈3候选框生成网络RPN和检测网络FastR-CNN共享卷积层计算4Regio
波兰表达式 & 逆波兰表达式夕阳枫 JavaScript javascript
1、概述1.1、什么是波兰表达式先来看看维基百科对于波兰表达式和逆波兰表单的解释：波兰表示法（Polishnotation，或波兰记法），是一种逻辑、算术和代数表示方法，其特点是操作符置于操作数的前面，因此也称做前缀表示法。如果操作符的元数（arity）是固定的，则语法上不需要括号仍然能被无歧义地解析。逆波兰表示法（ReversePolishnotation，RPN，或逆波兰记法），是一种是由波兰
3.2 ThunderNet思考深度学习模型优化
1设计思想ThunderNet的优化目标是二阶段检测器中计算开销大的结构。在backbone部分，设计了轻量级网络SNet；在detection部分，借鉴Light-HeadR-CNN的思路，并进一步压缩RPN和R-CNN子网络。为了避免性能的衰退，设计了2个高效的结构CEM和SAM来改善性能。2网络架构图1ThunderNet网络架构ThunderNet的输入是分辨率的图像。Backbone部分
目标检测基础-RCNN系列模型 Hzt_dreamer 深度学习机器学习计算机视觉图像处理目标检测
开头先感谢可爱的小姐姐的细心讲解，视频网址如下：目标检测基础——RCNN系列模型（理论和代码复现）_哔哩哔哩_bilibili目录RCNN过程非极大值抑制（NMS）Bounding-boxregressionRCNN对语义分割的尝试：语义分割的简史：SPPnet简介Fast-RCNNFast-RCNN训练过程Fast-RCNN的优缺点：Faster-RCNNFasterRCNN网络结构RPN部分A
有效防错 Effective Error-Proofing-4(零缺陷与Poka Yoke的关联） LLL777
PokaYoke与零缺陷概念区分：PokaYoke是零缺陷目标下RPN下降以及内部缺陷降低的方法之一POKAYOKEPokaYoke与缺陷预防如何实现零缺陷PokaYoke与质量管理
海思SD3403,SS928/926,hi3519dv500,hi3516dv500移植yolov7,yolov8（9） LittroInno YOLO yolov8 图像处理深度学习 hi3516DV500 hi3519dv500
上一节yolov8的训练已经完成了，现在要开始做模型的转换了，这里和yolov7方式相似，但是有一些差异，尤其是yolov7的不带NMS部分的输出顺序和yolov8的输出顺序与格式是有差异的。首先还是要自己手动加入rpn_op,这里包含了filter,sort,nms部分。我们一个一个看，首先filter.py里要先增加个Filter的自定义层。op_source="""#includetorch
Faster R-CNN DQ小恐龙 cnn 人工智能神经网络
FasterR-CNN流程图相较于R-CNN与FastR-CNN而言，其采用了RPN去代替之前的SS算法去生成候选区域。当生成候选区域后进行的仍然和FastR-CNN一样的操作（Rolpooling->FC->softmax&边界框预测）。RPN在特征图上采用3x3卷积，padding=1,dilation=1这里clslayer是进行的卷积，2k个大小1x1的卷积核进行处理，reglayer则是
R-C3D论文详解 ce0b74704937
论文链接：R-C3D:RegionConvolutional3DNetworkforTemporalActivityDetection代码地址（论文提供地址）：http://ai.bu.edu/r-c3d/该论文借鉴图像物体检测中的Faster-RCNN的思想，文章采用3D卷积来获取视频的时序信息，然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox，也就是视
[YOLO] YOLO介绍，YOLOv1~YOLOv8版本变更，每个版本的特点介绍老狼IT工作室 YOLO YOLO YOLOv8
什么是YOLO?YOLO之前，双阶段（two-stage）的R-CNN系列算法，在目标检测领域独占鳌头。先利用RPN网络进行感兴趣区域的生成，再对该区域进行分类与位置的回归。R-CNN优缺点：提升了精度，但限制了检测速度。AlexeyBochkovskiy和JosephRedmon于2016年提出YOLO(YouOnlyLookOnce)算法，YOLO是一种实时目标检测算法，它利用CNN卷积神经网
在目标检测中，Anchor的庞大数量使得存在严重的不平衡问题。这里的不平衡指的是什么。神笔馬良目标检测目标跟踪人工智能
问题描述：在目标检测中，Anchor的庞大数量使得存在严重的不平衡问题。这里的不平衡指的是什么。问题解答：在目标检测任务中，Anchor指的是一组预定义的边界框或候选框，这些框以多个尺度和宽高比例组合而成。Anchor的作用是在输入图像上生成多个建议框，以便用于目标检测中的区域建议网络（RegionProposalNetwork，简称RPN）或者其他类似的任务。不平衡问题是指在目标检测任务中，正例
Faster rcnn通过区域建议网络产生的proposal，这里的proposal是什么意思。神笔馬良深度学习人工智能
问题描述：Fasterrcnn通过区域建议网络产生的proposal，这里的proposal是什么意思。问题解答：在FasterR-CNN（Region-basedConvolutionalNeuralNetwork）中，"proposal"（建议框）指的是通过区域建议网络（RegionProposalNetwork，简称RPN）生成的潜在对象边界框的候选集合。这些建议框被用作后续目标检测任务的候
NeRF-RPN: A general framework for object detection in NeRFs 全文翻译 HHHHGitttt 目标跟踪人工智能计算机视觉 3d
摘要Abstract本文提出了第一个重要的物体检测框架NeRF-RPN，它直接在NeRF上运行。给定一个预先训练好的NeRF模型，NeRF-RPN的目标是检测场景中所有物体的边界框。通过利用包含多尺度三维神经体积特征的新颖体素表示法，我们证明可以直接回归NeRF中物体的三维边界框，而无需在任何视角下渲染NeRF。NeRF-RPN是一个通用框架，可用于检测无类别标签的物体。我们用不同的主干架构、RP
深度学习-模型转换_所需算力相关 warren@伟_ 深度学习人工智能服务器神经网络 cnn
模型转换相关tensflow转onnxpython-mtf2onnx.convert\--graphdef/root/autodl-tmp/warren/text-detection-ctpn/data/ctpn.pb\--output./model.onnx--inputsPlaceholder:0--outputsReshape_2:0，rpn_bbox_pred/Reshape_1:0pyt
小秋SLAM入门实战深度学习所有文章汇总小秋SLAM入门实战深度学习深度学习
caffe源码解读系列Python中的异常处理精确率、精度（Precision）召回率（recall）你真的理解吗？Python字符串处理的七种技巧如何直观的理解机器学习过拟合和欠拟合？如何直观的理解机器学习PR曲线和ROC曲线？深度学习开源网络RPN算法解析源码解读numpy下hstack()和vstack()的用法python下classself的用法python计算时间差divmod()da
目标检测-One Stage-YOLOv1 学海一叶目标检测目标检测 YOLO 人工智能计算机视觉算法
文章目录前言一、YOLOv1的网络结构和流程二、YOLOv1的损失函数三、YOLOv1的创新点总结前言前文目标检测-TwoStage-MaskRCNN提到了TwoStage算法的局限性：速度上并不能满足实时的要求因此出现了新的OneStage算法簇，YOLOv1是目标检测中OneStage方法的开山之作，不同于TwoStage需要先通过RPN网络得到候选区域的方法，YOLOv1将检测建模为一个回归
Faster R-CNN 笔记 yanghedada
概述：一些基本概念（IOU，NMS）等请看这里。摘要：算法主要解决两个问题：1、提出区域建议网络RPN，快速生成候选区域；2、通过交替训练，使RPN和Fast-RCNN网络共享参数。RPN是FasterR-CNN提出来的，是为了进行最后的box预测的预先粗选框架。在虚线之上是基础网络类似VGG16，ZF网络。这里的target是背景。首先是3x3的卷积（图中有256个输出），然后通过1x1卷积输出
FSOD论文翻译莫里衰
image.png图4.我们的网络架构使用ResNet-50作为骨干。支持图像（绿色）和查询图像（蓝色）被送入重量共享的主干。RPN使用关注特征，该特征由紧凑1×1×C支持特征和H×W×C查询特征之间的深度互相关生成。将由补丁关系头（顶部头），全局关系头（中间头）和局部相关头（下头）生成的类得分相加，作为最终匹配得分，并生成边界框预测通过补丁关系头。InanR-CNNframework,anRPN
RPN网络在图像处理中的应用 LittroInno 图像处理人工智能深度学习
RPN（RegionProposalNetwork，区域建议网络）是深度学习中用于目标检测的关键组件之一，它通常与后续的目标检测网络（如FastR-CNN、FasterR-CNN等）结合使用。RPN的主要作用是生成候选目标区域，从而在后续的网络中进行目标检测。RPN（RegionProposalNetwork，区域建议网络）是FasterR-CNN（Region-basedConvolutiona
import yaml ImportError: No module named yaml等问题解决 cv.exp Deep Learning
转载请注明：http://blog.csdn.net/forest_world1、问题：'TEST':{'BBOX_REG':True,'HAS_RPN':True,'MAX_SIZE':1000,'NMS':0.3,'PROPOSAL_METHOD':'selective_search','RPN_MIN_SIZE':16,'RPN_NMS_THRESH':0.7,'RPN_POST_NMS_T
QTNet：Query-based Temporal Fusion with Explicit Motion for 3D Object Detection m_buddy BEV Perception 目标检测人工智能计算机视觉
参考代码：QTNet动机和出发点自动驾驶中时序信息对感知性能具有较大影响，如在感知稳定性维度上。对于常见的时序融合多是在feature的维度上做，这个维度的融合主要分为如下两个方案：1）BEV-based方案：将之前帧的结果按照ego-motion进行warp之后再叠加融合，这样的操作简单，但低效且引入较多无关噪声2）Proposal-based方案：将目标做RPN，然后再将多帧RPN之后的特征融
计算机视觉中的细节问题(五) Wanderer001 计算机视觉计算机视觉深度学习机器学习
参考计算机视觉中的细节问题(五)-云+社区-腾讯云目录(1)、训练集与测试集的标准定义(2)anchor_scales、anchor_ratios、anchor_strides的含义？(3)、残差网络ResNet的原理(4)、BatchNormalization(批归一化)(5)、Bottleneck的含义(6)、Dropout(7)、RPN的原理(8)、FastR-CNN的多任务损失：(9)、目
C语言中缀表达式转后缀表达式西邮郭富城 C语言学习 c语言
一.基本概念：逆波兰式（ReversePolishnotation，RPN，或逆波兰记法），也叫后缀表达式（将运算符写在操作数之后）。将中缀表达式转化为后缀表达式的原因：原因就在于这个简单是相对人类的思维结构来说的，对计算机而言中序表达式是非常复杂的结构。相对的，逆波兰式在计算机看来却是比较简单易懂的结构。因为计算机普遍采用的内存结构是栈式结构，它执行先进后出的顺序。二.算法思路：首先设置一个操作
3D目标检测VoexlNet '十月' 目标检测 3d 计算机视觉
3D目标检测VoexlNet模型构建博客参考：论文阅读：VoxelNet（3D-detection）+代码复现_手写代码3ddetection_Little_sky_jty的博客-CSDN博客Voxelnet模型构建1,init方法初始化模型，包括多级体素特征编码模块，3D卷积特征提取模块，RPN检测头回归分类模块2，forward方法训练模型，传入参数：sparse_features(k,t,7
区域生成网络---RPN(Region Proposal Network) gyqJulius_Caesar Python&深度学习目标检测计算机视觉深度学习
https://blog.csdn.net/tony_vip/article/details/108827910
三维目标检测----CT3D论文分享 twn29004 论文阅读 3d 深度学习 transformer
代码链接paper链接论文总结本文提出了一种目前二阶段的目标检测算法不能很好的提取proposal中的特征。本文提出了一种基于通道层面的self-attention结构来提高网络对于proposal中点的特征的提取能力。下面简单介绍一下网络的处理流程:与传统的二阶段目标检测器一样，首先使用一个backbone提取点样场景的特征，然后使用RPN网络生成proposal。注意，这里生成的proposa
Faster R-CNN详解 zhangyuexiang123 #目标物体检测
目录1前言1.1图1展示了FasterRCNN的4个主要内容1.2图2展示了基于VGG16模型的网络结构1.3FasterRCNN目标1.4新出炉的pytorch官方FasterRCNN代码导读2Convlayers3RegionProposalNetworks(RPN)3.1RPN整体介绍3.2RPN模块介绍3.3单通道与多通道图像卷积基础知识介绍以及1×1卷积核介绍单通道多通道1×1卷积3.4
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

rpn

你可能感兴趣的:(rpn)