风轻扬逍遥子

在faster rcnn中使用soft nms，faster rcnn的改进（一）

1. 背景介绍

我的项目是利用faster rcnn检测kiiti数据集，用原始nms，iters = 10000的情况下，得到的mAP = 0.586, 在改用soft nms后，其他参数均不变的情况下，得到的mAP = 0.622。算是挺大的改进了，所以分享一下具体实现。
我用的Faster-RCNN是tensorflow版本，github地址：Faster-RCNN_TF

2. soft-NMS

Soft-NMS （Improving Object Detection With One Line of Code）

Paper：https://arxiv.org/pdf/1704.04503.pdf
code：https://github.com/bharatsingh430/soft-nms
论文解读可以参考：https://blog.csdn.net/lanyuxuan100/article/details/78767818

该篇论文主要focus在后处理NMS上，不得不承认，对于很多问题，后处理的方法会对结果产生几个点的影响。况且尝试起来非常容易，代价也很小，只需要替换一个函数就可以，所以大家不妨可以试验一下。

3. 具体步骤

3.1. 修改/lib/nms/cpu_nms.pyx

在文件里添加 cpu_soft_nms函数：

def cpu_soft_nms(np.ndarray[float, ndim=2] boxes, float sigma=0.5, float Nt=0.3, float threshold=0.001, unsigned int method=0):
    cdef unsigned int N = boxes.shape[0]
    cdef float iw, ih, box_area
    cdef float ua
    cdef int pos = 0
    cdef float maxscore = 0
    cdef int maxpos = 0
    cdef float x1,x2,y1,y2,tx1,tx2,ty1,ty2,ts,area,weight,ov

    for i in range(N):
        maxscore = boxes[i, 4]
        maxpos = i

        tx1 = boxes[i,0]
        ty1 = boxes[i,1]
        tx2 = boxes[i,2]
        ty2 = boxes[i,3]
        ts = boxes[i,4]

        pos = i + 1
    # get max box
        while pos < N:
            if maxscore < boxes[pos, 4]:
                maxscore = boxes[pos, 4]
                maxpos = pos
            pos = pos + 1

    # add max box as a detection 
        boxes[i,0] = boxes[maxpos,0]
        boxes[i,1] = boxes[maxpos,1]
        boxes[i,2] = boxes[maxpos,2]
        boxes[i,3] = boxes[maxpos,3]
        boxes[i,4] = boxes[maxpos,4]

    # swap ith box with position of max box
        boxes[maxpos,0] = tx1
        boxes[maxpos,1] = ty1
        boxes[maxpos,2] = tx2
        boxes[maxpos,3] = ty2
        boxes[maxpos,4] = ts

        tx1 = boxes[i,0]
        ty1 = boxes[i,1]
        tx2 = boxes[i,2]
        ty2 = boxes[i,3]
        ts = boxes[i,4]

        pos = i + 1
    # NMS iterations, note that N changes if detection boxes fall below threshold
        while pos < N:
            x1 = boxes[pos, 0]
            y1 = boxes[pos, 1]
            x2 = boxes[pos, 2]
            y2 = boxes[pos, 3]
            s = boxes[pos, 4]

            area = (x2 - x1 + 1) * (y2 - y1 + 1)
            iw = (min(tx2, x2) - max(tx1, x1) + 1)
            if iw > 0:
                ih = (min(ty2, y2) - max(ty1, y1) + 1)
                if ih > 0:
                    ua = float((tx2 - tx1 + 1) * (ty2 - ty1 + 1) + area - iw * ih)
                    ov = iw * ih / ua #iou between max box and detection box

                    if method == 1: # linear
                        if ov > Nt: 
                            weight = 1 - ov
                        else:
                            weight = 1
                    elif method == 2: # gaussian
                        weight = np.exp(-(ov * ov)/sigma)
                    else: # original NMS
                        if ov > Nt: 
                            weight = 0
                        else:
                            weight = 1

                    boxes[pos, 4] = weight*boxes[pos, 4]

            # if box score falls below threshold, discard the box by swapping with last box
            # update N
                    if boxes[pos, 4] < threshold:
                        boxes[pos,0] = boxes[N-1, 0]
                        boxes[pos,1] = boxes[N-1, 1]
                        boxes[pos,2] = boxes[N-1, 2]
                        boxes[pos,3] = boxes[N-1, 3]
                        boxes[pos,4] = boxes[N-1, 4]
                        N = N - 1
                        pos = pos - 1

            pos = pos + 1

    keep = [i for i in range(N)]
    return keep

3.2. 修改/lib/fast_rcnn/nms_wrapper.py

将文件修改为：

from fast_rcnn.config import cfg
if cfg.USE_GPU_NMS:
    from nms.gpu_nms import gpu_nms
#from nms.cpu_nms import cpu_nms
from nms.cpu_nms import cpu_nms, cpu_soft_nms
import numpy as np

def soft_nms(dets, sigma=0.5, Nt=0.3, threshold=0.001, method=1):

    keep = cpu_soft_nms(np.ascontiguousarray(dets, dtype=np.float32),
                        np.float32(sigma), np.float32(Nt),
                        np.float32(threshold),
                        np.uint8(method))
    return keep

def nms(dets, thresh, force_cpu=False):
    """Dispatch to either CPU or GPU NMS implementations."""

    if dets.shape[0] == 0:
        return []
    if cfg.USE_GPU_NMS and not force_cpu:
        return gpu_nms(dets, thresh, device_id=cfg.GPU_ID)
    else:
        return cpu_nms(dets, thresh)

3.3. 修改config.py

在文件中添加__C.TEST.SOFT_NMS = 1

3.4. 修改test.py

这个文件修改较多，将文件修改为：

from fast_rcnn.config import cfg, get_output_dir
import argparse
from utils.timer import Timer
import numpy as np
import cv2
#from utils.cython_nms import nms, nms_new
from fast_rcnn.nms_wrapper import nms, soft_nms
from utils.boxes_grid import get_boxes_grid
import cPickle
import heapq
from utils.blob import im_list_to_blob
import os
import math
from rpn_msr.generate import imdb_proposals_det
import tensorflow as tf
from fast_rcnn.bbox_transform import clip_boxes, bbox_transform_inv
import matplotlib.pyplot as plt
from tensorflow.python.client import timeline
import time
from multiprocessing import Pool

def _get_image_blob(im):
    """Converts an image into a network input.
    Arguments:
        im (ndarray): a color image in BGR order
    Returns:
        blob (ndarray): a data blob holding an image pyramid
        im_scale_factors (list): list of image scales (relative to im) used
            in the image pyramid
    """
    im_orig = im.astype(np.float32, copy=True)
    im_orig -= cfg.PIXEL_MEANS

    im_shape = im_orig.shape
    im_size_min = np.min(im_shape[0:2])
    im_size_max = np.max(im_shape[0:2])

    processed_ims = []
    im_scale_factors = []

    for target_size in cfg.TEST.SCALES:
        im_scale = float(target_size) / float(im_size_min)
        # Prevent the biggest axis from being more than MAX_SIZE
        if np.round(im_scale * im_size_max) > cfg.TEST.MAX_SIZE:
            im_scale = float(cfg.TEST.MAX_SIZE) / float(im_size_max)
        im = cv2.resize(im_orig, None, None, fx=im_scale, fy=im_scale,
                        interpolation=cv2.INTER_LINEAR)
        im_scale_factors.append(im_scale)
        processed_ims.append(im)

    # Create a blob to hold the input images
    blob = im_list_to_blob(processed_ims)

    return blob, np.array(im_scale_factors)

def _get_rois_blob(im_rois, im_scale_factors):
    """Converts RoIs into network inputs.
    Arguments:
        im_rois (ndarray): R x 4 matrix of RoIs in original image coordinates
        im_scale_factors (list): scale factors as returned by _get_image_blob
    Returns:
        blob (ndarray): R x 5 matrix of RoIs in the image pyramid
    """
    rois, levels = _project_im_rois(im_rois, im_scale_factors)
    rois_blob = np.hstack((levels, rois))
    return rois_blob.astype(np.float32, copy=False)

def _project_im_rois(im_rois, scales):
    """Project image RoIs into the image pyramid built by _get_image_blob.
    Arguments:
        im_rois (ndarray): R x 4 matrix of RoIs in original image coordinates
        scales (list): scale factors as returned by _get_image_blob
    Returns:
        rois (ndarray): R x 4 matrix of projected RoI coordinates
        levels (list): image pyramid levels used by each projected RoI
    """
    im_rois = im_rois.astype(np.float, copy=False)
    scales = np.array(scales)

    if len(scales) > 1:
        widths = im_rois[:, 2] - im_rois[:, 0] + 1
        heights = im_rois[:, 3] - im_rois[:, 1] + 1

        areas = widths * heights
        scaled_areas = areas[:, np.newaxis] * (scales[np.newaxis, :] ** 2)
        diff_areas = np.abs(scaled_areas - 224 * 224)
        levels = diff_areas.argmin(axis=1)[:, np.newaxis]
    else:
        levels = np.zeros((im_rois.shape[0], 1), dtype=np.int)

    rois = im_rois * scales[levels]

    return rois, levels

def _get_blobs(im, rois):
    """Convert an image and RoIs within that image into network inputs."""
    if cfg.TEST.HAS_RPN:
        blobs = {'data' : None, 'rois' : None}
        blobs['data'], im_scale_factors = _get_image_blob(im)
    else:
        blobs = {'data' : None, 'rois' : None}
        blobs['data'], im_scale_factors = _get_image_blob(im)
        if cfg.IS_MULTISCALE:
            if cfg.IS_EXTRAPOLATING:
                blobs['rois'] = _get_rois_blob(rois, cfg.TEST.SCALES)
            else:
                blobs['rois'] = _get_rois_blob(rois, cfg.TEST.SCALES_BASE)
        else:
            blobs['rois'] = _get_rois_blob(rois, cfg.TEST.SCALES_BASE)

    return blobs, im_scale_factors

def _clip_boxes(boxes, im_shape):
    """Clip boxes to image boundaries."""
    # x1 >= 0
    boxes[:, 0::4] = np.maximum(boxes[:, 0::4], 0)
    # y1 >= 0
    boxes[:, 1::4] = np.maximum(boxes[:, 1::4], 0)
    # x2 < im_shape[1]
    boxes[:, 2::4] = np.minimum(boxes[:, 2::4], im_shape[1] - 1)
    # y2 < im_shape[0]
    boxes[:, 3::4] = np.minimum(boxes[:, 3::4], im_shape[0] - 1)
    return boxes


def _rescale_boxes(boxes, inds, scales):
    """Rescale boxes according to image rescaling."""

    for i in xrange(boxes.shape[0]):
        boxes[i,:] = boxes[i,:] / scales[int(inds[i])]

    return boxes


def im_detect(sess, net, im, boxes=None):
    """Detect object classes in an image given object proposals.
    Arguments:
        net (caffe.Net): Fast R-CNN network to use
        im (ndarray): color image to test (in BGR order)
        boxes (ndarray): R x 4 array of object proposals
    Returns:
        scores (ndarray): R x K array of object class scores (K includes
            background as object category 0)
        boxes (ndarray): R x (4*K) array of predicted bounding boxes
    """

    blobs, im_scales = _get_blobs(im, boxes)

    # When mapping from image ROIs to feature map ROIs, there's some aliasing
    # (some distinct image ROIs get mapped to the same feature ROI).
    # Here, we identify duplicate feature ROIs, so we only compute features
    # on the unique subset.
    if cfg.DEDUP_BOXES > 0 and not cfg.TEST.HAS_RPN:
        v = np.array([1, 1e3, 1e6, 1e9, 1e12])
        hashes = np.round(blobs['rois'] * cfg.DEDUP_BOXES).dot(v)
        _, index, inv_index = np.unique(hashes, return_index=True,
                                        return_inverse=True)
        blobs['rois'] = blobs['rois'][index, :]
        boxes = boxes[index, :]

    if cfg.TEST.HAS_RPN:
        im_blob = blobs['data']
        blobs['im_info'] = np.array(
            [[im_blob.shape[1], im_blob.shape[2], im_scales[0]]],
            dtype=np.float32)
    # forward pass
    if cfg.TEST.HAS_RPN:
        feed_dict={net.data: blobs['data'], net.im_info: blobs['im_info'], net.keep_prob: 1.0}
    else:
        feed_dict={net.data: blobs['data'], net.rois: blobs['rois'], net.keep_prob: 1.0}

    run_options = None
    run_metadata = None
    if cfg.TEST.DEBUG_TIMELINE:
        run_options = tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE)
        run_metadata = tf.RunMetadata()

    cls_score, cls_prob, bbox_pred, rois = sess.run([net.get_output('cls_score'), net.get_output('cls_prob'), net.get_output('bbox_pred'),net.get_output('rois')],
                                                    feed_dict=feed_dict,
                                                    options=run_options,
                                                    run_metadata=run_metadata)

    if cfg.TEST.HAS_RPN:
        assert len(im_scales) == 1, "Only single-image batch implemented"
        boxes = rois[:, 1:5] / im_scales[0]


    if cfg.TEST.SVM:
        # use the raw scores before softmax under the assumption they
        # were trained as linear SVMs
        scores = cls_score
    else:
        # use softmax estimated probabilities
        scores = cls_prob

    if cfg.TEST.BBOX_REG:
        # Apply bounding-box regression deltas
        box_deltas = bbox_pred
        pred_boxes = bbox_transform_inv(boxes, box_deltas)
        pred_boxes = _clip_boxes(pred_boxes, im.shape)
    else:
        # Simply repeat the boxes, once for each class
        pred_boxes = np.tile(boxes, (1, scores.shape[1]))

    if cfg.DEDUP_BOXES > 0 and not cfg.TEST.HAS_RPN:
        # Map scores and predictions back to the original set of boxes
        scores = scores[inv_index, :]
        pred_boxes = pred_boxes[inv_index, :]

    if cfg.TEST.DEBUG_TIMELINE:
        trace = timeline.Timeline(step_stats=run_metadata.step_stats)
        trace_file = open(str(long(time.time() * 1000)) + '-test-timeline.ctf.json', 'w')
        trace_file.write(trace.generate_chrome_trace_format(show_memory=False))
        trace_file.close()

    return scores, pred_boxes


def vis_detections(im, class_name, dets, thresh=0.8):
    """Visual debugging of detections."""
    import matplotlib.pyplot as plt
    #im = im[:, :, (2, 1, 0)]
    for i in xrange(np.minimum(10, dets.shape[0])):
        bbox = dets[i, :4]
        score = dets[i, -1]
        if score > thresh:
            #plt.cla()
            #plt.imshow(im)
            plt.gca().add_patch(
                plt.Rectangle((bbox[0], bbox[1]),
                              bbox[2] - bbox[0],
                              bbox[3] - bbox[1], fill=False,
                              edgecolor='g', linewidth=3)
                )
            plt.gca().text(bbox[0], bbox[1] - 2,
                 '{:s} {:.3f}'.format(class_name, score),
                 bbox=dict(facecolor='blue', alpha=0.5),
                 fontsize=14, color='white')

            plt.title('{}  {:.3f}'.format(class_name, score))
    #plt.show()

def apply_nms(all_boxes, thresh):
    """Apply non-maximum suppression to all predicted boxes output by the
    test_net method.
    """
    num_classes = len(all_boxes)
    num_images = len(all_boxes[0])
    nms_boxes = [[[] for _ in xrange(num_images)]
                 for _ in xrange(num_classes)]
    for cls_ind in xrange(num_classes):
        for im_ind in xrange(num_images):
            dets = all_boxes[cls_ind][im_ind]
            if dets == []:
                continue

            x1 = dets[:, 0]
            y1 = dets[:, 1]
            x2 = dets[:, 2]
            y2 = dets[:, 3]
            scores = dets[:, 4]
            inds = np.where((x2 > x1) & (y2 > y1) & (scores > cfg.TEST.DET_THRESHOLD))[0]
            dets = dets[inds,:]
            if dets == []:
                continue

            keep = nms(dets, thresh, force_cpu=True)
            if len(keep) == 0:
                continue
            nms_boxes[cls_ind][im_ind] = dets[keep, :].copy()
    return nms_boxes

def psoft(cls_dets):
    keep = soft_nms(cls_dets, method=cfg.TEST.SOFT_NMS)
    return cls_dets[keep]

def test_net(sess, net, imdb, weights_filename , max_per_image=300, thresh=0.0001, vis=False):
    """Test a Fast R-CNN network on an image database."""
    num_images = len(imdb.image_index)
    # all detections are collected into:
    #    all_boxes[cls][image] = N x 5 array of detections in
    #    (x1, y1, x2, y2, score)
    all_boxes = [[[] for _ in xrange(num_images)]
                 for _ in xrange(imdb.num_classes)]

    output_dir = get_output_dir(imdb, weights_filename)
    # timers
    _t = {'im_detect' : Timer(), 'misc' : Timer()}

    if not cfg.TEST.HAS_RPN:
        roidb = imdb.roidb

    p = Pool(27)
    for i in xrange(num_images):
        # filter out any ground truth boxes
        if cfg.TEST.HAS_RPN:
            box_proposals = None
        else:
            # The roidb may contain ground-truth rois (for example, if the roidb
            # comes from the training or val split). We only want to evaluate
            # detection on the *non*-ground-truth rois. We select those the rois
            # that have the gt_classes field set to 0, which means there's no
            # ground truth.
            box_proposals = roidb[i]['boxes'][roidb[i]['gt_classes'] == 0]

        im = cv2.imread(imdb.image_path_at(i))
        _t['im_detect'].tic()
        scores, boxes = im_detect(sess, net, im, box_proposals)
        _t['im_detect'].toc()

        _t['misc'].tic()
        if vis:
            image = im[:, :, (2, 1, 0)]
            plt.cla()
            plt.imshow(image)
        ###add
        commands = []
        # skip j = 0, because it's the background class
        for j in xrange(1, imdb.num_classes):
            inds = np.where(scores[:, j] > thresh)[0]
            cls_scores = scores[inds, j]
            cls_boxes = boxes[inds, j*4:(j+1)*4]
            cls_dets = np.hstack((cls_boxes, cls_scores[:, np.newaxis])) \
                .astype(np.float32, copy=False)
            commands.append(cls_dets)

        nms_dets = p.map(psoft, commands)
        for j in xrange(1, imdb.num_classes):
            if vis:
                vis_detections(im, imdb.classes[j], nms_dets[j-1])
            all_boxes[j][i] = nms_dets[j-1]

        if vis:
           plt.show()

        # Limit to max_per_image detections *over all classes*
        if max_per_image > 0:
            image_scores = np.hstack([all_boxes[j][i][:, -1]
                                      for j in xrange(1, imdb.num_classes)])
            if len(image_scores) > max_per_image:
                image_thresh = np.sort(image_scores)[-max_per_image]
                for j in xrange(1, imdb.num_classes):
                    keep = np.where(all_boxes[j][i][:, -1] >= image_thresh)[0]
                    all_boxes[j][i] = all_boxes[j][i][keep, :]
        _t['misc'].toc()

        print 'im_detect: {:d}/{:d} {:.3f}s {:.3f}s' \
              .format(i + 1, num_images, _t['im_detect'].average_time,
                      _t['misc'].average_time)

    det_file = os.path.join(output_dir, 'detections.pkl')
    with open(det_file, 'wb') as f:
        cPickle.dump(all_boxes, f, cPickle.HIGHEST_PROTOCOL)

    print 'Evaluating detections'
    imdb.evaluate_detections(all_boxes, output_dir)

3.5. 重新编译程序

因为修改了cpu_nms的内容，所以工程需要重新编译：
cd Faster root/lib make

3.6. 可以测试了

重新用代码测试就可以了。

代码是昨晚改的，博客是今早写的，所以步骤可能有所遗漏，有什么问题还请大家指正～

目标检测算法R-cnn系列 ouger爱编程算法岗面经深度学习的自我学习和学习资料目标检测算法 cnn
目标检测：R-cnn、faster-r-cnn等R-cnn：候选区域：使用选择性搜索(SelectiveSearch)等算法(合并像素，非常耗时)在输入图像中生成一组候选区域。特征提取：候选区->特征向量。区域分类：SVM判断是否有物体，并进行分类。区域校准：对边界框(boundingbox)进行校准。有大量的重复计算，非常耗时。fast-r-cnnICCV2015解决了特征图重复计算的问题。候选
计算机视觉 ouger爱编程深度学习的自我学习和学习资料算法岗面经计算机视觉人工智能
目标检测：R-cnn、faster-r-cnn、YOLO等R-cnn：候选区域：使用选择性搜索(SelectiveSearch)等算法(合并像素，非常耗时)在输入图像中生成一组候选区域。特征提取：候选区->特征向量。区域分类：SVM判断是否有物体，并进行分类。区域校准：对边界框(boundingbox)进行校准。有大量的重复计算，非常耗时。fast-r-cnnICCV2015解决了特征图重复计算的
2020-12-30 高斯纯牛奶
目录特征图与候选区域建立起联系不像faster-r-cnn一个候选框会对应好多个正的候选区域，那样预测出来总得正的候选区域也比较少划分锚框跟图片大小没关系，小方块的尺寸是固定的：这三种大小是在COCO数据集上统计出来的：可以调中心坐标和高度宽度cx是小方块左上角的坐标。pwph是原本锚框的宽度和高度。tx是随机初始化得到的，也就是说他是一个可以训练的参数。如果txty=0，正好在小方块的中心twt
DynaSLAM代码详解(2) — Mask RCNN物体检测框架几度春风里动态SLAM 动态slam 目标检测机器人
目录2.1前言2.2MaskR-CNN优点2.3MaskR-CNN框架解析(1)MaskR-CNN算法步骤(2)Faster-R-CNN(3)FCN(4)ROIPooling和ROIAlign的分析与比较(5)MaskR-CNN损失参考链接：（1）MaskR-CNN网络详解_fcn太阳花的小绿豆_太阳花的小绿豆的博客-CSDN博客（2）MaskR-CNN详解_maskrcnn_技术挖掘者的博客-C
YOLOV1和Faster-R-CNN的区别云从天上来深度学习细节研讨
抽空总结一下Yolov1和Faster-r-cnn的区别。首先要知道Yolov1：anchor-free的one-stage目标检测算法；Faster：anchor-base的two-stage目标检测算法。YOLOV1可以去看下我之前的博客Yolov1细节解读1.Yolov1并没有预先设置anchor，而是选择直接预测boundingbox，并且仅对每一个特征点（模型最后的特征图是一张7*7*3
目标检测之：Faster-R-Cnn 新生代农民工！深度学习目标检测深度学习目标检测 faste-r-cnn
目标检测：即在一张图中找出目标所在的位置，然后告诉我们目标的种类和坐标。现在目标检测主要分为单阶段和双阶段。单阶段目检测如ssd、yolo等，双阶段的如faster-r-cnn、cascade--rcnn等。本文的faster-rcnn为双阶段目标检测的代表，一般来说双阶段的目标检测效果要强于单阶段的目标检测，但是速度上和单阶段的目标检测还是有差距的。所以需要根据使用场景进行选择。双阶段的目标检测
yolo v1的学习与理解 QUIPY yolo v1 yolo dection
论文的原题目为：YouOnlyLookOnce:Unified,Real-TimeObjectDetection原论文下载地址作为一种新的目标检测算法，相比于之前的fast-RCNN,Faster-R-CNN等，其最大的区别是将检测问题转换为回归问题。之前的目标检测算法都是先通过CNN生成大量的regionproposal，即可疑目标区域，然后再在这些区域中进一步进行CNN的特征提取，检测出目标。
R-CNN、Fast-R-CNN、Faster-R-CNN详解爱抓猫的狗图像处理目标检测 object detection 计算机视觉深度学习
objectdetection我的理解，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。objectdetection要解决的问题就是物体在哪里，是什么这整个流程的问题。然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。objectdetection技术的演进：RCNN->SppNET->Fa
论文笔记：DETR: End-to-End Object Detection with Transformers (from 李沐老师and朱老师) 两面包+芝士 paper 目标检测深度学习计算机视觉
背景大多数目标检测方法都是two-stage(proposal)，即便是single-stage(anchor)，最后往往还需要一个后处理的操作，也就是nms(non-maximumsuppersion)非极大值抑制来去除预测框。避免了调参和部署困难(很多复杂的库和普通硬件不支持的算子，人工干预的先验知识)。先前广泛使用的检测模型将detection通过proposal:Faster-R-CNN，
初学Yolov1学习心得分享小白白选手 python 目标检测深度学习人工智能
第一次写博客记录自己的学习分享，开始复现一些经典的YOLO系列论文，首先从YOLOV1开始。1.YOLOV1（youonlylookonce）介绍之前的R-CNN,Fast-R-CNN，Faster-R-CNN等都是Two-stage算法的代表，它们将目标检测分解成了两个阶段，首先是候选区域的提取，然后是候选区域目标的识别两大步骤；由于先提取了候选区域进而再进行目标的识别和定位的回归，这使得准确率
目标检测 Faster-R-CNN论文笔记 FlyDremever ML&DL 卷积神经网络算法深度学习
FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworksShaoqingRen,KaimingHe,RossGirshick,andJianSun（主要用于自己学习）摘要：最先进的目标检测网络(当年最先进的)依赖于区域建议算法来假设目标位置。例如SPPnet[1]和FastR-CNN[2]等算法，这些算法虽然缩短了检
【深度学习】详解Faster-R-CNN 风度78 计算机视觉机器学习人工智能深度学习神经网络
作者简介CW，广东深圳人，毕业于中山大学（SYSU）数据科学与计算机学院，毕业后就业于腾讯计算机系统有限公司技术工程与事业群（TEG）从事Devops工作，期间在AILAB实习过，实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。目前也有在一些自媒体平台上参与外包项目的研发工作，项目专注于CV领域（传统图像处理与深度学习方向均有）。前言CW每次回顾FasterR-CN
令我“细思极恐”的Faster-R-CNN 深蓝学院深度学习人工智能深度学习
作者简介CW，广东深圳人，毕业于中山大学（SYSU）数据科学与计算机学院，毕业后就业于腾讯计算机系统有限公司技术工程与事业群（TEG）从事Devops工作，期间在AILAB实习过，实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。目前也有在一些自媒体平台上参与外包项目的研发工作，项目专注于CV领域（传统图像处理与深度学习方向均有）。前言CW每次回顾FasterR-CN
Faster-r-cnn cpu_tensorflow版 windows系统实现吃西瓜的小妖图片识别与定位
文章目录Faster-r-cnncpu_tensorflow版windows系统实现1.本机环境2.demo执行条件Faster-r-cnncpu_tensorflow版windows系统实现首先感谢@村民的菜篮子提供的帮助，我是基于他的脚本改动，然后自己尝试在windows上实现的转载大佬的博客（基于Ubuntu实现）：https://blog.csdn.net/sinat_33486980/a
Faster-R-CNN（Python）.1：从配置到demo guyunee deep learning python object detection
本文主要讲解Faster-R-CNN（Python）配置过程中遇到的问题。1.下载源码Python版本：https://github.com/rbgirshick/py-faster-rcnn网传需要用–recursive命令复制源码，否则无法clone到caffe，但是我用的自己的caffe，所以不受影响。gitclone--recursivehttps://github.com/rbgirsh
【论文笔记】-目标检测-YOLOv1-You Only Look Once: Unified, Real-Time Object Detection 努力写题的tyf 论文笔记
Abstract以前的算法：通过regioinproposal产生大量的可能包含待检测物体的potentialboundingbox，再用分类器去判断每个boundingbox里是否含有物体及其所属类别的概率或置信度。（比如：R-CNN,Fast-R-CNN,Faster-R-CNN）YOLO算法：把目标检测看做是一个regression问题来处理，通过一个神经网络，直接从一张图像中预测出bbox
R-CNN 、SPPNet、Fast R-CNN、Faster R-CNN、Cascade R-CNN论文翻译洪流之源深度学习目标检测
R-CNN:https://alvinzhu.xyz/2017/10/09/r-cnn/SPPNet:http://www.dengfanxin.cn/?p=403FastR-CNN:https://alvinzhu.xyz/2017/10/10/fast-r-cnn/FasterR-CNN:https://alvinzhu.xyz/2017/10/12/faster-r-cnn/orhttps:
关于anchor的解释小魔大树哥机器学习
第一次接触anchor是Faster-R-CNN中提及的RPN（RegionProposalNetwork）。在我的博文里【Faster-R-CNN总结】也有介绍Faster-R-CNN的几点总结，但是对anchor的定义没有详细说明。在学习过程中，发现很多人其实没有真正搞懂anchor，本人也是如此，反复研究后总算弄清楚原理。首先明确anchor的位置。anchor是在原图上的区域，而不是在特征
浅谈YOLOV2与YOLOV3 米小凡
YOLOv1:YOLOv1论文理解最近要做目标跟踪，经过调研发现，YOLOv3的速度与精度喜人，超过了同时代的(Faster-R-cnn、SSD、YOLOv2)，达到了art-to-state水平，但是在阅读过程中，尽管我曾经看过v1和v2但是在了解v3的时候还是有点困难，因此重新进行了梳理。YOLOv2:不得不说，作者的"分而治之"的策略的确很好，在提高速度的同时，精度也比较高。训练trick：
解决OpenCV: ld cannot find lippicv 问题刘小狼 Caffe OpenCV lippicv
问题1：caffe/proto/caffe.pb.h:Nosuchfileordirectorycaffe配置问题与解决方法集锦http://blog.csdn.net/u010167269/article/details/50703923实验C++版faster-r-cnn过程中遇到的OpenCV问题，通过Google查找解决。问题2：g++example.cpp-oexample`pkg-co
resnet50、FPN、Panet结构及代码不你不想 pytorch 深度学习 python
起初faster-r-cnn，只采用最后一层特作为rpn以及head部分的特征图，后来不断改进，有了FPN，再后来有了Panet，一般来说网络的层数越深它的语义信息越丰富。但是随着网络层数的加深，检测所需的位置信息就会越差，CNN分类网络只需要知道一张图像的种类即可所以很多时候网络越深效果越好，但是不是分类效果越好的网越适合检测。FPN如下图所示，它用了不同大小的特征图进行预测，图中：下方的特征图
目标检测学习小结1（R-CNN、Fast-R-CNN、Faster-R-CNN） Puremelo 目标检测
目标检测学习小结之一深度学习小白首次接触目标检测，在阅读了几篇关于目标检测的论文后做一个阶段性小结，以便日后复习。经过对目标检测的初步了解后，一个目标检测算法大体可分为以下几个部分：（1）锁定目标区域（2）图像特征提取（3）根据特征对目标进行分类（4）对目标定位并用包围框进行标注本文重点叙述锁定候选区域的算法及其余三部分的典型算法介绍，最后对R-CNN、Fast-R-CNN、Faster-R-CN
车辆检测识别（YOLOV2) yang1688899
代码地址：yang1688899/Vehicle-Detection-YOLO-kerasYOLO简介：YOLO意为YouOnlyLookOnce，是一种基于深度学习的端对端（endtoend）物体检测方法.与R-CNN,Fast-R-CNN,Faster-R-CNN等通过regionproposal产生大量的可能包含待检测物体的potentialboundingbox，再用分类器去判断每个bou
R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD, R-FCN系列深度学习检测方法梳理 weixin_30699443
注：1.本博文持续更新中，文章较长，可以收藏方便下次阅读。2.本人原创，谢绝转载。1.R-CNN：Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation技术路线：selectivesearch+CNN+SVMsStep1:候选框提取(selectivesearch)训练：给定一张图片，利用seletivesea
深度学习面试题21-40 是小晰瓜啊
21.r-cnn，fast-r-cnn、faster-r-cnn三者的区别？CNN流行之后，Szegedy做过将detection问题作为回归问题的尝试（DeepNeuralNetworksforObjectDetection），但是效果差强人意，在VOC2007上mAP只有30.5%。既然回归方法效果不好，而CNN在分类问题上效果很好，那么为什么不把detection问题转化为分类问题呢？RBG
基于深度学习的目标检测识别算法 daxuan1881
目前可以将现有的基于深度学习的目标检测与识别算法大致分为以下三大类：基于区域建议的目标检测与识别算法，如R-CNN,Fast-R-CNN,Faster-R-CNN;基于回归的目标检测与识别算法，如YOLO,SSD;基于搜索的目标检测与识别算法，如基于视觉注意的AttentionNet，基于强化学习的算法一、基于区域建议的目标检测与识别算法这类算法的主要步骤是：首先使用选择性搜索算法（Selecti
什么是Faster-R-CNN（Fast R-CNN与R-CNN） codebrid 随记
提出这一概念的论文：《FasterR-CNN：TowardsReal-TimeObjectDetectionwithRegionProposalNetworks》Faster-R-CNN是CV-Objectdetection领域下的。（目标检测=多图像识别+多物体定位）CV-Objectdetection的相关学习可以参考https://zhuanlan.zhihu.com/p/31117359o
深度学习之目标检测与目标识别笨拙的石头深度学习
一目标识别分类及应用场景目前可以将现有的基于深度学习的目标检测与识别算法大致分为以下三大类：①基于区域建议的目标检测与识别算法，如R-CNN,Fast-R-CNN,Faster-R-CNN;②基于回归的目标检测与识别算法，如YOLO,SSD;③基于搜索的目标检测与识别算法，如基于视觉注意的AttentionNet，基于强化学习的算法.目前,目标识别主要有以下几个应用场景:①安全领域：指纹识别、人脸
从YOLO到SSD再到YOLO9000（一）水果先生深度学习
YOLO摘要YOLO之前的物体检测方法主要是通过regionproposal产生大量的可能包含待检测物体的potentialboundingbox，再用分类器去判断每个boundingbox里是否包含有物体，以及物体所属类别的probability或者confidence，如R-CNN,Fast-R-CNN,Faster-R-CNN等。YOLO不同于这些物体检测方法，它将物体检测任务当做一个reg
第一次深度学习实习生面试经历 Beach_pants 深度学习实习面试
投了很多简历，只有这一家给了我面试，首先还是比较感谢的。一家创业型公司，不过看到的时候还有有点小吃惊，是一个住宅大厦里面，里面本身有很多公司，进门看上去也是一个住宅的感觉，房子比较小，里面就俩人。。。。。。桌子上大约有4、5台台式。面试是工程师面的我，拿着笔记本，直接看简历，我简历上写着faster-r-cnn，直接github上找到了源码，开始想编译一下，看下结果，不过出了点小问题，没成功。面试
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号