javastart

深度学习-TextDetection

本文主要对常用的文本检测模型算法进行总结及分析，有的模型笔者切实run过，有的是通过论文及相关代码的分析，如有错误，请不吝指正。

一下进行各个模型的详细解析

CTPN 详解

代码链接：https://github.com/xiaofengShi/CHINESE-OCR

CTPN是目前应用非常广泛的印刷体文本检测模型算法。

CTPN由fasterrcnn改进而来，可以看下二者的异同

网络结构	FasterRcnn	CTPN
basenet	Vgg16 ,Vgg19,resnet	Vgg16,也可以使用其他CNN结构
RPN预测	basenet的predict layer使用CNN生成	basenet之后使用双向RNN使用FC生成
ROI	模型适用于目标检测，为多分类任务，包含ROI及类别损失和BOX回归	文本提取为二分类任务，不包含ROI及类别损失，只在RPN层计算目标损失及BOX回归
Anchor	一共9种anchor尺寸,3比例，3尺寸	固定anchor宽度，高度为10种
batch	每次只能训练一个样本	每次只能训练一个样本

根据ctpn的网络设计，可以看到看到ctpn一般使用预训练的vggnet，并且只用来检测水平文本，一般可以用来进行标准格式印刷体的检测，在目标框回归预测时，加上回归框的角度信息，就可以用来检测旋转文本，比如EAST模型。

代码分析

网络模型

直接看CTPN的网络代码

copy

class VGGnet_train(Network):
    # 继承自NetWork,关与NetWork可以看这里：https://github.com/xiaofengShi/CHINESE-OCR/blob/master/ctpn/lib/networks/network.py
    def __init__(self, trainable=True):
        self.inputs = []
        self.data = tf.placeholder(tf.float32, shape=[None, None, None, 3], name='data')
        self.im_info = tf.placeholder(tf.float32, shape=[None, 3], name='im_info')
        self.gt_boxes = tf.placeholder(tf.float32, shape=[None, 5], name='gt_boxes')
        self.gt_ishard = tf.placeholder(tf.int32, shape=[None], name='gt_ishard')
        self.dontcare_areas = tf.placeholder(tf.float32, shape=[None, 4], name='dontcare_areas')
        self.keep_prob = tf.placeholder(tf.float32)
        self.layers = dict({'data': self.data, 'im_info': self.im_info, 'gt_boxes': self.gt_boxes,'gt_ishard': self.gt_ishard, 'dontcare_areas': self.dontcare_areas})
        self.trainable = trainable
        self.setup()

    def setup(self):
        # 对于文本提议来说，类别为2，一类为为文字部分，另一类为背景
        n_classes = cfg.NCLASSES
        # anchor的初始尺寸，论文中使用的是16
        anchor_scales = cfg.ANCHOR_SCALES
        _feat_stride = [16, ]
        
        # base net is vgg16
        # 内部使用的函数
        (self.feed('data')
            .conv(3, 3, 64, 1, 1, name='conv1_1')
            .conv(3, 3, 64, 1, 1, name='conv1_2')
            .max_pool(2, 2, 2, 2, padding='VALID', name='pool1')
            .conv(3, 3, 128, 1, 1, name='conv2_1')
            .conv(3, 3, 128, 1, 1, name='conv2_2')
            .max_pool(2, 2, 2, 2, padding='VALID', name='pool2')
            .conv(3, 3, 256, 1, 1, name='conv3_1')
            .conv(3, 3, 256, 1, 1, name='conv3_2')
            .conv(3, 3, 256, 1, 1, name='conv3_3')
            .max_pool(2, 2, 2, 2, padding='VALID', name='pool3')
            .conv(3, 3, 512, 1, 1, name='conv4_1')
            .conv(3, 3, 512, 1, 1, name='conv4_2')
            .conv(3, 3, 512, 1, 1, name='conv4_3')
            .max_pool(2, 2, 2, 2, padding='VALID', name='pool4')
            .conv(3, 3, 512, 1, 1, name='conv5_1')
            .conv(3, 3, 512, 1, 1, name='conv5_2')
            .conv(3, 3, 512, 1, 1, name='conv5_3'))
        # RPN 
        # 该层对上层的feature map进行卷积，生成512通道的的feature map
        (self.feed('conv5_3').conv(3, 3, 512, 1, 1, name='rpn_conv/3x3'))
        # 卷积最后一层的的feature_map尺寸为batch*h*w*512

        # 原来的单层双向LSTM
        (self.feed('rpn_conv/3x3').Bilstm(512, 128, 512, name='lstm_o'))
        # bilstm之后输出的尺寸为(N, H, W, 512)

        """ 
        和faster—rcnn相似，在ctpn的rpn网络中，使用双向lstm和全连接得到预测的
        目标概率和回归框，在faster-rcnn中使用的是卷积的方式从basenet的最后一层生成
        使用LSTM的输出来计算位置偏移和类别概率（判断是否是物体，不判断类别的种类）
        输入尺寸为(N, H, W, 512)  输出尺寸（N, H, W, int(d_o)）
        可以将这一层当做目标检测中的最后一层feature_map
        rpn_bbox_pred--对于h*w的尺寸上，每一anchor上生成4个位置偏移量
        rpn_cls_score--对于h*w的尺寸上，每一anchor上生成2个置信度得分，判断是否为物体
            
        """
        (self.feed('lstm_o').lstm_fc(512, len(anchor_scales) * 10 * 4, name='rpn_bbox_pred'))
        (self.feed('lstm_o').lstm_fc(512, len(anchor_scales) * 10 * 2, name='rpn_cls_score'))

        # generating training labels on the fly
        # output: rpn_labels(HxWxA, 2) rpn_bbox_targets(HxWxA, 4) rpn_bbox_inside_weights rpn_bbox_outside_weights
        # 给每个anchor上标签，并计算真值（也是delta的形式），以及内部权重和外部权重
        (self.feed('rpn_cls_score', 'gt_boxes', 'gt_ishard', 'dontcare_areas', 'im_info')
            .anchor_target_layer(_feat_stride, anchor_scales, name='rpn-data'))

        # shape is (1, H, W, Ax2) -> (1, H, WxA, 2)
        # 给之前得到的score进行softmax，得到0-1之间的得分
        (self.feed('rpn_cls_score')
            .spatial_reshape_layer(2, name='rpn_cls_score_reshape')
            .spatial_softmax(name='rpn_cls_prob'))
        '''
        # the below is the rcnn net model from faster_rcnn
        # 后面的部分是fasterrcnn之后的ROIPooling部分
        (self.feed('rpn_cls_prob').spatial_reshape_layer(len(anchor_scales) * 10 * 2, name='rpn_cls_prob_reshape'))

        self.feed('rpn_cls_prob_reshape', 'rpn_bbox_pred', 'im_info').proposal_layer(
            _feat_stride, anchor_scales, 'TRAIN', name='rpn_rois')

        (self.feed('rpn_rois', 'gt_boxes').proposal_target_layer(n_classes, name='roi-data'))

        # ========= RCNN ============
        (self.feed('conv5_3', 'roi-data').roi_pool(7, 7, 1.0/16, name='pool_5')
             .fc(4096, name='fc6').dropout(0.5, name='drop6')
             .fc(4096, name='fc7').dropout(0.5, name='drop7')
             .fc(n_classes, relu=False, name='cls_score').softmax(name='cls_prob'))

        (self.feed('drop7').fc(n_classes*4, relu=False, name='bbox_pred'))
        '''

可以看到CTPN的网络结构有FasterRcnn改变而来，使用vggnet进行图像的特征提取，对得到的最后一层featuremap的尺寸为[N,H,W,C][N,H,W,C]，进行维度变换为[NH,W,C][NH,W,C]成为序列，使用BLSTM得到的维度为[NH,W,2D][NH,W,2D]其中DD为单向RNN的隐藏层节点数，转换维度为[NHW,2D][NHW,2D]，使用全连接进行维度转换为[NHW,C][NHW,C]，最后再reshape成[N,H,W,C][N,H,W,C]，在这一步中，使用RNN对CNN之后的特征图进行特征图长度方向上的连接；接下来使用lstm_fc函数对anchor进行目标类别预测和边界回归框预测，在这一层的特征图上，每个点生成A个anchor，每个anchor存在目标类别预测和边界回归预测：对于回归预测，每个格点生成2A个目标预测；对于边界回归预测，每个格点生成4A个边界预测。

网络模型结构如下所示

CTPN MODEL STRUCTURE

anchor生成及筛选

在整个模型中，AnchorGen处需要详细说明，这就是大名鼎鼎的RPN，下面结合代码说明：

copy

# -*- coding:utf-8 -*-
import numpy as np
import numpy.random as npr

from ..fast_rcnn.config import cfg
from bbox import bbox_overlaps, bbox_intersections

DEBUG = False

# 生成基础anchor box
def generate_basic_anchors(sizes, base_size=16):
    base_anchor = np.array([0, 0, base_size - 1, base_size - 1], np.int32)
    anchors = np.zeros((len(sizes), 4), np.int32)
    index = 0
    for h, w in sizes:
        anchors[index] = scale_anchor(base_anchor, h, w)
        index += 1
    return anchors

# 根据baseanchor和设定的anchor的高度和宽度进行设定的anchor生成
def scale_anchor(anchor, h, w):
    x_ctr = (anchor[0] + anchor[2]) * 0.5
    y_ctr = (anchor[1] + anchor[3]) * 0.5
    scaled_anchor = anchor.copy()
    scaled_anchor[0] = x_ctr - w / 2  # xmin
    scaled_anchor[2] = x_ctr + w / 2  # xmax
    scaled_anchor[1] = y_ctr - h / 2  # ymin
    scaled_anchor[3] = y_ctr + h / 2  # ymax
    return scaled_anchor

# 生成anchor box
# 此处使用的是宽度固定，高度不同的anchor设置
def generate_anchors(base_size=16, ratios=[0.5, 1, 2],
                     scales=2 ** np.arange(3, 6)):
    heights = [11, 16, 23, 33, 48, 68, 97, 139, 198, 283]
    widths = [16]
    sizes = []
    for h in heights:
        for w in widths:
            sizes.append((h, w))
    return generate_basic_anchors(sizes)

# 生成的anchor和groundtruth之间进行转换，转换方式和论文一致
def bbox_transform(ex_rois, gt_rois):
    """
    computes the distance from ground-truth boxes to the given boxes, normed by their size
    :param ex_rois: n * 4 numpy array, anchor boxes
    :param gt_rois: n * 4 numpy array, ground-truth boxes
    :return: deltas: n * 4 numpy array, ground-truth boxes
    """
    ex_widths = ex_rois[:, 2] - ex_rois[:, 0] + 1.0 # anchor width 
    ex_heights = ex_rois[:, 3] - ex_rois[:, 1] + 1.0 # anchor height
    ex_ctr_x = ex_rois[:, 0] + 0.5 * ex_widths # anchor center x
    ex_ctr_y = ex_rois[:, 1] + 0.5 * ex_heights # anchor center y

    assert np.min(ex_widths) > 0.1 and np.min(ex_heights) > 0.1, \
        'Invalid boxes found: {} {}'. \
        format(ex_rois[np.argmin(ex_widths), :], ex_rois[np.argmin(ex_heights), :])

    gt_widths = gt_rois[:, 2] - gt_rois[:, 0] + 1.0 # gt_box width
    gt_heights = gt_rois[:, 3] - gt_rois[:, 1] + 1.0 # gt_box height
    gt_ctr_x = gt_rois[:, 0] + 0.5 * gt_widths # gt_box center x
    gt_ctr_y = gt_rois[:, 1] + 0.5 * gt_heights # gt_box center y

    # warnings.catch_warnings()
    # warnings.filterwarnings('error')
    targets_dx = (gt_ctr_x - ex_ctr_x) / ex_widths  # (gt_c_x-a_c_x)
    targets_dy = (gt_ctr_y - ex_ctr_y) / ex_heights
    targets_dw = np.log(gt_widths / ex_widths)
    targets_dh = np.log(gt_heights / ex_heights)

    targets = np.vstack(
        (targets_dx, targets_dy, targets_dw, targets_dh)).transpose()

    return targets

# 生成anchors
def anchor_target_layer(
        rpn_cls_score, gt_boxes, gt_ishard, dontcare_areas, im_info, _feat_stride=[16, ],
        anchor_scales=[16, ]):
    """
    Assign anchors to ground-truth targets. Produces anchor classification
    labels and bounding-box regression targets.
    Parameters
    ----------
    rpn_cls_score: (1, H, W, Ax2) bg/fg scores of previous conv layer
    gt_boxes: (G, 5) vstack of [x1, y1, x2, y2, class]
    gt_ishard: (G, 1), 1 or 0 indicates difficult or not
    dontcare_areas: (D, 4), some areas may contains small objs but no labelling. D may be 0
    im_info: a list of [image_height, image_width, scale_ratios]
    _feat_stride: the downsampling ratio of feature map to the original input image
    anchor_scales: the scales to the basic_anchor (basic anchor is [16, 16])
    ----------
    Returns
    ----------
    rpn_labels : (HxWxA, 1), for each anchor, 0 denotes bg, 1 fg, -1 dontcare
    rpn_bbox_targets: (HxWxA, 4), distances of the anchors to the gt_boxes(may contains some transform)
                            that are the regression objectives
    rpn_bbox_inside_weights: (HxWxA, 4) weights of each boxes, mainly accepts hyper param in cfg
    rpn_bbox_outside_weights: (HxWxA, 4) used to balance the fg/bg,
                            beacuse the numbers of bgs and fgs mays significiantly different
    """
    # anchors is the [x_min,y_min,x_max,y_max]
    # 生成基本的anchor,一共10个
    _anchors = generate_anchors(scales=np.array(anchor_scales))  
    _num_anchors = _anchors.shape[0]  # 10个anchor

    # allow boxes to sit over the edge by a small amount
    _allowed_border = 0
    # 原始图像的信息，图像的高宽及通道数
    im_info = im_info[0]  

    # 在feature-map上定位anchor，并加上delta，得到在实际图像中anchor的真实坐标
    """ 
    Algorithm:
        for each (H, W) location i
            generate 9 anchor boxes centered on cell i
            apply predicted bbox deltas at cell i to each of the 9 anchors
            filter out-of-image anchors
        measure GT overlap 
    """
    assert rpn_cls_score.shape[0] == 1, \
        'Only single item batches are supported'

    # map of shape (..., H, W)
    height, width = rpn_cls_score.shape[1:3]  # feature-map的高宽
    # 1. Generate proposals from bbox deltas and shifted anchors
    shift_x = np.arange(0, width) * _feat_stride
    shift_y = np.arange(0, height) * _feat_stride
    shift_x, shift_y = np.meshgrid(shift_x, shift_y)  # in W H order
    # 生成feature-map和真实图像上anchor之间的偏移量
    # shifts构建网格结构，shape [height*width,4]
    shifts = np.vstack((shift_x.ravel(), shift_y.ravel(),
                        shift_x.ravel(), shift_y.ravel())).transpose()  
    A = _num_anchors  # 10个anchor
    K = shifts.shape[0]  # feature-map的宽乘高的大小
    # 为当前的featuremap每个点生成A个anchor，shape is [K,A,4]
    all_anchors = (_anchors.reshape((1, A, 4)) +
                   shifts.reshape((1, K, 4)).transpose((1, 0, 2)))  
    all_anchors = all_anchors.reshape((K * A, 4))  # shape is (K*A,4)
    # 在featuremap上每个点生成A个anchor
    total_anchors = int(K * A)
    # only keep anchors inside the image
    # 因为生成的anchor尺寸有大有小，因此在边缘处生成的anchor有可能会超过原始图像的边界，
    # 将这些超过边界的anchor去掉,得到的是这些anchor的在all_anchors中的索引
    # 仅保留那些还在图像内部的anchor，超出图像的都删掉
    # anchors[:]=[x_min,y_min,x_max,y_max]
    inds_inside = np.where(
        (all_anchors[:, 0] >= -_allowed_border) &
        (all_anchors[:, 1] >= -_allowed_border) &
        (all_anchors[:, 2] < im_info[1] + _allowed_border) &  # width
        (all_anchors[:, 3] < im_info[0] + _allowed_border)  # height
    )[0]
    
    # keep only inside anchors
    anchors = all_anchors[inds_inside, :]  # 保留那些在图像内的anchor
    
    # 至此，anchor准备好了
    # --------------------------------------------------------------
    # label: 1 is positive, 0 is negative, -1 is dont care
    # (A)
    labels = np.empty((len(inds_inside),), dtype=np.float32)
    labels.fill(-1)  # 初始化label，均为-1
    # overlaps between the anchors and the gt boxes
    # overlaps (ex, gt), shape is A x G
    # 计算anchor和gt-box的overlap，用来给anchor上标签
    # anchor box and groundtruth box 交集面积/并集面积
    # 通过IOU的得分来确定anchor为正样本与否
    # overlaps shape is [anchor.shape[0],gt_box.shape[0]]
    overlaps = bbox_overlaps(
        np.ascontiguousarray(anchors, dtype=np.float),
        np.ascontiguousarray(gt_boxes, dtype=np.float))  
    # 存放每一个anchor和每一个gtbox之间的overlap
    # 找到和每一个gtbox，overlap最大的那个anchor
    argmax_overlaps = overlaps.argmax(axis=1) 
    max_overlaps = overlaps[np.arange(len(inds_inside)), argmax_overlaps]
    # 找到每个位置上10个anchor中与gtbox，overlap最大的那个
    gt_argmax_overlaps = overlaps.argmax(axis=0)  
    gt_max_overlaps = overlaps[gt_argmax_overlaps,
                               np.arange(overlaps.shape[1])]
    gt_argmax_overlaps = np.where(overlaps == gt_max_overlaps)[0]

    if not cfg.TRAIN.RPN_CLOBBER_POSITIVES:
        # assign bg labels first so that positive labels can clobber them
        # 先给背景上标签，小于0.3overlap的为负样本label为0
        labels[max_overlaps < cfg.TRAIN.RPN_NEGATIVE_OVERLAP] = 0  

    # -----------------------------------#
    # 正样本的确定，iou得分大于0.7和每个位置上具有最大IOU得分的anchor
    # fg label: for each gt, anchor with highest overlap
    # 每个位置上的10个个anchor中overlap最大的认为是前景
    labels[gt_argmax_overlaps] = 1  
    # fg label: above threshold IOU
    # overlap大于0.7的认为是前景
    labels[max_overlaps >= cfg.TRAIN.RPN_POSITIVE_OVERLAP] = 1  

    if cfg.TRAIN.RPN_CLOBBER_POSITIVES:
        # assign bg labels last so that negative labels can clobber positives
        labels[max_overlaps < cfg.TRAIN.RPN_NEGATIVE_OVERLAP] = 0

    # preclude dontcare areas
    # 这里我们暂时不考虑有doncare_area的存在
    if dontcare_areas is not None and dontcare_areas.shape[0] > 0:  
        # intersec shape is D x A
        intersecs = bbox_intersections(
            np.ascontiguousarray(dontcare_areas, dtype=np.float),  # D x 4
            np.ascontiguousarray(anchors, dtype=np.float)  # A x 4
        )
        intersecs_ = intersecs.sum(axis=0)  # A x 1
        labels[intersecs_ > cfg.TRAIN.DONTCARE_AREA_INTERSECTION_HI] = -1

    # 这里我们暂时不考虑难样本的问题
    # preclude hard samples that are highly occlusioned, truncated or difficult to see
    if cfg.TRAIN.PRECLUDE_HARD_SAMPLES and gt_ishard is not None and gt_ishard.shape[0] > 0:
        assert gt_ishard.shape[0] == gt_boxes.shape[0]
        gt_ishard = gt_ishard.astype(int)
        gt_hardboxes = gt_boxes[gt_ishard == 1, :]
        if gt_hardboxes.shape[0] > 0:
            # H x A
            hard_overlaps = bbox_overlaps(
                np.ascontiguousarray(gt_hardboxes, dtype=np.float),  # H x 4
                np.ascontiguousarray(anchors, dtype=np.float))  # A x 4
            hard_max_overlaps = hard_overlaps.max(axis=0)  # (A)
            labels[hard_max_overlaps >= cfg.TRAIN.RPN_POSITIVE_OVERLAP] = -1
            max_intersec_label_inds = hard_overlaps.argmax(axis=1)  # H x 1
            labels[max_intersec_label_inds] = -1  #

    # subsample positive labels if we have too many
    # 对正样本进行采样，如果正样本的数量太多的话
    # 限制正样本的数量不超过128个，排除的置位dont_Care类
    # TODO 这个后期可能还需要修改，毕竟如果使用的是字符的片段，那个正样本的数量是很多的。
    num_fg = int(cfg.TRAIN.RPN_FG_FRACTION * cfg.TRAIN.RPN_BATCHSIZE)
    fg_inds = np.where(labels == 1)[0]
    if len(fg_inds) > num_fg:
        disable_inds = npr.choice(
            fg_inds, size=(len(fg_inds) - num_fg), replace=False)  # 随机去除掉一些正样本
        labels[disable_inds] = -1  # 变为-1

    # subsample negative labels if we have too many
    # 对负样本进行采样，如果负样本的数量太多的话
    # 正负样本总数是256，限制正样本数目最多128，
    # 如果正样本数量小于128，差的那些就用负样本补上，凑齐256个样本
    num_bg = cfg.TRAIN.RPN_BATCHSIZE - np.sum(labels == 1)
    bg_inds = np.where(labels == 0)[0]
    if len(bg_inds) > num_bg:
        disable_inds = npr.choice(
            bg_inds, size=(len(bg_inds) - num_bg), replace=False)
        labels[disable_inds] = -1
        # print "was %s inds, disabling %s, now %s inds" % (
        # len(bg_inds), len(disable_inds), np.sum(labels == 0))

    # 至此， 上好标签，开始计算rpn-box的真值
    # --------------------------------------------------------------
    bbox_targets = np.zeros((len(inds_inside), 4), dtype=np.float32)
    # 根据anchor和gtbox计算得真值（anchor和gtbox之间的偏差）
    bbox_targets = _compute_targets(anchors, gt_boxes[argmax_overlaps, :])
	# 内部权重，前景就给1，其他是0
    bbox_inside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)
    bbox_inside_weights[labels == 1, :] = np.array(
        cfg.TRAIN.RPN_BBOX_INSIDE_WEIGHTS)  

    bbox_outside_weights = np.zeros((len(inds_inside), 4), dtype=np.float32)
    if cfg.TRAIN.RPN_POSITIVE_WEIGHT < 0: 
        # 此处使用uniform权重，也就是正样本是1，负样本是0
        # uniform weighting of examples (given non-uniform sampling)
        # num_examples = np.sum(labels >= 0) + 1
        # positive_weights = np.ones((1, 4)) * 1.0 / num_examples
        # negative_weights = np.ones((1, 4)) * 1.0 / num_examples
        positive_weights = np.ones((1, 4))  # 前景为1
        negative_weights = np.zeros((1, 4))  # 背景为0
    else:
        assert ((cfg.TRAIN.RPN_POSITIVE_WEIGHT > 0) &
                (cfg.TRAIN.RPN_POSITIVE_WEIGHT < 1))
        positive_weights = (cfg.TRAIN.RPN_POSITIVE_WEIGHT /
                            (np.sum(labels == 1)) + 1)
        negative_weights = ((1.0 - cfg.TRAIN.RPN_POSITIVE_WEIGHT) /
                            (np.sum(labels == 0)) + 1)
    # 外部权重，前景是1，背景是0
    # bbox_outside_weights初始化为0，将label中为0的位置赋值bbox_outside_weights为0,labels为1的位置赋值为1
    bbox_outside_weights[labels == 1, :] = positive_weights
    bbox_outside_weights[labels == 0, :] = negative_weights

    # map up to original set of anchors
    # 一开始是将超出图像范围的anchor直接丢掉的，现在在加回来
    # inds_inside 是原始anchor中的索引
    labels = _unmap(labels, total_anchors, inds_inside, fill=-1)  # 这些anchor的label是-1，也即dontcare
    bbox_targets = _unmap(bbox_targets, total_anchors, inds_inside, fill=0)  # 这些anchor的真值是0，也即没有值
    bbox_inside_weights = _unmap(bbox_inside_weights, total_anchors,
                                 inds_inside, fill=0)  # 内部权重以0填充
    bbox_outside_weights = _unmap(bbox_outside_weights, total_anchors,
                                  inds_inside, fill=0)  # 外部权重以0填充

    # labels
    labels = labels.reshape((1, height, width, A))  # reshap一下label
    rpn_labels = labels

    # bbox_targets
    bbox_targets = bbox_targets.reshape((1, height, width, A * 4))  # reshape
    rpn_bbox_targets = bbox_targets

    # bbox_inside_weights
    bbox_inside_weights = bbox_inside_weights.reshape((1, height, width, A * 4))
    rpn_bbox_inside_weights = bbox_inside_weights

    # bbox_outside_weights
    bbox_outside_weights = bbox_outside_weights.reshape((1, height, width, A * 4))
    rpn_bbox_outside_weights = bbox_outside_weights
    
	rpn_data=(rpn_labels, rpn_bbox_targets, rpn_bbox_inside_weights, rpn_bbox_outside_weights)
    
    return rpn_data

# 将排除掉边界之外的anchors之后的anchor补全回来
def _unmap(data, count, inds, fill=0):
    """ Unmap a subset of item (data) back to the original set of items (of
    size count) """
    if len(data.shape) == 1:
        ret = np.empty((count,), dtype=np.float32)
        ret.fill(fill)
        ret[inds] = data
    else:
        ret = np.empty((count,) + data.shape[1:], dtype=np.float32)
        ret.fill(fill)
        ret[inds, :] = data
    return ret

# 计算anchor和gt之间的矩形框的偏差
def _compute_targets(ex_rois, gt_rois):
    """Compute bounding-box regression targets for an image."""

    assert ex_rois.shape[0] == gt_rois.shape[0]
    assert ex_rois.shape[1] == 4
    assert gt_rois.shape[1] == 5

    return bbox_transform(ex_rois, gt_rois[:, :4]).astype(np.float32, copy=False)

对于bbox使用cpython写成(.pyx文件)

copy

import numpy as np
cimport numpy as np



DTYPE = np.float
ctypedef np.float_t DTYPE_t

# 计算IOU
def bbox_overlaps(
        np.ndarray[DTYPE_t, ndim=2] boxes,
        np.ndarray[DTYPE_t, ndim=2] query_boxes):
    """
    Parameters
    ----------
    boxes: (N, 4) ndarray of float, anchor box nums
    query_boxes: (K, 4) ndarray of float, groud_truth object nums,[x_min,y_min,x_max,y_max,class]
    Returns
    -------
    overlaps: (N, K) ndarray of overlap between boxes and query_boxes
    """
    cdef unsigned int N = boxes.shape[0]
    cdef unsigned int K = query_boxes.shape[0]
    cdef np.ndarray[DTYPE_t, ndim=2] overlaps = np.zeros((N, K), dtype=DTYPE)
    cdef DTYPE_t iw, ih, box_area
    cdef DTYPE_t ua
    cdef unsigned int k, n
    for k in range(K):
        box_area = (
            (query_boxes[k, 2] - query_boxes[k, 0] + 1) *
            (query_boxes[k, 3] - query_boxes[k, 1] + 1)
        )
        for n in range(N):
            # 水平方向上的交集，如果存在那么iw为正
            iw = (
                min(boxes[n, 2], query_boxes[k, 2]) -
                max(boxes[n, 0], query_boxes[k, 0]) + 1
            )
            if iw > 0:
                # 竖直方向上的交集
                ih = (
                    min(boxes[n, 3], query_boxes[k, 3]) -
                    max(boxes[n, 1], query_boxes[k, 1]) + 1
                )
                if ih > 0:
                    # 如果存在交集，计算并集的面积
                    # union area
                    ua = float(
                        (boxes[n, 2] - boxes[n, 0] + 1) *
                        (boxes[n, 3] - boxes[n, 1] + 1) +
                        box_area - iw * ih
                    )
                    # 交集面积/并集面积
                    overlaps[n, k] = iw * ih / ua
    return overlaps


# anchor与gt交集面积相对于gt面积的比例
def bbox_intersections(
        np.ndarray[DTYPE_t, ndim=2] boxes,
        np.ndarray[DTYPE_t, ndim=2] query_boxes):
    """
    For each query box compute the intersection ratio covered by boxes
    ----------
    Parameters
    ----------
    boxes: (N, 4) ndarray of float
    query_boxes: (K, 4) ndarray of float
    Returns
    -------
    overlaps: (N, K) ndarray of intersec between boxes and query_boxes
    """
    cdef unsigned int N = boxes.shape[0]
    cdef unsigned int K = query_boxes.shape[0]
    cdef np.ndarray[DTYPE_t, ndim=2] intersec = np.zeros((N, K), dtype=DTYPE)
    cdef DTYPE_t iw, ih, box_area
    cdef DTYPE_t ua
    cdef unsigned int k, n
    for k in range(K):
        box_area = (
            (query_boxes[k, 2] - query_boxes[k, 0] + 1) *
            (query_boxes[k, 3] - query_boxes[k, 1] + 1)
        )
        for n in range(N):
            iw = (
                min(boxes[n, 2], query_boxes[k, 2]) -
                max(boxes[n, 0], query_boxes[k, 0]) + 1
            )
            if iw > 0:
                ih = (
                    min(boxes[n, 3], query_boxes[k, 3]) -
                    max(boxes[n, 1], query_boxes[k, 1]) + 1
                )
                if ih > 0:
                    intersec[n, k] = iw * ih / box_area
    return intersec

代码中的注释已经写得明明白白了。anchor生成函数为anchor_target_layer.py

Anchors

首先根据设定的anchor高度和宽度在特征图上每个cell生成A个anchors，这些anchors有的会超过原始图像的边界，如上图所示，将这些超出边界的anchors先删除，并记录保留的anchor在原始所有anchors中的索引值，使用内部的anchor和groundtruth进行IOU计算(anchor和gt之间如果存在交集，则使用交集面积和二者并集的面积进行IOU计算)，使用两个原则进行anchor正样本的认定：如果anchor和gt之间的IOU大于设定的阈值0.7则认定该anchor为正样本；将具有和任意gt最大的IOU的anchor为正样本，也就是和gt最大的几个anchor最为正样本，这一步选择的anchor数量和gt的数量相同。至此就确定了正样本的anchor和剩余的负样本anchor，使用设定的正负样本数量，来控制正负样本的数量，将正负样本和和gt之间计算偏移量并作为目标框的label。对于anchor和gt之间的偏移量计算如下图所示

Anchor_groudtruth

图中红色表示groundtruth，黑色表示anchor box，首先计算两个矩形框的中心坐标和宽度高度，计算公式为

targetxtragetytragetwtrageth=(GTx−ANx)/ANwidth=(GTy−any)/ANheight=log(GTwidth/ANwidth)=log(GTheight/ANheight)targetx=(GTx−ANx)/ANwidthtragety=(GTy−any)/ANheighttragetw=log⁡(GTwidth/ANwidth)trageth=log⁡(GTheight/ANheight)

整个流程如下图所示

ctpn_anchor_gen

总结

至此，对CTPN网络结构结合代码进行了一些跟人理解的解读，该模型与2016年提出，可以看到收到很多的fastercnn的影响，可以看到CTPN具有如下的一些特点

基础VGG网络的使用，因此一般需要ImageNet数据集的预训练权重会使得训练更快速和平稳
Bilstm的使用使得模型无法向CNN那样并行运算，影响了模型的速度
Anchor的设定为等宽度变高度，因此这种anchor只能适用于水平方向文本的检测，也可以通过更改anchor使得anchor兼容竖直方向的文本检测
模型中anchor的宽度为15，因此模型的检测粒度收到该设置的影响，有可能存在边界不明确的状况
因为使用的是和fasterrcnn相同的anchor生成及预测方法，因此在inference阶段需要对预测的值进行反向变换得到目标框

EAST

论文关键idea

提出了两段式的文本检测方法，FCN+NMS，消除多过程造成的中间误差累计，减少了检测时间
模型可以进行单词级别检测，又可以进行文本行检测，检测的形状可以是任意形状的四边形也可以是普通的四边形
采用了Locality-Aware NMS的预测框过滤

网络结构如下所示

EAST Model

Pipeline

先用一个通用的网络(论文中采用的是PVAnet，实际在使用的时候可以采用VGG16，Resnet等)作为base net ，用于特征提取

此处对PAVnet进行一些说明，PAVnet主要是对VGG进行了改进并应用于目标检测任务，主要针对FasterRcnn的基础网络进行了改进，包含mCReLU,Inception,Hyper-feature各个结构

PVAnet

在论文总的基础网络用的是PVAnet的基础网络，具体参数如下所示

PVAnetParam

对于mCReLU结构和Inception结构如下所示

PVAnet mCReLU Inception
基于上述主干特征提取网络，抽取不同层的featuremap（它们的尺寸分别是inuput-image的132,116,18,14132,116,18,14，这样可以得到不同尺度的特征图，这样做的目的是解决文本行尺度变换剧烈的问题，ealy-stage可用于预测小的文本行(较大的特征图)，late-stage可用于预测大的文本行(较小的特征图)。
特征合并层，将抽取的特征进行merge．这里合并的规则采用了Unet的方法，合并规则：从特征提取网络的顶部特征按照相应的规则向上进行合并，不断增大featuremap的尺寸。
网络输出层，包含文本得分和文本形状．根据不同文本形状(可分为RBOX和QUAD，对于RROX预测的是当前点距离gtbox的四个边的距离以及gtbox的相对图像的x正方向的角度θθ，也就是总共为5个值分别对应着(d1,d2,d3,d4,θ)(d1,d2,d3,d4,θ)，而对于QUAD来说预测对应的gtbox的四个交点的坐标，一共8个值)，对于RBOX对应的示意图如下所示
EAST_RBOX
图中的didi对应的是当前点到gt的距离，知道了一个固定点到矩形的四条边的距离，就可以的知道这个矩形所在的位置和大小，即确定这个矩形。

EAST_RBOX_QUAD

可以看出，对于RBOX输出5个预测值，而QUAD输出8个预测值。

对于层g和h的计算方式如图中公式所示。

对于g为uppooling层，每次操作将featuremap放大到原来的2倍，主要进行特征图的上采样，论文中采取的双线性插值的方法进行上采样，没有使用反卷积的方式，减少了模型的计算量但是有可能降低模型的表达能力
上采样之后的featuremap和下采样同样尺寸的f层进行merge并使用conv1x1降低合并后的模型的通道数
之后使用conv3x3卷积，输出该阶段的featuremap
上述操作重复3次最终模型输出的通道数为32

进行特征图合并之后进行预测输出，也就是针对不同的box形式输出5个或者8个预测值。

Loss计算

总的损失包含分类损失和回归损失，即

L=LS+λgLgL=LS+λgLg

分类损失论文中使用的是平衡交叉熵损失

LS= balanced−xent(Y˙,Y)=−βYlogY˙−(1−β)(1−Y˙)(log(1−Y˙))whereβ=1−∑y∈Yy|Y|LS= balanced−xent(Y˙,Y)=−βYlog⁡Y˙−(1−β)(1−Y˙)(log⁡(1−Y˙))whereβ=1−∑y∈Yy|Y|

其中Y˙Y˙为预测值，YY为label值。相比普通的交叉熵损失，平衡交叉熵损失对正负样本进行了平衡。

对于LgLg损失，由于在对于RBOX信息中包含的是5个预测值即(d1,d2,d3,d4,θ)(d1,d2,d3,d4,θ)，那么就可以得到损失为

whereLg=LAABB+λθLθLAABB=−logIoU(R˙,R∗)=−log|R˙∩R∗||R˙∪R∗|Lθ=1−cos(θ˙−θ∗)Lg=LAABB+λθLθwhereLAABB=−log⁡IoU(R˙,R∗)=−log⁡|R˙∩R∗||R˙∪R∗|Lθ=1−cos⁡(θ˙−θ∗)

对于IOU损失的计算是，论文中对交集区域面积的计算方式为

wi=min(d˙2,d∗2)+min(d˙4,d∗4)hi=min(d˙1,d∗1)+min(d˙3,d∗3)wi=min(d˙2,d2∗)+min(d˙4,d4∗)hi=min(d˙1,d1∗)+min(d˙3,d3∗)

实际上这种计算方式是存在问题的，分析如下

east_iou

如上图所示，红色对应gt，蓝色对应predict，如果不考虑角度，那么按照公式所述是正确的，但是考虑角度信息之后就会发现iou的交集面积计算公式存在错误。

Reference

综述

自然场景文本检测识别技术综述

白翔:：图像OCR年度进展|VALSE2018之十一

白翔：趣谈“捕文捉字”— 场景文字检测 | VALSE2017之十

基于深度学习的目标检测及场景文字检测研究进展

知乎文本检测综述

优秀论文解读博客

知乎专栏:小石头的码疯窝

OCR_Overview_冠军试炼
文本检测
- CTPN
  
  场景文字检测—CTPN原理与实现
  
  CTPN: Tensorflow
- EAST
  
  Bolg: EAST
  
  知乎：文本检测之EAST
  
  EAST：tensorflow
  
  EAST: Keras
  
  EAST: Advanced keras
- SegLink
  
  SegLink_Blog
  
  文本检测之SegLink
- PixelLink
  
  文本检测之PixelLink
  
  Github: PixelLink
- TextBoxes
  
  论文笔记：TextBoxes++: A Single-Shot Oriented Scene Text Detector
  
  Github: TextBoxes++
- 角定位
基于角定位于区域分割
文本识别
- ASTER
  
  Github: ASTER
TextSpotter
- Mask TextSpotter
  
  华科白翔教授团队ECCV2018 OCR论文：Mask TextSpotter

你可能感兴趣的:(文本检测)

PaddleOCR超大分辨率文本检测代码教程 LEILEI18A Python 深度学习 paddle paddleocr ppocr 超大分辨率文本检测
PaddleOCR超大分辨率文本检测代码教程目录1.前提2.PaddleOCR部署（win10下）3.解决思路和代码1.前提这是我提的issue：https://github.com/PaddlePaddle/PaddleOCR/issues/11888很多问题可以看：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/do
京东数据分析岗面试题目整理 Data地平线
1，怎么做恶意刷单检验分类问题用机器学习方法建模解决，特征有：1）商家特征：商家历史销量、信用、产品类别、发货快递公司等2）用户行为特征：用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号3）环境特征（主要是避免机器刷单）：地区、ip、手机型号等4）异常检测：ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等5）评论文本检测：刷单的评论文本可能套路较为一致，计算与已标注评
DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒我爱计算机视觉计算机视觉深度学习人工智能
关注公众号，发现CV技术之美针对场景文本检测任务，近期基于DEtectionTRansformer(DETR)框架预测控制点的研究工作较为活跃。在基于DETR的检测器中，query的构建方式至关重要，现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率以及性能。除此之外，在如何监督模型方面，之前工作中使用的点标签形式影射了人的阅读顺序，本文观察到这实际上会降低检测器的鲁棒性。为解决以上问题，本
OCR-paddleocr 青霄检测识别 paddleocr 检测识别
PaddleOCR分为Detection（文本检测）、Directionclassifier（方向分类器）和Recognition（文本识别）三部分，因此需要三个模型。一、介绍PaddleOCR是一款超轻量、中英文识别模型目标是打造丰富、领先、实用的文本识别模型/工具库3.5M实用超轻量OCR系统，支持在服务器，移动，嵌入式和IoT设备之间进行培训和部署同时支持中英文识别；支持倾斜、竖排等多种方向
【读点论文】SPTS v2:Single-Point Scene Text Spotting，通过改变标注方式获得更好的模型泛化能力，相比于SPTS提高了模型训练合推理速度羞儿论文笔记 ocr
SPTSv2:Single-PointSceneTextSpottingAbstract端到端场景文本识别由于文本检测和识别之间的内在协同作用而取得了重大进展。以往的方法通常以手工标注为前提，如水平矩形、旋转矩形、四边形、多边形等，这比单点标注要昂贵得多。我们的新框架SPTSv2允许我们使用单点注释训练高性能的文本识别模型。SPTSv2保留了具有实例分配解码器(IAD)的自回归Transforme
【读点论文】SPTS Single-Point Text Spotting 羞儿论文笔记 OCR 单点标注
SPTSSingle-PointTextSpottingABSTRACT现有的场景文本识别(即，端到端文本检测和识别)方法依赖于昂贵的边界框注释(例如，文本行，词级或字符级边界框)。我们首次证明，训练场景文本识别模型可以通过对每个实例的单点进行极低成本的标注来实现。我们提出了一种端到端的场景文本识别方法，将场景文本识别作为一个序列预测任务来处理。给定图像作为输入，我们将所需的检测和识别结果表述为离
mmocr 安装及快速运行 TYUT_xiaoming mmocr ocr
MMOCR是一个基于PyTorch和MMDetection的开源工具箱，支持众多OCR相关的模型，涵盖了文本检测、文本识别以及关键信息提取等多个主要方向。它还支持了大多数流行的学术数据集，并提供了许多实用工具帮助用户对数据集和模型进行多方面的探索和调试，助力优质模型的产出和落地。它具有以下特点：全流程，多模型：支持了全流程的OCR任务，包括文本检测、文本识别及关键信息提取的各种最新模型。模块化设计
FastDeploy项目简介，使用其进行（图像分类、目标检测、语义分割、文本检测|orc部署）万里鹏程转瞬至深度学习python库使用目标检测深度学习模型部署
FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具，支持云边端部署。提供超过160+Text，Vision，Speech和跨模态模型开箱即用的部署体验，并实现端到端的推理性能优化。包括物体检测、字符识别（OCR）、人脸、人像扣图、多目标跟踪系统、NLP、StableDiffusion文图生成、TTS等几十种任务场景，满足开发者多场景、多硬件、多平台的产业部署需求。1、FastD
护照关键信息识别与提取彧侠
综述最近工作中进行了OCR文本检测与识别开发，文本检测/识别顾名思义就是通过一张图片或图像数据提取其中的文本信息（图像->文字）。但是实际应用中涉及到的使用场景有很多，有些场景下如果只是简单的输出图像中的文字并不能很好的解决实际问题，仍然需要人为的挑选与整理这些文本信息，费时费力。如果能通过程序代码实现对这些混乱的文本信息进行整理与输出将起到事半功倍的效果。下面我就以中国大陆护照识别为例，来讲解如
OpenCV 新版滴 4.5.1 发布啦！ AAI机器之心 opencv 人工智能计算机视觉机器学习 dnn KNN cnn
发布亮点：OpenCVGithub项目终于突破50000stars！新的里程碑~这次发布的特性包括：集成更多的GSoC2020项目的结果，包括：开发了OpenCV.jsDNN模块，以方便再网页中使用，并提供了相关教程。图像分类目标检测风格迁移语义分割姿态估计OpenCV.jsWASMSIMD优化2.0，网页端调用OpenCV更快了新增文本检测和识别高级APISIFT算法优化，主要是16位整型高斯滤
【iOS】——基于Vision Kit框架实现图片文字识别不会敲代码的VanGogh ios objective-c 学习 apple vision pro
文章目录前言一、文本识别的分类二、实现步骤1.导入VisionKit框架2.创建请求处理器3.在请求处理器中设置文字识别功能4.将图片添加到请求处理器中5.发起文字识别请求6.处理识别结果三、运行结果测试1.纯英文环境2.中英文混合环境前言根据苹果的官方文档，Vision可以执行面部检测、文本检测、条形码识别、图像注册和一般功能跟踪。Vision还允许将自定义CoreML模型用于分类或对象检测等任
文本检测最近文章检索（2）葛葛葛立鹏啊文献
期刊1）RotatedcascadeR-CNN:Ashaperobustdetectorwithcoordinateregression旋转叶栅R-CNN：具有坐标回归的形状鲁棒检测器YixingZhu;ChixiangMa;JunDu;NationalEngineeringLaboratoryforSpeechandLanguageInformationProcessingUniversityo
【Pytorch】学习记录分享13——OCR(Optical Character Recognition,光学字符识别) 大江东去浪淘尽千古风流人物 DeepLearning 学习 ocr 百度云
@[TOC](OCR(OpticalCharacterRecognition,光学字符识别))1.OCR资源汇总OCR(OpticalCharacterRecognition,光学字符识别)指提取图像中的文字信息，通常包括文本检测和文本识别。文字检测：将图片中的文字区域位置检测出来（如图1(b)所示）；文字识别：对文字区域中的文字进行识别（如图1©所示）。项目实例代码,评论点击0013获取项目代码
二十分钟入门计算机视觉开源神器——课堂笔记敲键盘的喵桑 OpenMMLab实战营笔记深度学习人工智能
1，统一的深度学习框架，2.02，现状3，代表算法库（1）目标检测MMDetection任务支持：目标家呢，实力分割，全景分割覆盖广泛算法丰富使用方便（2）MMYOLO（3）MMOCR文本检测，文本识别，关键信息提取（4）MMDetection3D(5)MMRotate(6)MMSegmentation(7)MMPretrain图像分类+预训练+多模态算法库(8)MMPose姿态估计（关键点检测）
小白综述：深度学习 OCR 图片文字识别 ctrl A_ctrl C_ctrl V #OCR 图片文字识别深度学习 ocr 人工智能
文章目录1.OCR算法流程1.1传统OCR方法1.2深度学习OCR方法1.2.1two-stage方法：文字检测+识别1.2.2端到端方法2.文本检测算法3.文本识别算法3.1基于分割的单字符识别方法3.2基于序列标注的文本行识别方法1.OCR算法流程OCR(OpticalCharacterRecognition,光学字符识别)是指提取图像中的文字信息。1.1传统OCR方法传统OCR方法一般包含预
cnstd使用效果测试回到工作狂状态 cnocr cnstd
使用参考：https://github.com/breezedeus/CnSTD/tree/master原理参考：https://cnocr.readthedocs.io/zh/latest/intro-cnstd-cnocr.pdf模型：结论：经过测试，长文本检测效果不错，短文本可能角度不对fromcnstdimportCnStdimportcv2fromcnocrimportCnOcr#文字检
paddlehub 文本检测使用回到工作狂状态 paddlehub
PaddleHub负责模型的管理、获取和预训练模型的使用。参考：https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/image/text_recognition/chinese_text_detection_db_serverimportpaddlehubashubimportcv2#fromutilsimportcv_sh
CharNet:卷积字符网络 Alpha-Go 文本检测与识别深度学习
卷积字符网络论文与开源代码导论卷积字符网络概览字符分支文本检测分支迭代字符检测实验，结果与比较迭代字符检测算法文字检测的结果端到端文字识别结果结论论文与开源代码开源代码：https://github.com/MalongTech/research-charnet论文：https://arxiv.org/abs/1910.07954v1在这里非常感谢作者“码隆科技”，让我有机会能这么轻松的看完一篇论
基于DBNetpp的文本检测的仪表盘读数识别羁旅少年 ocr 深度学习
一个不知名大学生，江湖人称菜狗originalauthor:JackyLiEmail:[email protected]：2023.12.31Lastedited:2023.12.31祝自己生日快乐啦！！！！目录算法设计（1）基于YOLOv5s的仪表检测（2）基于YOLOv8x-pose的指针和刻度关键点检测（3）基于DBNetpp的文本检测（4）基于SATRN模型
DBNet文本检测网络 (FPN、batch normalization、Transpose conv) shuyeah DBNet网络深度学习文本检测
DBNet文本检测网络概述DBNet论文地址：https://arxiv.org/pdf/1911.08947.pdfDBNet是一种基于分割的文本检测网络，使用分割网络提供自适应的thresh用于二值化。原始二值化方法和DBNet中的动态阈值传统的基于分割的检测方法，对于分割后的特征层，使用直接二值化，生成检测结果。直接二值化的方法不可微分，不能参与到网络模型的训练中。DBNet增加了thres
GPT Zero 是什么？程序员泥瓦匠 java
fromhttps://openaigptguide.com/gptzero/在人工智能技术飞速发展的今天，人们对于文字内容的准确性和可信度要求越来越高。例如在学术研究领域，防止抄袭和造假是非常重要的。而对于普通用户而言，辨别哪些内容是由人工智能生成的，哪些内容是由人类编写的，也逐渐成为一个亟待解决的问题。GPTZero不仅能提供准确的文本检测结果，还具有简洁直观的用户界面。无论是iOS还是And
LOMO-Paper简析 ZerOo0
LOMO是百度提出的文本检测深度网络模型，用以解决目前主流模型（如EAST）的感受野对长文本覆盖不足以及对弯曲或波浪形文本检测能力不足的问题。LookMoreThanOnce:AnAccurateDetectorforTextofArbitraryShapes原文链接1.简介LOMO(LOokMorethanOnce)网络是百度提出的文本检测深度模型，用以解决目前主流模型（如EAST）的感受野对长
自然场景下的文本检测和识别 EAST text detector and recognition gaoshine
自然场景下的文本检测和识别EASTtextdetectorandrecognition最近在做巡检机器人和仪表识别算法,巡检机器人拍摄的照片除了指针仪表和状态灯以外,还有一部分是数字显示的仪表,这样对仪表的数值的识别就需要后台代码具备检测文本和识别的功能了.另外,一些项目中也有对移动的车厢或者罐子上的编号做识别处理,这样一套算法就可以搞定这些问题了.仪表面板铁罐编号1铁罐编号21.EASTtext
安卓端部署PPOCR的ncnn模型——模型转换彧侠
最近在研究ocr模型（包括文本检测和文本识别）在安卓端的部署，由于工作中用到的算法是基于百度研发的PPOCR算法，最终需要在安卓端落地应用，部署框架使用的是ncnn框架，中间涉及模型转换和部署的问题，所以特意在此做一个记录，本文主要讲一下模型转换的问题。说到模型转换，自然会涉及原模型（训练模型）、中间模型（onnx）和目标模型（ncnn模型），原模型对应训练框架、目标模型对应部署框架。首先是训练框
OCR文本检测论文阅读笔记 PatrickStar8 paddle ocr
TableofContents1OCR的应用场景...............................................................................42OCR的技术路线...............................................................................53DB论文笔记
paddleocr文本检测改进变迁博观而约取,厚积而薄发计算机视觉人工智能
数据增强：BDA(BaseDataAugmentation)：色调变换，透明度变换，旋转，背景模糊，饱和度变换。图像变换类：AutoAugment，RandAugment图像裁剪类：CutOut、RandErasing、Hide-And-Seek、GridMask图像混叠类：Mixup、Cutmix，CopyPaste超参数：Cosine学习率下降策略Cosine学习率策略指的是学习率在训练的过程
文字识别（OCR）专题——基于NCNN轻量级PaddleOCRv4模型C++推理知来者逆计算机视觉 ocr c++开发语言文本检本文字识别 paddle ncnn
前言PaddleOCR提供了基于深度学习的文本检测、识别和方向检测等功能。其主要推荐的PP-OCR算法在国内外的企业开发者中得到广泛应用。在短短的几年时间里，PP-OCR的累计Star数已经超过了32.2k，常常出现在GitHubTrending和Paperswithcode的日榜和月榜第一位，被认为是当前OCR领域最热门的仓库之一。PaddleOCR最初主打的PP-OCR系列模型在去年五月份推出
paddleocr笔记博观而约取,厚积而薄发 PaddleOCR 笔记
PP-OCRv1PP-OCR中，对于一张图像，需要完成以下3个步骤提取其中的文字信息：使用文本检测方法，获取文本区域多边形信息（PP-OCR中文本检测使用的是DBNet，因此获取的是四点信息）。对上述文本多边形区域进行裁剪与透视变换校正，将文本区域转化成矩形框，再使用方向分类器对方向进行校正。基于包含文字区域的矩形框进行文本识别，得到最终识别结果。经过以上3个步骤便完成了对于一张图像的文本检测与识
旷视14篇CVPR 2019论文，都有哪些亮点？城市中迷途小书童
译者|Linstancy责编|Jane出品|AI科技大本营（公众号id：rgznai100）回顾CVPR2018，旷视科技有8篇论文被收录，如高效的移动端卷积神经网络ShuffleNet、语义分割的判别特征网络DFN、优化解决人群密集遮挡问题的RepLose、通过角点定位和区域分割优化场景文本检测的一种新型场景文本检测器、率先提出的可复原扭曲的文档图像等等。今年，旷视科技在CVPR2019上共有1
机器学习笔记 - Ocr识别中的CTC算法原理概述坐望云起深度学习从入门到精通机器学习 CNN RNN CTC OCR 深度学习神经网络
一、文字识别在文本检测步骤中，分割出了文本区域。现在需要识别这些片段中存在哪些文本。机器学习笔记-Ocr识别中的文本检测EAST网络概述-CSDN博客文章浏览阅读300次。在EAST网络的这个分支中，它合并了VGG16网络不同层的特征输出。现在，该层之后的特征大小将等于pool4层的输出，然后将两者合并到一层中。全卷积网络用于定位图像中的文本，该NMS阶段基本上用于将许多不精确检测到的文本框合并到
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的