lexi_qi

DBNet详解

文章目录

创新点
算法的整体架构
自适应阈值（Adaptive threshhold）
二值化
- 标准二值化
直观展示
可形变卷积（Deformable convolution）
标签的生成
- PSENet标签生成
- DBNet标签生成
损失函数
后处理
代码阅读
- 数据预处理
- - AugmentDetectionData（数据增强类）
  - RandomCropData（数据裁剪类）
  - MakeICDARData（数据重新组织类）
  - NormalizeImage
- 模型结构
- - 骨干网络和FPN
  - head部分(decoder)
  - - binary
    - thresh
    - step_function
  - 损失函数
- 逻辑推理

创新点

本文的最大创新点。在基于分割的文本检测网络中，最终的二值化map都是使用的固定阈值来获取，并且阈值不同对性能影响较大。本文中，对每一个像素点进行自适应二值化，二值化阈值由网络学习得到，彻底将二值化这一步骤加入到网络里一起训练，这样最终的输出图对于阈值就会非常鲁棒。

和常规基于语义分割算法的区别是多了一条threshold map分支，该分支的主要目的是和分割图联合得到更接近二值化的二值图，属于辅助分支。其余操作就没啥了。整个核心知识就这些了。

算法的整体架构

首先，图像输入特征提取主干，提取特征；
其次，特征金字塔上采样到相同的尺寸，并进行特征级联得到特征F；
然后，特征F用于预测概率图（probability map P）和阈值图(threshold map T)
最后，通过P和F计算近似二值图（approximate binary map B）

在训练期间对P，T，B进行监督训练，P和B是用的相同的监督信号(label)。在推理时，只需要P或B就可以得到文本框。

网络输出：

1.probability map, wh1 , 代表像素点是文本的概率

2.threshhold map, wh1, 每个像素点的阈值

3.binary map, wh1, 由1,2计算得到，计算公式为DB公式

自适应阈值（Adaptive threshhold）

文中指出传统的文本检测算法主要是图中蓝色线，处理流程如下：

首先，通过设置一个固定阈值将分割网络训练得到的概率图(segmentation map)转化为二值图(binarization map);
然后，使用一些启发式技术(例如像素聚类)将像素分组为文本实例。

而DBNet使用红色线，思路：

通过网络去预测图片每个位置处的阈值，而不是采用一个固定的值，这样就可以很好将背景与前景分离出来，但是这样的操作会给训练带来梯度不可微的情况，对此对于二值化提出了一个叫做Differentiable Binarization来解决不可微的问题。

阈值图(threshhold map)使用流程如图2所示，使用阈值map和不使用阈值map的效果对比如图6所示，从图6©中可以看到，即使没用带监督的阈值map，阈值map也会突出显示文本边界区域，这说明边界型阈值map对最终结果是有利的。所以，本文在阈值map上选择监督训练，已达到更好的表现

二值化

标准二值化

一般使用分割网络（segmentation network）产生的概率图（probability map P），将P转化为一个二值图P，当像素为1的时候，认定其为有效的文本区域，同时二值处理过程：

i和j代表了坐标点的坐标，t是预定义的阈值；

可微二值(differentiable Binarization)

公式1是不可微的，所以没法直接用于训练，本文提出可微的二值化函数，如下（其实就是一个带系数的sigmoid）：

就是近似二值图；T代表从网络中学习到的自适应阈值图；k是膨胀因子（经验性设置k=50）.

这个近似的二值化函数的表现类似于标准的二值化函数，如图4所表示，但是因为可微，所以可以直接用于网络训练，基于自适应阈值可微二值化不仅可以帮助区分文本区域和背景，而且可以将连接紧密的文本实例分离出来。

为了说明DB模块的引入对于联合训练的优势，作者对该函数进行梯度分析，也就是对approximate

binary map进行求导分析，由于是sigmod输出，故假设Loss是bce，对于label为0或者1的位置，其Loss函数可以重写为：

x表示probability map-threshold map，最后一层关于x的梯度很容易计算：

看上图右边，(b)图是当label=1，x预测值从-1到1的梯度，可以发现，当k=50时候梯度远远大于k=1，错误的区域梯度更大，对于label=0的情况分析也是一样的。故：

(1) 通过增加参数K，就可以达到增大梯度的目的，加快收敛

(2) 在预测错误位置，梯度也是显著增加

总之通过引入DB模块，通过参数K可以达到增加梯度幅值，更加有利优化，可以使得三个输出图优化更好，最终分割结果会优异。而DB模块本身就是带参数的sigmod函数，实现如下：

直观展示

p可以理解，就是有文字的区域有值0.9以上，没有文字区域黑的为0 .

T是一个只有文字边界才有值的，其他地方为0 .

分别是原图，gt图，threshold map图。这里再说下threshold map图，非文字边界处都是灰色的，这是因为统一加了0.3，所有最小值是0.3.

这里其实还看不清，我们把src+gt＋threshold map看看。

可以看到:

p的ground truth是标注缩水之后
T的ground truth是文字块边缘分别向内向外收缩和扩张
p与T是公式里面的那两个变量。

再看这个公式与曲线图：

P和T我们就用ground truth带入来理解：

P网络学的文字块内部， T网络学的文字边缘，两者计算得到B。 B的ground truth也是标注缩水之后，和p用的同一个。在实际操作中，作者把除了文字块边缘的区域置为0.3.应该就是为了当在非文字区域， P=0，T=0.3，x=p-T<0这样拉到负半轴更有利于区分。

可形变卷积（Deformable convolution）

可变形卷积可以提供模型一个灵活的感受野，这对于不同纵横比的文本很有利，本文应用可变形卷积，使用3×3卷积核在ResNet-18或者ResNet-50的conv3，conv4，conv5层。

标签的生成

概率图的标签产成法类似PSENet

PSENet标签生成

网络输出多个分割结果(S1,Sn),因此训练时需要有多个GY与其匹配，在本文中，通过收缩原始标签就可以简单高效的生成不同尺度的GT，如图5所示，(b)代表原始的标注结果，也表示最大的分割标签mask,即Sn，利用Vatti裁剪算法获取其他尺度的Mask，如图5(a),将原始多边形pn 缩小di 像素到 pi ，收缩后的pi 转换成0/1的二值mask作为GT，用G1，G2，，，，Gn分别代表不同尺度的GT，用数学方式表示的话，尺度比例为ri 。

di 的计算方式为：

d_i=Area(P_n)*(1-r_i^2)/Perimeter(p_n)

Area(·) 是计算多边形面积的函数， Perimeter(·)是计算多边形周长的函数，生成Gi时的尺度比例ri计算公式为：

r_i=1-(1-m)*(n-i)/(n-1)

m代表最小的尺度比例，取值范围是(0,1]，使用上式，通过m和n两个超参数可以计算出r1,r2,…rn，他们随着m变现线性增加到最大值1.

DBNet标签生成

给定一张图片，文本区域标注的多边形可以描述为：

G={S_k}_{k=1}^{n}

n是每隔文本框的标注点总数，在不同数据中可能不同，然后使用vatti裁剪算法，将正样例区域产生通过收缩polygon从G到Gs，补偿公式计算

D：offset；L：周长；A：面积；r：收缩比例，设置为0.4；

probability map, 按照pse的方式制作即可，收缩比例设置为0.4
threshold map, 将文本框分别向内向外收缩和扩张d(根据第一步收缩时计算得到)个像素，然后计算收缩框和扩张框之间差集部分里每个像素点到原始图像边界的归一化距离，此处有个问题，两个邻近的文本框，在扩张后会重叠，这种情况下重叠部分像素点的距离使用哪个文本框的？

损失函数

损失函数为概率map的loss、二值map的loss和阈值map的loss之和。

Ls 是概率map的loss，Lb 是二值map的loss，均使用二值交叉熵loss(BCE),为了解决正负样本不均衡问题，使用hard negative mining, α和β分别设置为1.0和10 .

Sl 设计样本集，其中正阳样本和负样本比例是1:3

Lt计算方式为扩展文本多边形Gd内预测结果和标签之间的L1距离之和：

Rd是在膨胀Gd内像素的索引，y*是阈值map的标签

后处理

（由于threshold map的存在，probability map的边界可以学习的很好，因此可以直接按照收缩的方式（Vatti clipping algorithm）扩张回去）

在推理时可以采用概率图或近似二值图来生成文本框，为了方便作者选择了概率图，具体步骤如下：

1、使用固定阈值0.2将概率图做二值化得到二值化图；

2、由二值化图得到收缩文字区域；

3、将收缩文字区域按Vatti clipping算法的偏移系数D’通过膨胀再扩展回来。

D‘就是扩展补偿，A’是收缩多边形的面积，L‘就是收缩多边形的周长，r’作者设置的是1.5；

（注意r‘的值在DBNet工程中不是1.5,而在我自己的数据集上，参数设置为1.3较合适，大家训练的时候可以根据自己模型效果进行调整）

文中说明DB算法的主要优势有以下4点：

在五个基准数据集上有良好的表现，其中包括水平、多个方向、弯曲的文本。
比之前的方法要快很多，因为DB可以提供健壮的二值化图，从而大大简化了后处理过程。
使用轻量级的backbone（ResNet18）也有很好的表现。
DB模块在推理过程中可以去除，因此不占用额外的内存和时间的消耗。

参考：

论文链接：https://arxiv.org/pdf/1911.08947.pdf

工程链接：https://github.com/MhLiao/DB

               https://github.com/WenmuZhou/DBNet.pytorch

https://blog.csdn.net/qq_22764813/article/details/107785388
https://blog.csdn.net/qq_39707285/article/details/108739010
https://zhuanlan.zhihu.com/p/94677957
https://mp.weixin.qq.com/s/ehbROyE-grp_F3T3YBX9CA

代码阅读

数据预处理

入口

在data/image_dataset.py，数据预处理逻辑非常简单，就是读取图片和gt标注，解析出每张图片poly标注，包括多边形标注、字符内容以及是否是忽略文本，忽略文本一般是比较模糊和小的文本。

具体可以在getitem方法里面插入：

ImageDataset.__getitem__():
	data_process(data)

预处理配置：

 processes:
        - class: AugmentDetectionData
          augmenter_args:
              - ['Fliplr', 0.5]
              - {'cls': 'Affine', 'rotate': [-10, 10]}
              - ['Resize', [0.5, 3.0]]
          only_resize: False
          keep_ratio: False
        - class: RandomCropData
          size: [640, 640]
          max_tries: 10
        - class: MakeICDARData
        - class: MakeSegDetectionData
        - class: MakeBorderMap
        - class: NormalizeImage
        - class: FilterKeys
          superfluous: ['polygons', 'filename', 'shape', 'ignore_tags', 'is_training']

预处理流程:

AugmentDetectionData（数据增强类）

DB/data/processes/augment_data.py

其目的就是对图片和poly标注进行数据增强，包括翻转、旋转和缩放三个，参数如配置所示。本文采用的增强库是imgaug。可以看出本文训练阶段对数据是不保存比例的resize，然后再进行三种增强。

由于icdar数据，文本区域占比都是非常小的，故不能用直接resize到指定输入大小的数据增强操作，而是使用后续的randcrop操作比较科学。但是如果自己项目的数据文本区域比较大，则可能没必要采用RandomCropData这么复杂的数据增强操作，直接resize算了。

RandomCropData（数据裁剪类）

DB/data/processes/random_crop_data.py

因为数据裁剪涉及到比较复杂的多变形标注后处理，所以单独列出来。

其目的是对图片进行裁剪到指定的[640, 640]。由于斜框的特点，裁剪增强没那么容易做，本文采用的裁剪策略非常简单：遍历每一个多边形标注，只要裁剪后有至少有一个poly还在裁剪框内，则认为该次裁剪有效。这个策略主要可以保证一张图片中至少有一个gt，且实现比较简单。

其具体流程是：

将每张图片的所有poly数据进行水平和垂直方向投影，有标注的地方是1，其余地方是0
找出没有标注即0值的水平和垂直坐标h_axis和w_axis
如果全部是1，则表示poly横跨了整图，则直接返回，无法裁剪
对水平和垂直坐标进行连续0区域分离，其实就是把所有连续0坐标区域切割处理变成List输出h_regions、w_regions
以w_regions为例，长度为n，先从n个区域随机选择2个区域，然后在这两个区域内部随机选择两个点，构成x方向最大最小坐标，h_regions也是一样处理，此时就得到了xmin, ymin, xmax - xmin, ymax - ymin值
判断裁剪区域是否过小；以及判断是否裁剪框内部是否至少有一个标注在内部，没有被裁断，如果条件满足则返回上述值，否则重复max_tries次，直到成功。

代码如下：

    def crop_area(self, im, text_polys):
        h, w = im.shape[:2]
        h_array = np.zeros(h, dtype=np.int32)
        w_array = np.zeros(w, dtype=np.int32)
        #将poly数据进行水平和垂直方向投影，有标注的地方是1，其余地方是0
        for points in text_polys:
            points = np.round(points, decimals=0).astype(np.int32)
            minx = np.min(points[:, 0])
            maxx = np.max(points[:, 0])
            w_array[minx:maxx] = 1
            miny = np.min(points[:, 1])
            maxy = np.max(points[:, 1])
            h_array[miny:maxy] = 1
        # ensure the cropped area not across a text
        #找出没有标注的水平和垂直坐标
        h_axis = np.where(h_array == 0)[0]
        w_axis = np.where(w_array == 0)[0]
        #如果所有位置都有标注，则无法裁剪，直接原图返回
        if len(h_axis) == 0 or len(w_axis) == 0:
            return 0, 0, w, h
        
        #对水平和垂直坐标进行连续区域分离，其实就是把所有连续0坐标区域切割处理
        #后面进行随机裁剪都是在每个连续区域进行，可以最大程度保证不会裁断标注
        h_regions = self.split_regions(h_axis)
        w_regions = self.split_regions(w_axis)

        for i in range(self.max_tries):
            if len(w_regions) > 1:
                #先从n个区域随机选择2个区域，然后在两个区域内部随机选择两个点，构成x方向最大最小坐标
                xmin, xmax = self.region_wise_random_select(w_regions, w)
            else:
                xmin, xmax = self.random_select(w_axis, w)
            if len(h_regions) > 1:
                #h方向也是一样处理
                ymin, ymax = self.region_wise_random_select(h_regions, h)
            else:
                ymin, ymax = self.random_select(h_axis, h)
            #不能裁剪的过小
            if xmax - xmin < self.min_crop_side_ratio * w or ymax - ymin < self.min_crop_side_ratio * h:
                # area too small
                continue
            num_poly_in_rect = 0
            for poly in text_polys:
                #如果有一个poly标注没有出界，则直接返回，表示裁剪成功
                if not self.is_poly_outside_rect(poly, xmin, ymin, xmax - xmin, ymax - ymin):
                    num_poly_in_rect += 1
                    break

            if num_poly_in_rect > 0:
                return xmin, ymin, xmax - xmin, ymax - ymin

        return 0, 0, w, h




在得到裁剪区域后，就比较简单了。先对裁剪区域图片进行保存长宽比的resize，最长边为网络输入，例如640x640， 然后从上到下pad，得到640x640的图片

# 计算crop区域
crop_x, crop_y, crop_w, crop_h = self.crop_area(im, all_care_polys)
# crop 图片 保持比例填充
scale_w = self.size[0] / crop_w
scale_h = self.size[1] / crop_h
scale = min(scale_w, scale_h)
h = int(crop_h * scale)
w = int(crop_w * scale)

padimg = np.zeros((self.size[1], self.size[0], im.shape[2]), im.dtype)
padimg[:h, :w] = cv2.resize(im[crop_y:crop_y + crop_h, crop_x:crop_x + crop_w], (w, h))
img = padimg

如果进行可视化，会显示如下所示：

可以看出，这种裁剪策略虽然简单暴力，但是为了拼接成640x640的输出，会带来大量无关全黑像素区域。

MakeICDARData（数据重新组织类）

DB/data/processes/make_icdar_data.py

就是简单的组织数据而已

#Making ICDAE format
#返回值：
OrderedDict(image=data['image'],
                           polygons=polygons,
                           ignore_tags=ignore_tags,
                           shape=shape,
                           filename=filename,
                           is_training=data['is_training'])

MakeSegDetectionData(生成概率图和对应mask类)

DB/data/processes/make_seg_detection_data.py

功能：将多边形数据转化为mask格式即概率图gt，并且标记哪些多边形是忽略区域

#Making binary mask from detection data with ICDAR format
输入：image,polygons,ignore_tags,filename
输出：gt(shape:[1,h,w])，mask (shape:[h,w])（用于后面计算binary loss）

为了防止标注间相互粘连，不好后处理，区分实例，目前做法都是会进行shrink即沿着多边形标注的每条边进行向内缩减一定像素，得到缩减的gt，然后才进行训练；在测试时候再采用相反的手动还原回来。

缩减做法采用的也是常规的Vatti clipping algorithm，是通过pyclipper库实现的，缩减比例是默认0.4，公式是:

r=0.4,A是多边形面积，L是多边形周长，通过该公式就可以对每个不同大小的多边形计算得到一个唯一的D，代表每条边的向内缩放像素个数。

        gt = np.zeros((1, h, w), dtype=np.float32)#shrink后得到概率图，包括所有区域
        mask = np.ones((h, w), dtype=np.float32)#指示哪些区域是忽略区域，0就是忽略区域
        for i in range(len(polygons)):
            polygon = polygons[i]
            height = max(polygon[:, 1]) - min(polygon[:, 1])
            width = max(polygon[:, 0]) - min(polygon[:, 0])
            #如果是忽略样本，或者高宽过小，则mask对应位置设置为0即可
            if ignore_tags[i] or min(height, width) < self.min_text_size:
                cv2.fillPoly(mask, polygon.astype(
                    np.int32)[np.newaxis, :, :], 0)
                ignore_tags[i] = True
            else:
                #沿着每条边进行shrink
                polygon_shape = Polygon(polygon)#多边形分析库
                #每条边收缩距离：polygon, D=A(1-r^2)/L
                distance = polygon_shape.area * \
                    (1 - np.power(self.shrink_ratio, 2)) / polygon_shape.length
                subject = [tuple(l) for l in polygons[i]]
                #实现坐标的偏移
                padding = pyclipper.PyclipperOffset()
                padding.AddPath(subject, pyclipper.JT_ROUND,
                                pyclipper.ET_CLOSEDPOLYGON)
                shrinked = padding.Execute(-distance)#得到缩放后的多边形
                if shrinked == []:
                    cv2.fillPoly(mask, polygon.astype(
                        np.int32)[np.newaxis, :, :], 0)
                    ignore_tags[i] = True
                    continue
                shrinked = np.array(shrinked[0]).reshape(-1, 2)
                cv2.fillPoly(gt[0], [shrinked.astype(np.int32)], 1)

如果进行可视化，如下所示：

概率图内部全白区域就是概率图的label，右图是忽略区域mask，0为忽略区域，到时候该区域是不计算概率图loss的。

MakeBorderMap（生成阈值图和对应Mask类）

DB/data/make_border_map.py

功能：计算阈值图和对应mask。

输入：预处理后的image info: image,polygons,ignore_tags 
输出：thresh_map,thresh_mask (用于后面计算thresh loss)

仔细看阈值图的标注，首先红线点是poly标注；然后对该多边形先进行shrink操作，得到蓝线; 然后向外反向shrink同样的距离，得到绿色；阈值图就是绿线和蓝色区域，以红线为起点，计算在绿线和蓝线区域内的点距离红线的距离，故为距离图。

其代码的处理逻辑是：

对每个poly进行向外扩展，参数和向内shrink一样，然后对扩展后多边形内部填充1，得到对应的mask
为了加快计算速度，对每条poly计算最小包围矩，然后在裁剪后的图片内部，计算每个点到poly上面每条边的距离
只保留0-1值内的距离值，其余位置不用
把距离图贴到原图大小的图片上，如果和其余poly有重叠，则取最大值
为了使得后续阈值图和概率图进行带参数的sigmod操作，得到近似二值图，需要对阈值图的取值范围进行变换，具体是将0-1范围变换到0.3-0.6范围

流程：

canvas = np.zeros(image.shape[:2], dtype=np.float32)
mask = np.zeros(image.shape[:2], dtype=np.float32)

draw_border_map(polygons[i], canvas, mask=mask)
canvas = canvas * (0.7 - 0.3) + 0.3
data['thresh_map'] = canvas
data['thresh_mask'] = mask

draw_border_map

    #处理每条poly
    def draw_border_map(self, polygon, canvas, mask):
        polygon = np.array(polygon)
        assert polygon.ndim == 2
        assert polygon.shape[1] == 2
        #向外扩展
        polygon_shape = Polygon(polygon)
        distance = polygon_shape.area * \
            (1 - np.power(self.shrink_ratio, 2)) / polygon_shape.length
        subject = [tuple(l) for l in polygon]
        padding = pyclipper.PyclipperOffset()
        padding.AddPath(subject, pyclipper.JT_ROUND,
                        pyclipper.ET_CLOSEDPOLYGON)
        padded_polygon = np.array(padding.Execute(distance)[0])#shape：[12,2]扩大和缩减一样的像素
        cv2.fillPoly(mask, [padded_polygon.astype(np.int32)], 1.0)#内部全部填充1
        #计算最小包围poly矩形
        xmin = padded_polygon[:, 0].min()
        xmax = padded_polygon[:, 0].max()
        ymin = padded_polygon[:, 1].min()
        ymax = padded_polygon[:, 1].max()
        width = xmax - xmin + 1
        height = ymax - ymin + 1
        #裁剪掉无关区域，加快计算速度
        polygon[:, 0] = polygon[:, 0] - xmin
        polygon[:, 1] = polygon[:, 1] - ymin
        #最小包围矩形的所有位置坐标
        xs = np.broadcast_to(
            np.linspace(0, width - 1, num=width).reshape(1, width), (height, width))
        ys = np.broadcast_to(
            np.linspace(0, height - 1, num=height).reshape(height, 1), (height, width))

        distance_map = np.zeros(
            (polygon.shape[0], height, width), dtype=np.float32)
        for i in range(polygon.shape[0]):#对每条边进行遍历
            j = (i + 1) % polygon.shape[0]
            #计算图片上所有点到线上面的距离
            absolute_distance = self.distance(xs, ys, polygon[i], polygon[j])
            #仅仅保留0-1之间的位置，得到距离图
            distance_map[i] = np.clip(absolute_distance / distance, 0, 1)
        distance_map = distance_map.min(axis=0)
        #绘制到原图上
        xmin_valid = min(max(0, xmin), canvas.shape[1] - 1)
        xmax_valid = min(max(0, xmax), canvas.shape[1] - 1)
        ymin_valid = min(max(0, ymin), canvas.shape[0] - 1)
        ymax_valid = min(max(0, ymax), canvas.shape[0] - 1)
        #如果有多个ploy实例重合，则该区域取最大值
        canvas[ymin_valid:ymax_valid + 1, xmin_valid:xmax_valid + 1] = np.fmax(
            1 - distance_map[
                ymin_valid-ymin:ymax_valid-ymax+height,
                xmin_valid-xmin:xmax_valid-xmax+width],
            canvas[ymin_valid:ymax_valid + 1, xmin_valid:xmax_valid + 1])

可视化如下所示：

采用matpoltlib绘制距离图会更好看

NormalizeImage

DB/data/processes/normalize_image.py

图片归一化类

FilterKeys

DB/data/processes/filter_keys.py

字典数据过滤类，具体是把superfluous里面的key和value删掉，不输入网络中

#删除无用的图片信息，只保留信息：
dict（"image","gt","mask","thresh_map","thresh_mask"）

模型结构

DB/structure/model.py

模型结构配置部分：

        builder: 
            class: Builder
            model: SegDetectorModel
            model_args:
                backbone: deformable_resnet18
                decoder: SegDetector
                decoder_args: 
                    adaptive: True
                    in_channels: [64, 128, 256, 512]
                    k: 50

骨干网络和FPN

骨架网络采用的是resnet18或者resnet50,为了增加网络特征提取能力，在layer2、layer3和layer4模块内部引入了变形卷积dcnv2模块。在resnet输出的4个特征图后面采用标准的FPN网络结构，得到4个增强后输出，然后cat进来，得到1/4的特征图输出fuse。

其中，resnet骨架特征提取代码在backbones/resnet.py里，具体是输出x2, x3, x4, x5，分别是1/4～1/32尺寸。FPN部分代码在decoders/seg_detector.py里面.

head部分(decoder)

DB/decoders/seg_detector.py

输出head在训练时候包括三个分支，分别是probability map、threshold map和经过DB模块计算得到的approximate binary map。三个图通道都是1，输出和输入是一样大的。要想分割精度高，高分辨率输出是必要的。

输出：binary、thresh、thresh_binary

fuse = torch.cat((p5, p4, p3, p2), 1)
#推理时，只需返回binary
binary = self.binarize(fuse)
thresh = self.thresh(fuse)
thresh_binary = self.step_function(binary, thresh)

binary

对fuse特征图经过一系列卷积和反卷积，扩大到和原图一样大的输出，然后经过sigmod层得到0-1输出概率图probability map

        self.binarize = nn.Sequential(
            nn.Conv2d(inner_channels, inner_channels //
                      4, 3, padding=1, bias=bias),
            BatchNorm2d(inner_channels//4),
            nn.ReLU(inplace=True),
            nn.ConvTranspose2d(inner_channels//4, inner_channels//4, 2, 2),
            BatchNorm2d(inner_channels//4),
            nn.ReLU(inplace=True),
            nn.ConvTranspose2d(inner_channels//4, 1, 2, 2),
            nn.Sigmoid())
        self.binarize.apply(self.weights_init)

thresh

同时对fuse特征图采用类似上采样操作，经过sigmod层的0-1输出阈值图threshold map

if adaptive:
    self.thresh = self._init_thresh(
    inner_channels, serial=serial, smooth=smooth, bias=bias)
    self.thresh.apply(self.weights_init)
  
  
  
  def _init_thresh(self, inner_channels,
                     serial=False, smooth=False, bias=False):
        in_channels = inner_channels
        if serial:
            in_channels += 1
        self.thresh = nn.Sequential(
            nn.Conv2d(in_channels, inner_channels //
                      4, 3, padding=1, bias=bias),
            BatchNorm2d(inner_channels//4),
            nn.ReLU(inplace=True),
            self._init_upsample(inner_channels // 4, inner_channels//4, smooth=smooth, bias=bias),
            BatchNorm2d(inner_channels//4),
            nn.ReLU(inplace=True),
            self._init_upsample(inner_channels // 4, 1, smooth=smooth, bias=bias),
            nn.Sigmoid())
        return self.thresh

step_function

将这两个输出图经过DB模块得到approximate binary map

torch.reciprocal(1 + torch.exp(-self.k * (binary - thresh)))

损失函数

DB/decoders/seg_detector_loss.py

loss = dice_loss + 10 * l1_loss + 5*bce_loss

输出是单个单通道图，probability map和approximate binary map是典型的分割输出，故其loss就是普通的bce，但是为了平衡正负样本，还额外采用了难负样本采样策略，对背景区域和前景区域采用3:1的设置。对于threshold map，其输出不一定是0-1之间，后面会介绍其值的范围，当前采用的是L1 loss，且仅仅计算扩展后的多边形内部区域，其余区域忽略。

Ls是概率图，Lt是阈值图，Lb是近似二值化图，

本文整个论文Loss的实现在decoders/seg_detector_loss.py的L1BalanceCELoss类，可以发现其实approximate binary map采用的并不是论文中的bce，而是可以克服正负样本平衡的dice loss。一般在高度不平衡的二值分割任务中，dice loss效果会比纯bce好，但是更好的策略是dice loss +bce loss。

binary loss

bce_loss = self.bce_loss(pred['binary'], batch['gt'], batch['mask'])

bce_loss:

DB/decoders/balance_cross_entropy_loss.py

    def forward(self,
                pred: torch.Tensor,
                gt: torch.Tensor,
                mask: torch.Tensor,
                return_origin=False):
        '''
        Args:
            pred: shape :math:`(N, 1, H, W)`, the prediction of network
            gt: shape :math:`(N, 1, H, W)`, the target
            mask: shape :math:`(N, H, W)`, the mask indicates positive regions
        '''
        positive = (gt * mask).byte()
        negative = ((1 - gt) * mask).byte()
        positive_count = int(positive.float().sum())
        #负样本个数为positive_count的self.negative_ratio倍数
        negative_count = min(int(negative.float().sum()),
                            int(positive_count * self.negative_ratio))
        loss = nn.functional.binary_cross_entropy(
            pred, gt, reduction='none')[:, 0, :, :]
        positive_loss = loss * positive.float()
        negative_loss = loss * negative.float()
        #按照loss选择topK个
        negative_loss, _ = torch.topk(negative_loss.view(-1), negative_count)

        balance_loss = (positive_loss.sum() + negative_loss.sum()) /\
            (positive_count + negative_count + self.eps)

        if return_origin:
            return balance_loss, loss
        return balance_loss

thresh loss

l1_loss, l1_metric = self.l1_loss(pred['thresh'], batch['thresh_map'], batch['thresh_mask'])

l1_loss:

DB/decoders/l1_loss.py

class MaskL1Loss(nn.Module):
    def __init__(self):
        super(MaskL1Loss, self).__init__()

    def forward(self, pred: torch.Tensor, gt, mask):
        mask_sum = mask.sum()
        if mask_sum.item() == 0:
            return mask_sum, dict(l1_loss=mask_sum)
        else:
            loss = (torch.abs(pred[:, 0] - gt) * mask).sum() / mask_sum
            return loss, dict(l1_loss=loss)

thresh_binary loss

dice_loss = self.dice_loss(pred['thresh_binary'], batch['gt'], batch['mask'])

dice_loss:

DB/decoders/dice_loss.py

class DiceLoss(nn.Module):
    '''
    Loss function from https://arxiv.org/abs/1707.03237,
    where iou computation is introduced heatmap manner to measure the
    diversity bwtween tow heatmaps.
    '''
    def __init__(self, eps=1e-6):
        super(DiceLoss, self).__init__()
        self.eps = eps

    def forward(self, pred: torch.Tensor, gt, mask, weights=None):
        '''
        pred: one or two heatmaps of shape (N, 1, H, W),
            the losses of tow heatmaps are added together.
        gt: (N, 1, H, W)
        mask: (N, H, W)
        '''
        assert pred.dim() == 4, pred.dim()
        return self._compute(pred, gt, mask, weights)

    def _compute(self, pred, gt, mask, weights):
        if pred.dim() == 4:
            pred = pred[:, 0, :, :]
            gt = gt[:, 0, :, :]
        assert pred.shape == gt.shape
        assert pred.shape == mask.shape
        if weights is not None:
            assert weights.shape == mask.shape
            mask = weights * mask

        intersection = (pred * gt * mask).sum()
        union = (pred * mask).sum() + (gt * mask).sum() + self.eps
        loss = 1 - 2.0 * intersection / union
        assert loss <= 1
        return loss

binary与thresh_binary的标签都是用的gt

thresh的标签用的thresh_map

逻辑推理

配置如下：

  - name: validate_data
    class: ImageDataset
    data_dir:
        - '/remote_workspace/ocr/public_dataset/icdar2015/'
    data_list:
        - '/remote_workspace/ocr/public_dataset/icdar2015/test_list.txt'
    processes:
        - class: AugmentDetectionData
          augmenter_args:
              - ['Resize', {'width': 1280, 'height': 736}]
              # - ['Resize', {'width': 2048, 'height': 1152}]
          only_resize: True
          keep_ratio: False
        - class: MakeICDARData
        - class: MakeSegDetectionData
        - class: NormalizeImage

如果不考虑label，则其处理逻辑和训练逻辑有一点不一样，其把图片统一resize到指定的长度进行预测。

前面说过阈值图分支其实可以相当于辅助分支，可以联合优化各个分支性能。故在测试时候发现概率图预测值已经蛮好了，故在测试阶段实际上把阈值图分支移除了，只需要概率图输出即可。

后处理逻辑在structure/representers/seg_detector_representer.py，本文特色就是后处理比较简单，故流程为：

对概率图进行固定阈值处理，得到分割图
对分割图计算轮廓，遍历每个轮廓，去除太小的预测；对每个轮廓计算包围矩形，然后计算该矩形的预测score

对矩形进行反向shrink操作，得到真实矩形大小；最后还原到原图size就可以了

def boxes_from_bitmap(self, pred, _bitmap, dest_width, dest_height):
    '''
    _bitmap: single map with shape (H, W),
        whose values are binarized as {0, 1}
    '''

    assert len(_bitmap.shape) == 2
    bitmap = _bitmap.cpu().numpy()  # The first channel
    pred = pred.cpu().detach().numpy()
    height, width = bitmap.shape
    contours, _ = cv2.findContours((bitmap * 255).astype(np.uint8), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
    num_contours = min(len(contours), self.max_candidates)
    boxes = np.zeros((num_contours, 4, 2), dtype=np.int16)
    scores = np.zeros((num_contours,), dtype=np.float32)
    #对二值图计算轮廓，每个轮廓就是一个文本实例
    for index in range(num_contours):
        contour = contours[index].squeeze(1)
        #计算最小包围矩，得到points坐标
        points, sside = self.get_mini_boxes(contour)
        if sside < self.min_size:
            continue
        points = np.array(points)
        #利用points内部预测概率值，计算出一个score,作为实例的预测概率
        score = self.box_score_fast(pred, contour)
        if self.box_thresh > score:
            continue
        #shrink反向还原
        box = self.unclip(points, unclip_ratio=self.unclip_ratio).reshape(-1, 1, 2)
        box, sside = self.get_mini_boxes(box)
        if sside < self.min_size + 2:
            continue
        box = np.array(box)
        if not isinstance(dest_width, int):
            dest_width = dest_width.item()
            dest_height = dest_height.item()
        #还原到原始坐标
        box[:, 0] = np.clip(np.round(box[:, 0] / width * dest_width), 0, dest_width)
        box[:, 1] = np.clip(np.round(box[:, 1] / height * dest_height), 0, dest_height)
        boxes[index, :, :] = box.astype(np.int16)
        scores[index] = score
    return boxes, scores

采用作者提供的训练好的权重进行预测，可视化预测结果如下所示：

论文中指标结果：

可以看出变形卷积和阈值图对整个性能都有比较大的促进作用。

测试icdar2015数据结果：

你可能感兴趣的:(OCR)

ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
五分钟手机美食插画教程194-秋葵藩鼠
图片发自App图片发自App工具：procreatepocket+手指第一步：用浅绿色木炭块画笔画一个小花瓣第二步：用墨绿色木炭块画笔在长长的三角形第三步：用浅墨绿色木炭块画笔画秋葵的另一个面第四步：用绿色杂色画笔在秋葵表面刷纹理第五步：用白色木炭块画笔画截面小圆珠
HALTT4LLM：大型语言模型的幻觉检测指标谢忻含Norma
HALTT4LLM：大型语言模型的幻觉检测指标haltt4llmThisprojectisanattempttocreateacommonmetrictotestLLM'sforprogressineliminatinghallucinationswhichisthemostseriouscurrentprobleminwidespreadadoptionofLLM'sformanyrealpur
Picture Butler-Instant Save 逍遥alan
Thisisaveryconvenientandpracticalsoftware.Userscanusethissoftwaretoclassifyphotos.Firsttheuserneedstocreateanalbum.Selectthealbumcoverandenteraname.Clickonthealbumtoaddyourphoto.Simpleoperationandsimp
2018-08-11-信息理论 Information theory-C9T3P3 著屹隐莳
1、probe探针2、voyage旅行者3、spectacular壮观的、精彩的4、shun避开、回避5、prestigious著名的、有声望的6、feat成就、功绩、壮举7、crumple弄皱、变皱eg：crumpleafewsheetsintoballs将纸弄皱攒成球状8、cramadj.填鸭式学的vi.狼吞虎咽地吃东西；死记硬背功课vt.填满，塞满；死记硬背；猛吃eg：...tocramit
CRACO 快速使用小秀_heo React 及其周边生态前端 javascript
GettingStarted|CRACOcraco是专门由于cra配置的重写，扩展配置cra（webpack）。安装依赖npmi-D@craco/craco根目录下创建craco.config.js和配置configure:my-app├──node_modules+├──craco.config.js└──package.jsoncraco.config.jsmodule.exports={de
dubbo 服务消费原理分析之服务目录 DEARM LINER dubbo java 架构后端 spring boot
文章目录前言一、RegistryDirectory1、DynamicDirectory2、RegistryProtocol.doCreateInvoker2、RegistryProtocol.subscribe3、ListenerRegistryWrapper.subscribe4、FailbackRegistry.subscribe5、ZookeeperRegistry.doSubscribe6
Python中用于从图像中提取文本的8大OCR库 woshicver python ocr 开发语言
介绍你是否曾想过你的电脑如何能够从图像中读取文字？这都要归功于一种叫做光学字符识别（OpticalCharacterRecognition,OCR）的技术。在Python中，有一些非常酷的库可以帮助你的电脑理解图片中的文字。从谷歌强大的Tesseract到EasyOCR时髦的深度学习，这些库能够做一些非常了不起的事情。让我们来看看Python中的OCR库，了解这些库是如何将图像转换成可读文字的吧！
五分钟手机美食插画教程253-粽子藩鼠
图片发自App图片发自App工具：procreatepocket+手指第一步：用深绿色木炭块画笔画一个三角粽子第二步：用不同颜色的绿色亚克力画笔在粽子表面画粽叶第三步：用深绿色杂色画笔在粽子表面加纹理行，用墨绿色木炭块画笔画叶子形状即将到来的粽子节快乐，过的是真快～
.Net/C#读取CAD软件dwg、dxf数据表实体 WineMonk .NET .net c#
.Net/C#读取CAD软件dwg、dxf数据表实体使用ACadSharp库读取CAD软件dwg数据表实体文末附ACadSharp.dll库文件及源码CadDocReaderusingACadSharp;usingACadSharp.Entities;usingACadSharp.IO;usingCSMath;usingSystem.Text.RegularExpressions;namespac
营业执照识别OCR接口如何用PHP调用 loosenivy 识别类接口 ocr 营业执照识别营业执照图片识别营业执照ocr 营业执照信息识别
一、什么是营业执照OCR识别接口？营业执照识别OCR接口，即营业执照识别，通过上传图片或URL，识别图片内容，能够识别营业执照上的多种信息，如企业名称、统一社会信用代码、法定代表人等基本信息，以及经营范围、注册地址等详细信息。二、营业执照OCR识别接口适用哪些场景？例如：电商与零售行业：1.商户入驻审核：电商平台和零售企业在接纳新商户入驻时，需要对商户的营业执照进行审核。OCR识别可以自动提取营业
Spring Boot 自动配置简单流程憨p鱼 spring boot java
SpringBootmakesiteasytocreatestand-alone,production-gradeSpringbasedApplicationsthatyoucan"justrun".以上就依赖于自动配置！使用SSM时，需要做大量的配置，较为繁琐。而在使用SpringBoot时，如果需要引入某个依赖，则直接引入jar包，进行配置（可能是增加某个注解），最后按需在yml中进行配置即可
推荐使用：Models——简化WordPress自定义类型的高效工具郦祺嫒Amiable
推荐使用：Models——简化WordPress自定义类型的高效工具modelsWordPressplugintocreatecustomposttypesandtaxonomiesusingJSON,YAMLorPHPfiles项目地址:https://gitcode.com/gh_mirrors/models7/models在追求灵活和定制化的Web开发道路上，WordPress凭借其强大的社
探索Makefile Tutor：构建自动化神器的技术解析与实践指南劳泉文Luna
探索MakefileTutor：构建自动化神器的技术解析与实践指南Makefile_tutorThisprojectaimstocreateacrystalcleartutorialonacrypticlookingtopic.项目地址:https://gitcode.com/gh_mirrors/ma/Makefile_tutor在软件开发中，自动化构建是提高效率的关键一环，而Makefile便
开源AI图像识别：支持扫描文件批量识别快速对接数据库存储思通数科x 人工智能计算机视觉图像处理 OCR 文本识别
随着数字化转型的不断深入，图像识别技术在各行各业中的应用越来越广泛。文件封识别作为图像识别技术的一个分支，能够有效地提高文件处理的自动化程度和准确性。本文将探讨文件封识别技术的原理、应用场景以及如何将识别后的内容批量对应数据库字段进行存储。开源项目介绍(可本地部署，支持国产化)思通数科研发了一款多模态AI能力引擎，专注于提供自然语言处理（NLP）、情感分析、实体识别、图像识别与分类、OCR识别和语
使用paddlerocr识别固定颜色验证码王小葱鸭深度学习深度学习 ocr
1引言本文使用opencv和paddlerocr识别出固定颜色的验证码，原理不解释，安装包的方法自行查找，只提供代码和思路。1使用opencv对特定颜色区域进行提取2使用paddlerocr识别并输出验证码2代码2.1读取图片，提取蓝色区域frompaddleocrimportPaddleOCRimportosimportcv2importnumpyasnp#读取图像image=cv2.imrea
python版本微信ocr调用冰吸生椰拿铁. python 微信 ocr
pipinstallwechat-ocrimportbase64importosimportjsonimporttimefromwechat_ocr.ocr_managerimportOcrManager,OCR_MAX_TASK_IDfromyscredit_tools.utilsimportmd5stringwechat_ocr_dir=r"C:\Users\YS\AppData\Roamin
python调用微信自带OCR实现内容识别（全） knighthood2001 python 调用微信本地OCR进行文字识别 python 微信 ocr
博客主页：knighthood2001✨公众号：认知up吧（目前正在带领大家一起提升认知，感兴趣可以来围观一下）知识星球：【认知up吧|成长|副业】介绍❤️感谢大家点赞收藏⭐评论✍，您的三连就是我持续更新的动力❤️笔者水平有限，欢迎各位大佬指点，相互学习进步！今天就让我们来实现一下python调用微信自带OCR进行文本识别。要实现这个功能，你需要看看之前写的这两篇文章：01：py
完全离线调用微信 ocr.exe 使用 python 调用 WeChatOCR.exe 附代码点云-激光雷达-Slam-三维牙齿超值的一些内容 ocr 点云算法 python 微信
微信的OCR识别能力还是可以的，并且可以得到位置，速度也快，我想要把微信的这个exe单独提取出来，可以供其他项目使用，目前已有的应该都是需要依赖微信运行状态的，我这个独一份注意事项，不是直接复制WeChatOCR.exe就可以了，单独用它的话，需要微信运行的状态，但是我们要摆脱微信的依赖，所以需要先把微信的WeChatOCR.exe，OCR模型文件，以及2个依赖的DLL单独复制出来，也就是我下面红
亚马逊云科技大语言模型加速OCR应用场景发展热爱coding的星辰 ocr 自然语言处理人工智能 aws
大语言模型是一种基于神经网络的自然语言处理技术，它能够学习和预测自然语言文本中的规律和模式，可以理解和生成自然语言的人工智能程序。在大型语言模型中，神经网络模型可以通过学习大量的语言数据，自动提取自然语言文本中的特征和模式，以实现自然语言的理解和生成。OCR技术（OpticalCharacterRecognition）是一种广泛应用的人工智能技术，在大语言模型基础上，能够从文档或图像中提取文本、手
halcon深度学习4：深度学习在 OCR的用法-deep_ocr_workflow解析 mlxg99999 halcon深度学习自学
1.什么是OCR技术OCR，全称是OpticalCharacterRecognition,即光学字符识别，面向扫描文件。但是由于现在数字图像的普及，这里泛指文字检测和识别，包括扫描文档和自然场景的文字识别。2、deep_ocr_workflow在深度学习中，只有一篇例子关于OCR就是这一篇，文中介绍了深度OCR模型的建立与使用（如果使用过计量模型的可以较好理解，就是建立模型→设置参数→导入图片→进
inexpensive electronic digital chouxiao4977
KualaLumpurgathersallkindsofmerchandise,fromtraditionaltolocalizedartsinadditiontocrafts,intheworldfamousmanufacturerfashionforyoutoinexpensiveelectronicdigitalproducts.Concurrently,ithasbothequallyla
Psychology 心理学 the 8th dwarf English 心理学
psychology心理学mind心理，心灵，精神soul灵魂behavior行为psychologist心理学家philosophy哲学philosopher哲学家Empiricism经验主义Positivism实证主义biology生物学evolution进化genetics遗传学physiology生理学endocrine内分泌physics物理学psychophysics心理物理学Prin
c++ +Opencv实现车牌自动识别听忆. 人工智能计算机视觉
c+++Opencv实现车牌自动识别1.图像预处理2.车牌定位3.字符分割4.字符识别完整流程概述：边走、边悟迟早会好要用C++和OpenCV实现车牌自动识别，主要流程分为几个步骤：图像预处理：提高车牌区域的可见度，方便后续的车牌定位与字符识别。车牌定位：通过图像处理和特征提取，定位车牌在图像中的位置。字符分割：将车牌区域中的字符逐个分割出来。字符识别：利用机器学习算法或者OCR（光学字符识别）技
7.17 元认知反思与计划我在走向财富自由之路
有点冷多云12度坚持第253/270天AnythingthatMindcanconceiveandbelieve,itcanachieve.Mergewithmysuperconscioustobeapowerfulcreatorinlife.Developprosperityconsciousnesseverydaytobemynormalstate.Takenewactiontocreaten
Unity3D学习—牧师与魔鬼—MVC模式和ECS架构应用卖女孩的男孩纸 unity3d mvc unity 游戏引擎
需求PriestsandDevilsPriestsandDevilsisapuzzlegameinwhichyouwillhelpthePriestsandDevilstocrosstheriverwithinthetimelimit.Thereare3priestsand3devilsatonesideoftheriver.Theyallwanttogettotheothersideofthis
Keras-OCR：高效且易用的深度学习 OCR 库吕真想Harland
Keras-OCR：高效且易用的深度学习OCR库keras-ocrApackagedandflexibleversionoftheCRAFTtextdetectorandKerasCRNNrecognitionmodel.项目地址:https://gitcode.com/gh_mirrors/ke/keras-ocr是一个基于Python的开源库，它利用[Keras](https和TensorFl
python与OCR识别的库存有哪些？小九不会Python #数据科学 python ocr 开发语言
Python与OCR（光学字符识别）识别相关的库有多个，其中一些最常用和流行的库包括TesseractOCR（通过pytesseract接口）、EasyOCR、PaddleOCR等。下面将详细介绍这些库及其使用方法和部分详细参数。1.TesseractOCR（通过pytesseract接口）简介：Tesseract是一个由Google开发的开源OCR引擎，支持多种操作系统和语言。Python可以通
大数据系列之：OutOfMemoryError: unable to create new native thread 快乐骑行^_^ 大数据大数据 OutOfMemory Error unable native thread
大数据系列之：OutOfMemoryError:unabletocreatenewnativethread问题：环境：原因：解决问题：有时候当Java尝试创建一个新的线程时，操作系统会阻止它。在这种情况下，会出现以下错误：java.lang.OutOfMemoryError:unabletocreateanewnativethread环境：任何Java应用程序原因：这里的根本原因是操作系统由于某种
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交