woshiheweigui

OCR文字检测主要算法

转载：https://www.mayi888.com/archives/60604

文字检测是文字识别过程中的一个非常重要的环节，文字检测的主要目标是将图片中的文字区域位置检测出来，以便于进行后面的文字识别，只有找到了文本所在区域，才能对其内容进行识别。

文字检测的场景主要分为两种，一种是简单场景，另一种是复杂场景。其中，简单场景的文字检测较为简单，例如像书本扫描、屏幕截图、或者清晰度高、规整的照片等；而复杂场景，主要是指自然场景，情况比较复杂，例如像街边的广告牌、产品包装盒、设备上的说明、商标等等，存在着背景复杂、光线忽明忽暗、角度倾斜、扭曲变形、清晰度不足等各种情况，文字检测的难度更大。如下图：

本文将介绍简单场景、复杂场景中常用的文字检测方法，包括形态学操作、MSER+NMS、CTPN、SegLink、EAST等方法，并主要以ICDAR场景文字图片数据集介绍如何使用这些方法，如下图：

1、简单场景：形态学操作法

通过利用计算机视觉中的图像形态学操作，包括膨胀、腐蚀基本操作，即可实现简单场景的文字检测，例如检测屏幕截图中的文字区域位置，如下图：

其中，“膨胀”就是对图像中的高亮部分进行扩张，让白色区域变多；“腐蚀”就是图像中的高亮部分被蚕食，让黑色区域变多。通过膨胀、腐蚀的一系列操作，可将文字区域的轮廓突出，并消除掉一些边框线条，再通过查找轮廓的方法计算出文字区域的位置出来。主要的步骤如下：

读取图片，并转为灰度图
图片二值化，或先降噪后再二值化，以便简化处理
膨胀、腐蚀操作，突出轮廓、消除边框线条
查找轮廓，去除不符合文字特点的边框
返回文字检测的边框结果

通过OpenCV，便能轻松实现以上过程，核心代码如下：

# -*- coding: utf-8 -*-

import cv2
import numpy as np

# 读取图片
imagePath = '/data/download/test1.jpg'
img = cv2.imread(imagePath)

# 转化成灰度图
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 利用Sobel边缘检测生成二值图
sobel = cv2.Sobel(gray, cv2.CV_8U, 1, 0, ksize=3)
# 二值化
ret, binary = cv2.threshold(sobel, 0, 255, cv2.THRESH_OTSU + cv2.THRESH_BINARY)

# 膨胀、腐蚀
element1 = cv2.getStructuringElement(cv2.MORPH_RECT, (30, 9))
element2 = cv2.getStructuringElement(cv2.MORPH_RECT, (24, 6))

# 膨胀一次，让轮廓突出
dilation = cv2.dilate(binary, element2, iterations=1)

# 腐蚀一次，去掉细节
erosion = cv2.erode(dilation, element1, iterations=1)

# 再次膨胀，让轮廓明显一些
dilation2 = cv2.dilate(erosion, element2, iterations=2)

#  查找轮廓和筛选文字区域
region = []
contours, hierarchy = cv2.findContours(dilation2, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
for i in range(len(contours)):
    cnt = contours[i]

    # 计算轮廓面积，并筛选掉面积小的
    area = cv2.contourArea(cnt)
    if (area < 1000): continue # 找到最小的矩形 rect = cv2.minAreaRect(cnt) print ("rect is: ") print (rect) # box是四个点的坐标 box = cv2.boxPoints(rect) box = np.int0(box) # 计算高和宽 height = abs(box[0][1] - box[2][1]) width = abs(box[0][0] - box[2][0]) # 根据文字特征，筛选那些太细的矩形，留下扁的 if (height > width * 1.3):
        continue

    region.append(box)

# 绘制轮廓
for box in region:
    cv2.drawContours(img, [box], 0, (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

该图像处理过程如下图所示：

可以看到最终成功将图像中的文字区域检测出来了。

这种方法的特点是计算简单、处理起来非常快，但在文字检测中的应用场景非常有限，例如如果图片是拍照的，光线有明有暗或者角度有倾斜、纸张变形等，则该方法需要不断重新调整才能检测，而且效果也不会很好，如下图。例如上面介绍的代码是针对白底黑字的检测，如果是深色底白色字则需要重新调整代码。

2、简单场景：MSER+NMS检测法

MSER（Maximally Stable Extremal Regions，最大稳定极值区域）是一个较为流行的文字检测传统方法（相对于基于深度学习的AI文字检测而言），在传统OCR中应用较广，在某些场景下，又快又准。

MSER算法是在2002提出来的，主要是基于分水岭的思想进行检测。分水岭算法思想来源于地形学，将图像当作自然地貌，图像中每一个像素的灰度值表示该点的海拔高度，每一个局部极小值及区域称为集水盆地，两个集水盆地之间的边界则为分水岭，如下图：

MSER的处理过程是这样的，对一幅灰度图像取不同的阈值进行二值化处理，阈值从0至255递增，这个递增的过程就好比是一片土地上的水面不断上升，随着水位的不断上升，一些较低的区域就会逐渐被淹没，从天空鸟瞰，大地变为陆地、水域两部分，并且水域部分在不断扩大。在这个“漫水”的过程中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域。在一幅有文字的图像上，文字区域由于颜色（灰度值）是一致的，因此在水平面（阈值）持续增长的过程中，一开始不会被“淹没”，直到阈值增加到文字本身的灰度值时才会被“淹没”。该算法可以用来粗略地定位出图像中的文字区域位置。

听起来这个处理过程似乎非常复杂，好在OpenCV中已内置了MSER的算法，可以直接调用，大大简化了处理过程。

检测效果如下图：

检测后的结果是存在各种不规则的检测框形状，通过对这些框的坐标作重新处理，变成一个个的矩形框。如下图：

核心代码如下：

# 读取图片
imagePath = '/data/download/test2.jpg'
img = cv2.imread(imagePath)

# 灰度化
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
vis = img.copy()
orig = img.copy()

# 调用 MSER 算法
mser = cv2.MSER_create()
regions, _ = mser.detectRegions(gray)  # 获取文本区域
hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions]  # 绘制文本区域
cv2.polylines(img, hulls, 1, (0, 255, 0))
cv2.imshow('img', img)

# 将不规则检测框处理成矩形框
keep = []
for c in hulls:
    x, y, w, h = cv2.boundingRect(c)
    keep.append([x, y, x + w, y + h])
    cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)
cv2.imshow("hulls", vis)

从上图可以看出，检测框有很多是重叠的，大框里面有小框，框与框之间有交叉，有些框只是圈出了汉字的偏旁或者某些笔划，而我们期望是能圈出文字的外边框，这样便于后续的文字识别。为了处理这些很多重叠的大小框，一般会采用NMS方法（Non Maximum Suppression，非极大值抑制），也就是抑制非极大值的元素，即抑制不是最大尺寸的框，相当于去除大框中包含的小框，达到去除重复区域，找到最佳检测位置的目的。

NMS算法的主要流程如下：

将所有框按置信度得分进行排序（如果边框没有置信度得分，也可以按坐标进行排序）
取其中得分最高的框出来
遍历该框与其余框的重叠面积（IoU）
删除IoU大于某个阈值的框（阈值可按需设定，例如0.3、0.5、0.8等）
取下一个得分最高的框出来，重复以上过程

经过以上步骤，最后剩下的就是不包含重叠部分的文本检测框了。核心代码如下：

# NMS 方法（Non Maximum Suppression，非极大值抑制）
def nms(boxes, overlapThresh):
    if len(boxes) == 0:
        return []

    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")

    pick = []

    # 取四个坐标数组
    x1 = boxes[:, 0]
    y1 = boxes[:, 1]
    x2 = boxes[:, 2]
    y2 = boxes[:, 3]

    # 计算面积数组
    area = (x2 - x1 + 1) * (y2 - y1 + 1)

    # 按得分排序（如没有置信度得分，可按坐标从小到大排序，如右下角坐标）
    idxs = np.argsort(y2)

    # 开始遍历，并删除重复的框
    while len(idxs) > 0:
        # 将最右下方的框放入pick数组
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)

        # 找剩下的其余框中最大坐标和最小坐标
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])

        # 计算重叠面积占对应框的比例，即 IoU
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)
        overlap = (w * h) / area[idxs[:last]]

        # 如果 IoU 大于指定阈值，则删除
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlapThresh)[0])))

    return boxes[pick].astype("int")

经NMS处理后的检测结果如下图：

从上图可以看出，经MSER+NMS后，已能较好地将文字区域检测、圈出来。

MSER+NMS检测方法在传统的OCR应用中使用广泛，检测速度也非常快，能满足一定的文字识别场景。但当在复杂的自然场景中，特别是有复杂背景的，其检测效果也不尽人意，会将一些无关的因素也检测出来，如下图：

【重点来了】

接下来要介绍的方法，就主要是基于深度学习的AI文字检测法，可应用于复杂的自然场景中。

3、复杂场景：CTPN检测法

CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network，基于连接预选框网络的文本检测）是基于卷积神经网络和循环神经网络的文本检测方法，其基本做法是生成一系列适当尺寸的文本proposals（预选框）进行文本行的检测，示意图如下，具体的技术原理请见之前的文章（文章：大话文本检测经典模型：CTPN）

CTPN检测法能适应较为复杂的自然场景，是目前深度学习中作文字检测的常用方法之一。CTPN的原作者提供该算法的源代码（https://github.com/tianzhi0549/CTPN），是基于caffe深度学习框架的。大家对tensorflow可能会更加熟悉，于是有人在github上提供了tensorflow版本的CTPN程序（https://github.com/eragonruan/text-detection-ctpn），下面介绍如何使用该程序进行文字检测。

（1）下载源代码和模型

① 首先，将tensorflow版本的CTPN程序源代码下载下来，可直接下载成zip压缩包或者git克隆

② 接下来，进行编译安装

③ 下载预训练好的模型，下载地址为 https://pan.baidu.com/s/1BNHt_9fiqRPGmEXPaxaFXw ，下载后的压缩文件为checkpoints_mlt.zip，新建目录text-detection-ctpn，将解压后将 checkpoints_mlt 文件夹放到text-detection-ctpn 目录中

（2）CTPN文本检测能力测试

将图片放到data/demo目录（默认有自带测试图片，如要检测自己的图片，则将自己的图片放于data/demo目录下），然后执行以下命令，就能使用CTPN进行文字检测

检测后的结果存放于 data/res 目录中，检测结果由图片和检测框位置、置信度分数信息两种文件组成，如下图所示：

打开文件后，如下图所示，可见已较好地将文字检测出来：

再打开其它图片，可看到检测结果如下，检测效果还不错，如下图：

（3）CTPN文本检测能力封装

通过对main/demo.py的程序稍微进行改造，就能将CTPN检测能力封装后提供给其它程序调用了，核心代码如下：

# 基于 CTPN 的文字检测方法
# 输入：图片
# 返回：文本框位置和置信度分数
def text_detect(image):

    with tf.get_default_graph().as_default():
        # 模型参数定义
        input_image = tf.placeholder(tf.float32, shape=[None, None, None, 3], name='input_image')
        input_im_info = tf.placeholder(tf.float32, shape=[None, 3], name='input_im_info')

        global_step = tf.get_variable('global_step', [], initializer=tf.constant_initializer(0), trainable=False)

        bbox_pred, cls_pred, cls_prob = model.model(input_image)

        variable_averages = tf.train.ExponentialMovingAverage(0.997, global_step)
        saver = tf.train.Saver(variable_averages.variables_to_restore())

        with tf.Session(config=tf.ConfigProto(allow_soft_placement=True)) as sess:
            # 加载模型
            ckpt_state = tf.train.get_checkpoint_state(checkpoint_dir)
            model_path = os.path.join(checkpoint_dir, os.path.basename(ckpt_state.model_checkpoint_path))
            saver.restore(sess, model_path)

            # 预测文本框位置
            img = image
            h, w, c = img.shape
            im_info = np.array([h, w, c]).reshape([1, 3])
            bbox_pred_val, cls_prob_val = sess.run([bbox_pred, cls_prob],
                                                   feed_dict={input_image: [img],
                                                              input_im_info: im_info})

            textsegs, _ = proposal_layer(cls_prob_val, bbox_pred_val, im_info)
            scores = textsegs[:, 0]
            textsegs = textsegs[:, 1:5]

            textdetector = TextDetector(DETECT_MODE='H')
            boxes = textdetector.detect(textsegs, scores[:, np.newaxis], img.shape[:2])
            boxes = np.array(boxes, dtype=np.int)

    return boxes,scores

从以上的检测结果来看，CTPN检测法在复杂的自然场景下具有较好的检测效果。

4、复杂场景：SegLink检测法

虽然CTPN在自然场景下的文字检测效果还不错，但CTPN的检测效果是基于水平方向的，对于非水平的文本检测效果并不好。在自然场景中，有很多的文本信息都是带有一定的旋转、倾斜角度的，例如街道上的广告牌。接下来介绍的SegLink检测法能够实现对旋转文本的多角度检测，该模型主要是对通过Segment（切片）、Link（链接）实现对文本的检测，示意图如下，具体的技术原理请见之前的文章（文章：大话文本检测经典模型：SegLink）

下面介绍如何使用SegLink来检测文本。

（1）下载源代码和模型

① 首先，在github上下载tensorflow版本的SegLink源代码（https://github.com/dengdan/seglink），可直接下载成zip压缩包或者git克隆

git clone https://github.com/dengdan/seglink.git

② 下载pylib，下载路径为https://github.com/dengdan/pylib/tree/f7f5c5503fbb3d9593e6ac3bbf0b8508f53ee1cf ，解压后将src里面的util文件放到pylib目录下面，然后添加到环境变量，在test_seglink.py的前面加上

import sys 
sys.path.append('/data/PycharmProjects/tensorflow/ocr/seglink/util')

或者在当前窗口执行以下命令，或在 /etc/profile，~/.bashrc 文件中添加以下命令

 export PYTHONPATH=xx:$PYTHONPATH

③ 下载预训练好的模型（基于SynthText、IC15数据集），作者提供了两个预训练好的模型seglink-384（基于384×384的图片）、seglink-512（基于512×512的图片），下载地址为 https://pan.baidu.com/s/1slqaYux

④ 安装依赖包

conda install -c cachemeorg setproctitle 
#或以下命令 
#pip install setproctitle

⑤ 如果python是使用了python3的，则需要进行以下修改（使用python 2.x的，请忽略）

修改test_seglink.py第69行、第133行、第139行、第144行、第145行、第146行，print后面加上括号
修改pylib/util/io_.py，修改第11行，将import cPickle as pkl修改为import pickle as pkl
修改pylib/util/io_.py，修改第12行，将import commands改为import subprocess as commands
修改pylib/util/caffe_.py，修改第29行、第46行、第47行、第50行，在print后面加上括号
修改pylib/util/tf.py，修改第41行，将xrange改为range
修改config.py，修改第129行，将xrange改为range
修改tf_extended/seglink.py，修改第337行、第625行、第626行、第759行、第761行，将xrange改为range
修改test_seglink.py，第153行，将print(util.cmd.cmd(cmd))注释掉

⑥ 修改./tf_extended/seglink.py，第808行，opencv3没有cv.BoxPoints() 函数，修改如下：

# points = cv2.cv.BoxPoints(bbox) #opencv2.4.9

points = cv2.boxPoints(bbox) #opencv3.1.0

（2）SegLink检测文本测试（文本框坐标）

通过运行以下命令进行测试

./scripts/test.sh 0 GPU_ID CKPT_PATH DATASET_DIR

该命令由三个参数组成，第1个表示GPU，第2个表示模型路径，第3个表示数据目录。例如我们使用刚才下载的seglink-384预训练模型，将要检测的图片放到指定的目录后进行测试（可使用自己的图片，或使用场景文字图片数据集ICDAR2015进行测试，下载地址为http://rrc.cvc.uab.es/?ch=4&com=downloads），那么执行的脚本如下：

 ./scripts/test.sh 0 ./models/seglink-512/model.ckpt-217867  ./dataset/ICDAR2015 /ch4_test_images

检测后，生成了图片检测出来的文本框位置（8个坐标点），并存放在txt文件中，如下图：

从这些检测的文本框位置结果来看，并不显性化，不知道在图片中的实际检测效果如何。

（3）SegLink检测文本测试（结果显性化）

为了能显性化地展现出文本检测的图片结果，可通过以下命令进行展示，格式为

 python visualize_detection_result.py \     
--image=检测的图片所在目录     
--det=经过test_seglink.py检测输出的文本框位置坐标 
--output=指定将文本框位置绘制到图片上的输出目录

该命令由三个参数组成，第一个表示输入的图像，第二个表示输出检测结果的文本信息，第三个表示输出检测结果的图像

① 在visualize_detection_result.py添加环境变量

import sys 
sys.path.append('/data/PycharmProjects/tensorflow/ocr/seglink/util')

② 如果python是使用了python3的，则对visualize_detection_result.py第65行，print后面加上括号

python visualize_detection_result.py \ –image=./dataset/ICDAR2015/ ch4_test_images/ \ –det=./models/seglink-512/model.ckpt-217867/test/icdar2015_test/model.ckpt-217867/seg_link_conf_th_0.800000_0.500000/txt \ –output=./dataset/output

对刚才输出的检测结果信息进行可视化展示，调用的命令如下（以ICDAR2015测试图片集为例，如要使用自己的照片，请替换图片目录）：

执行后，可看到直接输出了检测后的结果图片，如下图：

打开其它图片，检测效果如下：

从上面的检测结果来看，可较好地检测出自然场景中的文字，特别是其中还有一些带有一定倾斜或旋转角度的文字，也能检测出来。

（4）SegLink文本检测能力封装

为了方便在其它程序中调用SegLink的检测能力，在test_seglink.py, visualize_detection_result.py代码的基础上进行封装改造，就能将SegLink的检测能力进行封装提供给其它程序调用

5、复杂场景：EAST检测法

CTPN检测法、SegLink检测法是通过先预测proposals（预选框）、segment（切片），然后再回归、合并等方式实现对文本的检测，中间过程比较冗长。而接下来介绍的EAST检测法，则将中间过程缩减为只有FCN（全卷积网络）、NMS（非极大值抑制）两个阶段，而且输出结果支持文本行、单词的多个角度检测，既高效准确，又能适应多种自然应用场景，如下图所示，具体的技术原理请见之前的文章（文章：大话文本检测经典模型：EAST）

下面介绍如何使用EAST来检测文本。

（1）下载源代码和模型

① 首先在github上下载EAST的源代码（https://github.com/argman/EAST），可直接下载成zip压缩包或者git克隆

② 在百度网盘上下载预先训练好的模型文件（基于ICDAR 2013、ICDAR 2015数据集训练），下载地址为http://pan.baidu.com/s/1jHWDrYQ

③ 安装shapely依赖包，执行以下命令

（2）EAST检测文本测试（demo页面）

进入EAST-master目录，然后执行以下命令，可启动demo页面

页面默认会加载输出的结果图片，首次加载时没有结果输出，所以会提示404，这不影响后面的使用。

执行命令后，即可启动web服务，在浏览器中输入http://localhost:8769，打开demo页面，如下图：

点击“选择文件”选择待检测的图片，点击“Submit”提交进行检测，检测后将在页面上返回显示检测后的图片，随机挑选了其中三张图片，检测效果如下图：

作者还很贴心地提供在在线的demo页面，让用户可直接进行体验使用，使用方式跟上面的demo页面一样，网站链接为http://east.zxytim.com/

（3）EAST检测文本测试（批量检测）

可通过命令行调用一批图片批量检测文本，还是以刚才的ICDAR图片数据集进行检测（如果要检测自己的图片，请替换数据目录），命令如下：

执行该命令后，将会批量读取图片进行检测，并输出检测结果，包括图片中检测到的文本框位置、检测结果框住文本后的图片，如下图所示：

从上图也可以看出，EAST也能较好地检测出自然场景的文字，对其中一些带有旋转角度的文字也可准确地检测出来。

（4）EAST文本检测能力封装

为了方便将EAST提供给其它代码调用，通过对eval.py进行修改，封装EAST文本检测的方法，可直接供其它代码调用，代码如下：

# 基于 SegLink 的文字检测方法
# 输入：图片
# 返回：文本框位置
def text_detect(img):
    with tf.name_scope('eval'):
        with tf.variable_scope(tf.get_variable_scope(),reuse=True):
            # 模型参数
            image = tf.placeholder(dtype=tf.int32, shape=[None, None, 3])
            image_shape = tf.placeholder(dtype=tf.int32, shape=[3, ])
            # 预处理图片
            processed_image, _, _, _, _ = ssd_vgg_preprocessing.preprocess_image(image, None, None, None, None,
                                                                                 out_shape=config.image_shape,
                                                                                 data_format=config.data_format,
                                                                                 is_training=False)
            b_image = tf.expand_dims(processed_image, axis=0)
            b_shape = tf.expand_dims(image_shape, axis=0)
            # 预测文本框
            net = seglink_symbol.SegLinkNet(inputs=b_image, data_format=config.data_format)
            bboxes_pred = seglink.tf_seglink_to_bbox(net.seg_scores, net.link_scores,
                                                     net.seg_offsets,
                                                     image_shape=b_shape,
                                                     seg_conf_threshold=config.seg_conf_threshold,
                                                     link_conf_threshold=config.link_conf_threshold)

    sess_config = tf.ConfigProto(log_device_placement=False, allow_soft_placement=True)
    sess_config.gpu_options.allow_growth = True

    saver = tf.train.Saver()
    if util.io.is_dir(checkpoint_dir):
        checkpoint = util.tf.get_latest_ckpt(checkpoint_dir)
    else:
        checkpoint = checkpoint_dir

    with tf.Session(config=sess_config) as sess:
        # 加载模型
        saver.restore(sess, checkpoint)
        # 预测文本框
        image_data = img
        image_bboxes = sess.run([bboxes_pred], feed_dict={image: image_data, image_shape: image_data.shape})
        bboxes = image_bboxes[0]

    return bboxes

6. 弯曲文字：DBNet（Real-time Scene Text Detection with Differentiable Binarization）
虽然EAST解决了CTPN无法解决的问题：旋转、倾斜文本，但是仍然无法解决扭曲的文本，但是在现实中依旧是存在十分多的这一类场景，因而像DBNet这些基于分割的自然场景文本检测方法变得流行起来。

模型结构：

首先：图像输入特征提取主干，提取特征；
其次：特征金字塔上采样到相同的尺寸，并进行特征级联到特征F；
然后：特征F用于预测概率图（probability map P）和阈值图（threshold map T）；
最后：通过P和F计算近似二值图（approximate binary map B^）
算法的亮点：
1.可微二值（differentiable binarization）且自适应阈值：
一般的二值化操作都是使用标准二值化：

由于上面提到的二值方法不是可微的，因而就不能在分割网络中随着训练的过程进行优化，为了解决这个问题文章提出了一个函数来近似这个二值化过程，既是而在这里是使用可微的二值化。所以，正负样本的优化是具有不同的尺度的，有利于产生更有利于区分的预测

2.可变卷积：

作者使用可变形卷积的原因：可变形卷积可以提供更加丰富的感受野，这对于极端比例的文本检测效果有益。图中以两个3*3的卷积为例，可以看到对于普通卷积来说，卷积操作的位置都是固定的。而可变形卷积因为引入了offset，所以卷积操作的位置会在监督信息的指导下进行选择，可以较好的适应目标的各种尺寸，形状，因此提取的特征更加丰富并更能集中到目标本身。

训练标注的生成：

训练标注的产生和PSENet很像，正样例区域产生通过收缩polygon从G到Gs，使用Vatti clipping algoithm，补偿公式计算：

Ls：收缩文本实例的loss；Lb：二值化之后的收缩文本实例loss；Lt：二值化阈值map的loss

网络的损失函数：

上面三个损失分量分别是分割概率损失、二值图损失、阈值图损失，α \alphaα=1.0,β \betaβ=10.0 α=1.0,β=10.0。并且为了样本均衡这里使用了困难样本挖掘，保持正负样本的比例为1:3。

为方便介绍，以上CTPN、SegLink、EAST，DBnet的文本检测能力封装时，将加载模型、文本框预测、图片绘制文本框等代码写在一起，而在实际生产使用中，一般是将其分开，在后台启动OCR服务能力时预先加载模型，然后提供核心的文本检测、识别能力，而输出结果是否将文本框绘制到图片上，则视具体需求场景而定。

你可能感兴趣的:(OCR,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
高性能javascript--算法和流程控制海淀萌狗
-for,while和do-while性能相当-避免使用for-in循环，==除非遍历一个属性量未知的对象==es5:for-in遍历的对象便不局限于数组，还可以遍历对象。原因：for-in每次迭代操作会同时搜索实例或者原型属性，for-in循环的每次迭代都会产生更多开销，因此要比其他循环类型慢，一般速度为其他类型循环的1/7。因此，除非明确需要迭代一个属性数量未知的对象，否则应避免使用for-i
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
JVM源码分析之堆外内存完全解读 HeapDump性能社区
概述广义的堆外内存说到堆外内存，那大家肯定想到堆内内存，这也是我们大家接触最多的，我们在jvm参数里通常设置-Xmx来指定我们的堆的最大值，不过这还不是我们理解的Java堆，-Xmx的值是新生代和老生代的和的最大值，我们在jvm参数里通常还会加一个参数-XX:MaxPermSize来指定持久代的最大值，那么我们认识的Java堆的最大值其实是-Xmx和-XX:MaxPermSize的总和，在分代算法
ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
《算法》四学习——1.1节进阶的Farmer 算法算法笔记
前言买了一本算法4，每天看一点，对每个小结来个学习总结，输出驱动输入。本篇笔记针对第一章基础1.1基础编程模型1.1节总结了相关的语法、语言特性和书中将会用到的库。笔记自己在编码中容易遗漏的点&&优先级比||高在开发中习惯了加括号，所以没注意到这点，教材上也有但是忘记了二分查找中计算mid=left+(right-left)/2这样计算可以有效避免(left+right)/2溢出答疑java无穷大
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &