基于PaddleOCR无法准确识别小图、长图的问题

目的

        飞浆开源的PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地,但是经过我的测试,在小图和长图上,PaddleOCR文本检测模型的效果就大大降低,如果没有大量的数据集就很难解决这个问题,这篇文章将好好讲解下如何解决这个棘手的问题。

问题展现

以下面几个图进行测试,在不修改任何代码的情况下执行命令,看下实际效果

python tools/infer/predict_det.py --det_algorithm="DB" --det_model_dir="./inference/ch_PP-OCRv3_det_infer/" --image_dir="./test/"

测试的小图

    

前三张,没有任何检测框,最后一张检测出了两个框,如下图:

 测试的长图

前一张,没有任何检测框,下两张效果很差,如下图:

解决方式

 1、增加小图数据集然后进行检测训练

        优点:无需修改代码

        缺点:耗时

2、对图片进行预处理,增加图片的大小,给图片加一定大小的边框

        优点:提高了图片的检测效果

        缺点:降低检测速度

下面我们看看如何实现第二种方式,代码如下

if __name__ == "__main__":
    ...

    image_names = os.listdir(args.image_dir)
    index = 0

    for image_file in image_file_list:
        index += 1
        img, flag = check_and_read_gif(image_file)
        if not flag:
            img = cv2.imread(image_file)
        if img is None:
            logger.info("error in loading image:{}".format(image_file))
            continue
        st = time.time()

        # *******************开始*********************
        h, w = img.shape[0], img.shape[1]
        border = [0, 0]
        transform_size = 320  # 图片增加边框到320大小
        if w < transform_size or h < transform_size:
            if h < transform_size:
                border[0] = (transform_size - h) / 2.0
            if w < transform_size:
                border[1] = (transform_size - w) / 2.0
            # top,buttom,left,right 对应边界的像素数目(分别为图像上面, 下面, 左面,右面填充边界的长度)
            img = cv2.copyMakeBorder(img, int(border[0]), int(border[0]), int(border[1]), int(border[1]),
                                     cv2.BORDER_CONSTANT,
                                     value=[215, 215, 215])
        # 保存图片
        image_file = "inference_results/test/" + image_names[index-1]
        cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)

我将图片增加边框到320大小,下面我们来看看实际效果,如下图:

基于PaddleOCR无法准确识别小图、长图的问题_第1张图片

基于PaddleOCR无法准确识别小图、长图的问题_第2张图片 基于PaddleOCR无法准确识别小图、长图的问题_第3张图片

可以看到,上面无法检测的小图都检测到了,两个长图效果也大大增加。 

上面是为了观察流程,现在看如何把边框去掉,接上上面的代码,如下:

        # 删除这两行代码
        # image_file = "inference_results/test/" + image_names[index-1]
        # cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)
        
        for bno in range(len(dt_boxes)):
            tmp_box = copy.deepcopy(dt_boxes[bno])
            if transform:
                if border[0] > 0 or border[1] > 0:
                    for i in range(len(tmp_box)):
                        pos = [0, 0]

                        if 0 <= tmp_box[i][0] - border[1] <= w:
                            pos[0] = tmp_box[i][0] - border[1]
                        elif tmp_box[i][0] - border[1] < 0:
                            pos[0] = 0
                        else:
                            pos[0] = w
                        if 0 <= tmp_box[i][1] - border[0] <= h:
                            pos[1] = tmp_box[i][1] - border[0]
                        elif tmp_box[i][1] - border[0] < 0:
                            pos[1] = 0
                        else:
                            pos[1] = h
                        dt_boxes[bno][i] = pos

结果如下:

    

 

总结

        经过上面方式2的调整,基本上小图和长图文字检测有个质的飞跃,如还有其他方式能够提高图片的检测,希望在评论区提供出来,共同进步。

你可能感兴趣的:(PaddleOCR,python,计算机视觉)