飞浆开源的PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地,但是经过我的测试,在小图和长图上,PaddleOCR文本检测模型的效果就大大降低,如果没有大量的数据集就很难解决这个问题,这篇文章将好好讲解下如何解决这个棘手的问题。
以下面几个图进行测试,在不修改任何代码的情况下执行命令,看下实际效果
python tools/infer/predict_det.py --det_algorithm="DB" --det_model_dir="./inference/ch_PP-OCRv3_det_infer/" --image_dir="./test/"
测试的小图:
前三张,没有任何检测框,最后一张检测出了两个框,如下图:
测试的长图:
前一张,没有任何检测框,下两张效果很差,如下图:
1、增加小图数据集然后进行检测训练
优点:无需修改代码
缺点:耗时
2、对图片进行预处理,增加图片的大小,给图片加一定大小的边框
优点:提高了图片的检测效果
缺点:降低检测速度
下面我们看看如何实现第二种方式,代码如下
if __name__ == "__main__":
...
image_names = os.listdir(args.image_dir)
index = 0
for image_file in image_file_list:
index += 1
img, flag = check_and_read_gif(image_file)
if not flag:
img = cv2.imread(image_file)
if img is None:
logger.info("error in loading image:{}".format(image_file))
continue
st = time.time()
# *******************开始*********************
h, w = img.shape[0], img.shape[1]
border = [0, 0]
transform_size = 320 # 图片增加边框到320大小
if w < transform_size or h < transform_size:
if h < transform_size:
border[0] = (transform_size - h) / 2.0
if w < transform_size:
border[1] = (transform_size - w) / 2.0
# top,buttom,left,right 对应边界的像素数目(分别为图像上面, 下面, 左面,右面填充边界的长度)
img = cv2.copyMakeBorder(img, int(border[0]), int(border[0]), int(border[1]), int(border[1]),
cv2.BORDER_CONSTANT,
value=[215, 215, 215])
# 保存图片
image_file = "inference_results/test/" + image_names[index-1]
cv2.imwrite(image_file, img)
# *******************结束***********************
dt_boxes, _ = text_detector(img)
我将图片增加边框到320大小,下面我们来看看实际效果,如下图:
可以看到,上面无法检测的小图都检测到了,两个长图效果也大大增加。
上面是为了观察流程,现在看如何把边框去掉,接上上面的代码,如下:
# 删除这两行代码
# image_file = "inference_results/test/" + image_names[index-1]
# cv2.imwrite(image_file, img)
# *******************结束***********************
dt_boxes, _ = text_detector(img)
for bno in range(len(dt_boxes)):
tmp_box = copy.deepcopy(dt_boxes[bno])
if transform:
if border[0] > 0 or border[1] > 0:
for i in range(len(tmp_box)):
pos = [0, 0]
if 0 <= tmp_box[i][0] - border[1] <= w:
pos[0] = tmp_box[i][0] - border[1]
elif tmp_box[i][0] - border[1] < 0:
pos[0] = 0
else:
pos[0] = w
if 0 <= tmp_box[i][1] - border[0] <= h:
pos[1] = tmp_box[i][1] - border[0]
elif tmp_box[i][1] - border[0] < 0:
pos[1] = 0
else:
pos[1] = h
dt_boxes[bno][i] = pos
结果如下:
经过上面方式2的调整,基本上小图和长图文字检测有个质的飞跃,如还有其他方式能够提高图片的检测,希望在评论区提供出来,共同进步。