PSENet笔记

0 摘要

现在的文本检测算法有两个挑战:
(1)可以很好的检测四边形,但是对任意形状不好使。
(2)文本区域太近,导致误检。

基于分割的方法可以解决第一个问题,但是对第二个问题却无能为力。PSENet可以很好检测任意形状,psenet生成不同尺度的kernel,逐步扩展小尺度kernel直到覆盖整个文本形状。小的kernel之间有更大的几何间隔,因为对于邻近的文本区域非常有效。

1 介绍

基于CNN的文本检测方法粗分为两类:基于检测的方法和基于分割的方法。
基于回归的方法可以检测带方向的矩形或者四边形,但是不能处理任意四边形。
基于分割的方法很难将很近的文本区域分开。

PSENet 的方法:

  1. 进行像素级别的分割。
  2. 逐步进行尺度扩张算法。每个文本区域分配多个分割区域,我们用kernel表示。每个kernel有着和文本区域一样的形状,但是尺度不同。
  3. 为获得最终的检测结果,我们采用基于BFS的逐步尺度扩张算法。(1)从最小尺度kernel开始;(2)通过更大的kernel扩张它们的区域;(3)直至找到整个文本区域结束。

使用PSENet有三个潜在原因:

  1. 小尺度kernel更容易将他们分开。
  2. 小尺度kernel不能覆盖整个文本区域。
  3. 逐步尺度扩张算法是一种简单高效的方法。

2 相关工作

2.1 基于回归的方法 regression-based methods

大部分基于回归的方法存在的问题:

  1. 需要复杂的anchor的设计
  2. 笨重的多阶段。
  3. 不能处理弯曲文本(curve texts)。

2.2 基于分割的方法 segmentation-based methods

过去基于分割的方法很少关注任意形状的文本。TextSnake可以检测任意形状,但是非常耗时,并且有复杂的后处理。

3 方法

PSENet笔记_第1张图片

3.1 整体流程

  1. 使用ResNet作为骨干网络。

3.2 网络设计

3.3 尺度扩张算法

3.4 label 生成

参考

  1. PSENet原理介绍

你可能感兴趣的:(OCR)