TextCohesion: Detecting Text for Arbitrary Shapes

                                                             TextCohesion: Detecting Text for Arbitrary Shapes

                                                                                       浙大    吴威佳

 

TextCohesion是像素级的方法,将文本实例分割成5个关键组件:一个文本骨架Text Skeleton和四个方向像素区域four Directional Pixel Regions。这些组件比整个文本实例更容易处理。设计了一个置信度评分机制用来过滤掉类似于文本的物体。当背景很复杂时,本方法可以很好地集成文本上下文。在曲形文本呢数据集Total-Text和SCUT-CTW1500达到了state-of-the-art性能,分别是84.6%和86.3%。

一、第一个挑战是基于回归的方法:不规则形状文本检测。

二、第二个挑战是基于回归和基于分割的方法无法分离靠得很近的文本。

三、由于缺乏上下文信息,基于回归和基于分割的方法都可能有false positive。

本文将文本实例看成是文本骨架和四个方向像素的结合,前者大致表示形状和大小,后者负责从四个方向细化文本区域和边缘。一个像素属于多个方向则表示它更有机会被找到。文本骨架平局置信度大于阈值0.5则被认为是候选文本。

置信度评分机制:使用文本骨架的平均置信度得分来过滤掉false positives。

贡献:

  1. 提出了使用文本骨架、四个方向像素区域和置信度评分机制来预测文本,在曲形文本超过现有方法。
  2. 对所有形状的文本效果好
  3. 方法可以进一步过滤掉类似字符的物体。

两类方法:基于回归和基于分割(像素):regression-based and pixel-based.

对于TS,我们使用由几个点(例如15)链接的线来粗略地表示文本实例。 然后每个DPR被TS点分成几个单元。 两个相邻点之间的切线值确定哪个相应的单元落入。 文本区域(TR)是一个限制TS范围的掩码。 之后,应用置信度评分来过滤掉误报。 最后,将剩余的TS,TR和DPR组合在一起形成文本(先过滤后形成文本)。 整个过程如图3所示。

所有TS均由置信度评分验证机制。

backbone: VGG16。还插入了横向连接以丰富特征,图4中显示了特征提取器。在第一阶段,图像被下采样到多级特征。 其次,特征逐渐上采样到原始大小并与前一阶段的相应输出混合。 然后生成几个映射以表示TS,DPR和TR。

TR是啥?

怎么生成TS和dpr标签

如图6(a)所示,我们使用TS来粗略地表示候选文本。 具体地,TS中的点被视为一系列起点,以便将来搜索相应的感兴趣区域。 此外,TS还用于过滤误报。 与整个文本实例相比,TS较少被相邻边界混淆,更容易定位,并且可以近似地表示原始文本的形状。 因此,我们将每个TS视为一个候选。

DPRs被用于惊喜地分割边缘。可能有像素在多个地方发生重叠。被多个方向确定的像素的置信度更高,因此我们的方法更鲁棒。

为了过滤掉false positives,将TS中的平均置信度当作是实际文本的概率。

在synthtext上预训练

在候选被选择之后,将文本实例初始化为其对应的TS,然后沿着属于该TS的DPR逐渐向外扩散。在此过程中,将首先在该方向上搜索属于特定DPR的像素(例如,将首先沿着TS搜索向上区域),然后将有其他机会从不同的搜索路径(例如,向上区域)进行补充。 将通过搜索左右区域来补充)。 换句话说,像素的方向不是唯一的,文本实例也是如此有很多机会完全恢复。

可转移的置信度评分机制:可以应用到别的方法当中。

提出的方法可能是使其在具有任意形状,专用边界和误报困境的文本上合理的关键因素

 

 

 

 

你可能感兴趣的:(CNN)