TextScanner 阅读笔记

Textscanner 阅读笔记

 

Motivaction:

(1):在文本识别领域,从语音识别,以及NLP中学来的基于RNN-attention-based的方法主宰了文本识别领域,在大多数情况下,基于RNN注意的方法通常效果很好。但是,当背景中出现噪音或文本形状不规则时,注意机制可能无法使估计的注意图的中心对准错误的位置,从而导致字符顺序和类别错误(请参见图1)。更严重的是,由于RNN模块中的循环存储机制,此类错误将累积并传播,使情况变得更糟。

          (2):基于语义分割的算法探索了不同的方式,并且展现出了对不同形状(水平,定向和弯曲)文本的更强适应性。然而,由于不正确的二值化会导致这样的尴尬,因此很难成功地将每个字符与分割图分开:一个字符可能会分成多个部分,或者多个字符可能会粘在一起(见图1)。在这些情况下,字符数量和类别的预测将是错误的。总之,现有的方法,无论是基于RNN注意力还是基于语义分割,都不能令人满意地解决场景文本识别中的难题。

 

 

                                  图(1)TextScanner 阅读笔记_第1张图片

 

主要贡献:

 (1)提出了一种新颖的文本识别框架,该框架可预测具有两个单独分支的字符的类别信息和几何信息(位置和顺序)。

  (2) 我们设计了一种相互监督的机制,使该框架能够利用生成的数据和真实数据进行来训练,解决基于字符训练,数据集不足的问题。

(3)提出的TextScanner在公开数据集上达到了最先进的或极具竞争力的性能。

(4)TextScanner对较长和更复杂的文本,具有更强的适应性。

 

详细解读

     网络结构:

       (1)class分支

 

  TextScanner 阅读笔记_第2张图片

Class分支产生字符分割图G,大小为(h*w*c),h,w为长宽,c通道数(大小为总共字符有多少个类别,以及是否为背景图,分割图G是cnn的主干网络提取特征后,再分别经过大小为3*3,和1*1大小的卷积核后再经过softmax最后产生分割图G。

 

  1. Geometry分支

TextScanner 阅读笔记_第3张图片

 

            该部分分为localization map Q,和order segmentation map S,Q图的 大小为(h*w),同样的类似于classify分支,经过主干网络提取的特征feature部分,图中绿色部分后,经过sigmod激活函数得到。而图S如图所示,主干网络得到feature后经过FPN,注意上层中采用GRU模块,最后得到的S图和Q图经过Q*S,最终得到order map H,H=Q*S

  1. 实验结果:

TextScanner 阅读笔记_第4张图片

实验表明,所提出的TextScanner在公共基准上达到了最先进的或极具竞争力的性能.TextScanner对更长,更复杂的文本(例如中文脚本)表现出更强的适应性。实验结果清楚地表明了几何分支及其解码过程(表3中的第二行和第三行)带来的改进。由于顺序图确保以正确的顺序扫描字符,因此识别性能显着提高,尤其是在不规则数据集上:IC15上为7.4%,SVTP上为10.2%。

你可能感兴趣的:(OCR)