【论文解读】MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition

 

这篇论文提出了自然场景下弯曲文字识别的一种网络MORAN。

MORAN 由两个部分组成:一个是弯曲矫正网络MORN,一个是识别网络ASRN。

 

弯曲矫正网络MORN

MORN(Multi-Object Rectification Network)网络定义了一个从输入图像坐标(x1,y1)到输出图像坐标(x2,y2)的可微分映射。可微保证了可用过梯度方法训练。

映射关系为:

x2=x1+ox1

y2=y1+oy1

(ox1,ox2)为输入图像(x1,y1)上的偏移坐标。

因此,通过矫正后输入图的(x1,y1)点的像素变为输出图的(x2,y2)点的像素。

 

其中由两点注意:

  1. 矫正之前(x2,y2)scale 到输出图像大小范围内,文中输入和输出大小一样。
  2. (x2,y2)不是整数且分布不均匀,所以需要二至插入(bilinear interpolation)缩放

 

识别网络ASRN

ASRN(Attention-based Sequence Recognition Network)网络的主要结构就是常见的CNN+BLTM结构。

 

论文地址:

https://arxiv.org/abs/1901.03003

实现地址:

https://github.com/Canjie-Luo/MORAN_v2

 

训练:

数据集上的表现:

模型大小:

是否适合工业应用:

 

 

 

 

 

献给2004年买房赚了10年工资的人们。

2018.01.18深夜

 

你可能感兴趣的:(人工智,目标检,计算机视,深度学,卷积神经网)