端到端OCR-ABCNet论文笔记

为了准确地定位图像中面向的和弯曲的场景文本,首次引入了一种新的使用Bezier曲线的弯曲场景文本的简洁参数表示。它介绍了 与标准的边界框表示相比,其计算开销可以忽略不计。

  1. 网络结构

网络结构示意图如下,
端到端OCR-ABCNet论文笔记_第1张图片
检测head在feature map之后,包含了4个stride=1,padding=1的3*3卷积核。

  1. 贝塞尔曲线

论文使用贝塞尔曲线来拟合检测框的边界,贝塞尔曲线简介可以参考:https://www.jianshu.com/p/0c9b4b681724

论文基于三次贝塞尔曲线,将任意形状的场景文本检测简化为一个共包含8个控制点的bbox。贝塞尔曲线的数学公式如下:
端到端OCR-ABCNet论文笔记_第2张图片在这里插入图片描述

  1. GT生成

论文使用最小二乘法来生成GT。m代表曲线边界的标注点数量。
端到端OCR-ABCNet论文笔记_第3张图片

  1. BezierAlign

论文提出了用于特征采样的BezierAlign。BezierAlign是从RoIAlign扩展而来的。Bezier的目的是在弯曲检测区域上对像素点进行采样,或者说,将弯曲特征图还原成矩形的特征图,从而能够送入CTC识别模型。
矩形特征图的尺寸为 w o u t ∗ h o u t w_{out}*h_{out} wouthout g i = ( g i w , g i h ) g_i=(g_iw, g_ih) gi=(giw,gih)是特征图上的像素点,需要用弯曲检测区域上的像素值来填充。 b p bp bp t p tp tp分别为贝塞尔曲线的上下边界,因此每个采样点 o p op op就可以用以下公示计算出来。利用op的位置,可以很容易地应用双线性插值来计算结果。
在这里插入图片描述
之前的采样方法与BezierAlign的比较如图所示:

  1. 识别

ABCNet的识别部分是一个简单的CRNN+CTC,识别模型的网络结构如下:
端到端OCR-ABCNet论文笔记_第4张图片
识别的loss是CTCloss,论文好像没有给出检测loss的公式,以及检测和识别loss是如何组合的,二者之间的权重。

  1. 实验

使用resnet50作为主干网络,使用FPN提取特征。
预训练数据集为coco-text,ICDAR-MLT。与其他算法的对比如下:
端到端OCR-ABCNet论文笔记_第5张图片

弯曲文本数据集为CTW-1500。在弯曲文本数据集上的结果如下:
端到端OCR-ABCNet论文笔记_第6张图片

文章中使用的数据集都是英文数据集,所以无法确认是否适用于中文数据集。

你可能感兴趣的:(OCR,论文阅读,深度学习,机器学习)