字符级文本检测CRAFT(Character Region Awareness for Text Detection)

小李今天决定量产两篇啦!冲冲冲!
今天记录的这个是在美式车牌识别比赛中运用到的一个模型。
————————————
这个方法来源于CVPR2019 Character Region Awareness for Text Detection的论文,论文地址:https://arxiv.org/pdf/1904.01941.pdf
已经开源的代码:https://github.com/clovaai/CRAFT-pytorch
本篇只记录个人的一些见解 并未完全详细从论文展开。
————————————

CRAFT

此论文提出的方法是用于解决文本检测的问题,作者提出了一个针对于character即字符级检测的网络,并取得了较好的成果。

核心思想:

1.利用了分割的方法,但与普通的图像分割不同的是,CRAFT不是对整个图像的进行像素级分割(如Faster-Rcnn),它将一个character视为一个检测目标对象,而不是一个word(所有的word都由character构成),即不把文本框当做目标。
故,它先检测单个字符(character region score)及字符间的连接关系(affinity score),然后根据字符间的连接关系确定最终的文本行
这样做的好处在于:使用小感受野也能预测大文本和长文本,只需要关注字符级别的内容而不需要关注整个文本实例。
2.在训练过程中对于合成样本可以很好地进行单个字符的标注,但是对于现有的文本数据库,其标注方式基本是基于文本行的,所以文中提出了如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法。

整体的算法结构


上图为整个CRAFT的网络结构:特征提取的主干网络采用的VGG-16以及batch normalization,解码器部分采用了U-net的方法,采用自顶向下的特征聚合方式,最终输出两个通道:region score map和affinity score map,分别为单字符中心区域的概率和相邻字符区域中心的概率,得到原图大小1/2的预测图。

训练数据处理

对于训练标签生成,与以往分割图(以二值化的方式离散标记每个像素的label)的生成方式不同,CRAFT采用高斯热度图来生成region score和affinity score.采用高斯热度图的好处:它能很好地处理没有严格包围的边界区域.


上图是训练数据的label的生成示意图。
于character affinity score标签生成,从左边开始看,有了一个字符级的标注(红框, Character Boxes),这个字符的四个点(绿边)构成一个四边形,做对角线,构成两个三角形(蓝边),取三角形的中心,两个框之间就有四个点,构成了一个新的边框,这个边框就是用来表示两个字符之间的连接的label的(Affinity Boxes)
对于character region score标签生成,由于对box中的每个像素计算高斯分布值比较耗时,本文结合透视变换,采用了近似估计的方法来生成标签,具体步骤如下:
a).准备一个二维的高斯图;
b).计算高斯图区域和每个文字框的透视变换;
c).将高斯图变换到文字框区域.

弱监督学习

上图是整个弱监督学习的框架。
从图中可以看出,有三种颜色的线,最开始训练是蓝色的线条,其利用Synth80k数据集(合成数据,这些数据的标注是准确的)进行有监督的训练,使整个模型达到的效果后,进行弱监督训练。
绿色线条代表是真实数据,这些数据的标注是文本行等级的,真实数据的训练分为以下几步:
1.根据真实数据的标签,将文本行crop出来。
2.跑网络,得到结果图。
3.根据网络输出的图,分割出单个文字,得到字符的基本文字框。
4.根据上一步的结果,生成label。

因为ICDAR2013和ICDAR2015提供的是word级别的标注,无法用于此网络的训练,因而作者利用前面训练的网路进一步在ICDAR2015等数据集上进行微调,首先通过红色箭头所指的线路利用预训练的网络进行GT的生成,这里作者利用了word中的character数得到了一个置性度映射:

生成的置性度映射和GT框便可以继续网络的训练:
简单来说,如果文本长度与模型跑出来的结果是一样的,那就认为置信度高,否则置信度比较低(置信度直接乘到loss上)。
后处理

正常文本后处理分为以下几步:
1、首先对0-1之间的概率图进行取阈值计算
2、使用Connected Component Labeling(CCL) 进行区域连接
3、最后使用opencv的MinAreaRect去框出最小的四边形区域
不规则文本检测后处理分为以下几步(如上图所示):
1、先找到扫描方向的局部最大值(blue line)
2、连接所有the local maxima上的中心点叫做中心线
3、然后将the local maxima lines旋转至于中心线垂直
4、the local maxima lines上的端点是文本控制点的候选点,为了能更好的覆盖文本,将文本最外端的两个控制点分别向外移动the local maxima lines的半径长度最为最终的控制点。

效果图
特性

CRAFT可以用于处理任意方向文本、 曲线文本、 畸变文本等.
该方法具有如下特性:
1).对尺度变换具有较好地鲁棒性,本文都是基于单尺度图像进行实验的;
2).本文模型不能适用与粘连的语言,如Bangla and Arabic characters;
3).相比于端到端的文本检测方法,该方法在训练的时候借助了文本长度
4).泛化能力较强
——————————
Ending
友情参考链接:
2019CVPR文本检测综述
Character Region Awareness for Text Detection解读
NAVER提出字符级别的文本检测网络:CRAFT

你可能感兴趣的:(字符级文本检测CRAFT(Character Region Awareness for Text Detection))