论文研读笔记(七)—CTPN

论文研读系列汇总:

1.AlexNet论文研读

2.VGG论文研读

3.GoogLeNet论文研读

4.Faster RCNN论文研读

5.ResNet 论文研读

6.SENet 论文研读

7.CTPN 论文研读

8.CRNN 论文研读

 

论文基本信息:

论文题目:

Detecting Text in Natural Image with Connectionist Text Proposal Network

作者:

Zhi Tian, Weilin Huang, Tong He, Pan He, and Yu Qiao

论文原文地址:

https://arxiv.org/pdf/1609.03605.pdf

 

 

论文研读:

 

摘要:

作者提出了三个贡献,分别是在细粒度上检测文本,循环文本提议,边缘细化。能联合预测固定宽度的提议位置和给出文本分数。形成的端到端模型,使其能探索丰富的图像上下文信息,并能检测极其模糊的文本。

 

引言:

在引言里,作者回顾了目标检测领域迅速的发展,并提出能不能把目标检测里的RPN层(关于RPN介绍,请移步:Faster RCNN)应用到文本检测上。作者说通用目标检测都有一个明确的封闭边界,而一般的文本不存在这个,定义都是松散的。但文本检测上优势体现在同一文本线上不同字符可以互相利用上下文,可以用sequence(序列)的方法比如RNN来表示。

论文研读笔记(七)—CTPN_第1张图片

上图为整个检测过程的流程图,我将用这个流程图为大家一一解释摘要中提出的三个贡献。

1.作者设计的第一步细粒度上检测文本为取出VGG的前五层,(关于VGG的介绍,移步:VGG论文研读)并在第五层卷积出来的特征图上(feature map)上直接进行滑动窗口操作。由此预测出一系列细粒度文本提议(achor 关于achor定义,建议去看一下Faster RCNN的论文)。(这个过程和Faster RCNN的RPN操作很类似 ,相当于用于目标检测的改良版,Faster RCNN请移步:Faster RCNN)

 

2.第二步是循环文本提议,准确的说是网内循环文本提议。(作者在正文里是这么说的)我们来理解一。网内意思就是通过端到端的模式,这个喂入BLSTM的数据是在整个网络模型里。循环文本是RNN的网络模型结构,以后有机会会更RNN的论文,这里的BLSTM就是一个RNN模型的变体,比RNN更能探索上下文结构,更能适应长短不同的序列。(所以这个步骤简单的说就是文本有相比于通用目标上下文信息的优势,所以直接加了一个BLSTM模型,来探索丰富的上下文信息)

 

3.然后作者给了全连接层以后,预测了三个东西,分别是 文本/非文本分数,y-轴坐标及 k 个 anchors的 side-refinement 偏移值. (为什么只预测y坐标?因为文本,y的值变化幅度非常大,而宽度x的值相对而言更小,如果通过细粒度的方式,就是固定为16个像素的y大小,垂直的x值不同的achor,通过这些achor的拼接,进行准确定位文本信息的功能,这个就是所谓的细粒度检测,这个方法还是挺新奇的,在这里膜拜一下作者,以后可以做研究可以参考一下这个方法)

 

连接文本提议网络:

 

在细粒度提议上检测文本:

检测文本时的宽度(anchor)是作者预先设置的大小,k个anchor(也就是k个待选的长条预选区域)的设置如下:宽度都是16像素,高度从11~273像素变化(每次乘以1.4),也就是说k的值设定为10,也就是说它有10种不同的预选框设定,去拟合文本

这是作者用来定位预选框的公式,vc表示预选框在y轴上的中心位置,vh表示这个预选框的高度。*表示实际值,没*表示为预测值。a表示achor

 

边缘细化操作:

 因为上文没怎么细讲这个边缘细化,所以这里解读一下。主要的边缘指的是左右两边的边缘,因为在边缘细化的阶段,主要工作是将每个细粒度(achor)进行融合,所以运算的主要方面变成了x长短,即长度

其中带*表示为实际值.。xside 表示回归出来的左边界或者右边界,cxa 表示anchor中心的横坐标,w a是固定的宽度16像素。所以O的定义相当于是一个缩放的比例,帮助我们去拉伸回归之后的box的结果,从而更好地符合实际文本的位置。

 

CTPN在细粒度文本上的有很强的识别能力,即使很细小到人也不一定能识别的文本,他也能有很好的识别能力,不得不说这是一个非常有价值的设计,

 

 

 

 

 

参考链接:

https://cloud.tencent.com/developer/article/1152494

https://blog.csdn.net/zchang81/article/details/78873347

 

 

 

 

 

你可能感兴趣的:(论文原文研读,深度学习,论文)