【多方向文字检测】《efficient scene text detection with textual attention tower》

论文链接:https://arxiv.org/abs/2002.03741

团队:西安电子科技大学 西澳大学    

发布于:ICASSP(CCFB类)会议

目录

Abstract

2.PROPOSED METHOD

2.1 Architecture Overview

2.2. Textual Attention Tower

2.3 Loss function

3.Experiments

3.1 Benchmark Datasets and Data Augmentation

3.2 Experimental Setup

3.3 Experimental Results(略)

4.conclusion


Abstract

检测多方向场景文字,特征融合机制可以让我们方便使用小网络,同时使用自注意力机制可以抑制假阳性检测结果;

 

作者贡献:1)提出了有效的文本注意力 Textual Attention Tower(TAT)结构;

                  2)在时间和精度上取得了一个均衡效果;

【多方向文字检测】《efficient scene text detection with textual attention tower》_第1张图片

2.PROPOSED METHOD

2.1 Architecture Overview

MobileNet V2作为主干结构,为了减少计算量,只采用了MobileNetV2的前7个残差模块;

【多方向文字检测】《efficient scene text detection with textual attention tower》_第2张图片

减少计算量和参数的关键就是Textual Attention Tower(TAT)结构,这个结构可以融合抽取的特征。为了避免低维特征的损害,我们使用了下采样的输入图片作为特征内部的额外通道;

检测分支如DET,受文献【1.9】的启发,作者使用了rotated box(RBOX)描述文本区域,DET的分支使用1*1的卷积隐射到最终的检测特征;

2.2. Textual Attention Tower

TAT用于融合各个阶段的特征,检测文本区域可以视作两个简单的子任务:文本/非文本 预测和距离回归。TAT包括三个部分:Feature Refine Unit(FRU),Textual Attention Unit(TAU)和Feature Mixup Unit(FMU)。

Feature Refine Unit(FRU):FRU是一个“bottleneck”残差模块用于改善(refine)特征图,同时减少通道数。无论输入通道数是多少,作者将输出通道数设定为32.在图2中,作者将FRU模块用于每个输入特征图,对于每个下采样的图像,作者采用了级联的FRU模块用于获得低维特征;

Textual Attention Unit(TAU):TAU是一个空间注意力模块用于编码全局上下文信息。TAU的关键就是收集全局信息用于支持当前位置的推理;我们使用膨胀卷积作为基本操作扩大感受野。(a)TAU的第一部分是一个标准卷积模块c用于减少输入特征图f的通道数,确保后续操作计算代价小。(b)上下文编码器的第二部分,包括了4个膨胀卷积模块e1,e2,e3,e4。每一个编码器ei都有一个独立的depth-wise卷积层和一个不同的膨胀率r=2i-1.合适的padding使用,保证了ei的输出可以有相同的空间尺度。膨胀卷积的配置如图3:

【多方向文字检测】《efficient scene text detection with textual attention tower》_第3张图片

(c)TAU的最后一部分是卷积解码模块dec,接收所有译码器的cancat后特征,将其译码为空间注意力图谱。因而,TAU公式表达:

 

\sigma就是sigmoid的操作,\otimes就是对应元素乘法操作。

Feature Mixup Unit(FMU),FMU是一个简单的,对应元素操作混合所有特征。作者使用了元素加法在FMU方法中;

 

2.3 Loss function

本文的loss函数:

 Lc是分类loss函数,Ld是距离回归loss函数,Lr是旋转回归loss函数。λc=1,λd=2,λr=20,这些参数用于平衡各个loss结果;

分类loss(dice loss):

回归loss(IoU loss):

旋转loss(smoothed-L1 loss):

3.Experiments

3.1 Benchmark Datasets and Data Augmentation

数据:ICDAR2013,ICDAR2015,MSRA-TD500;

Data Augmentation:数据旋转【-15,15】,裁剪,resize为640,color-space jittering,Gaussian blurring;

3.2 Experimental Setup

优化器:ADADELTA; 初始化学习率:1,权值损耗参数:1*1e-5;预训练模型:使用ImageNet数据训练;其他参数随机初始化(参考文献【15】)。使用同步BN;

3.3 Experimental Results(略)

4.conclusion

该文提出了一个有效的多方向文字检测方法。主要思路就是使用膨胀卷积获得合理且大量的特征信息。

 

 

 

 

你可能感兴趣的:(ocr,论文分享)