Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译

摘要

 场景文本图像包含两个水平的内容,视觉纹理和语义信息。虽然之前场景文本识别方法已经取得了很大的进展,然而研究很少在注意力机制来来挖掘语义信息,只有RNN结构不明确的探索了语义信息。我们观察到RNN结构有一些明显的缺陷。如与时间相关的解码方式和单向串行传输的语义环境,这极大限制了语义信息和计算效率。为了改善这些缺点,我们提出了一个端到端的新的解决方法叫做SRN,一个GSRM(global semantic reasoning module)被引入通过多路并行传输,捕获全局语义信息。在7个公开数据集上获得了最佳效果。

引言

 文本具有丰富的语义信息,虽然文本识别已经取得很大突破,但自然场景文本识别仍然是一个很大的挑战,由于字体的大小,颜色,空间分布以及不可控的背景。对于人类来说,文本识别不仅依靠视觉信息,也受到高层语义的理解。如下图1所示,很难依据单个分割字符识别,然而人类能通过整个单词识别出正确的结果。
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第1张图片
对于语义信息,主流的方法是单向串行传输。这种方式有以下几种缺点;1.只能感知到有限的语义信息,在刚开始解码时间段几乎不能获取有用的语义信息;2.当一个解码错误的时候,接下来可能会造成连串的错误,而且序列模型很难并行化。
 本论文我们引进了一个叫做GSRM的子模块来解决以上问题,该模块以多路并行的方式来考虑全局语义信息。Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第2张图片
如上图b所示,多路并行传输可以及时感知到整个单词的语义信息,而且单个字符的错误信息影响有限。除此之外,我们提出了一个新的框架SRN来精确进行场景文本识别,不仅融合了GSRM而且应用了parallel visual attention module (PVAM) 和visual-semantic fusion decoder
(VSFD)。PVAM在并行注意力机制里是用来提取每一个时间点的视觉特征,VSFD旨在融合视觉和语义信息进行高效的解码。
 上下文模型结构可以在一定的时间或空间范围捕获信息。RNN很擅长处理序列数据,但它内在的序列行为阻碍了并行计算。为了解决这些问题,ByteNet等方法直接用CNN作为解码器,这些方法能很好的并行计算,但受限于感受野的大小不能很好的捕获全局信息。最近变形结构被提出可以捕获全局信息。本篇论文我们不仅采用变形结构来增强视觉编码特征,而且来推论语义内容。

方法

 SRN是一个端到端的训练网络包含四个部分:骨架网络,PVAM,GSRM,VSFD。骨架网络提取二维特征向量V,PVAM生成N个一维特征G,每个特征对应一个字符。N个一维特征G送入GSRM捕获语义信息S,最终G和S融合后通过VSFD预测N个字符。若文本字符串长度比N小,用EOS填充。整个网络如下图所示:
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第3张图片

3.1 骨架网络

 我们用FPN来融合Resnet50的stage-3,stage-4,stage-5的特征作为骨架网络。特征图大小是输入图像尺寸的1/8大小,通道数是512.受到non-local mechanisms(文献4)的鼓舞,我们引入由位置编码、 multi-head注意力网络和前向反馈模块三部分组成的变形单元(文献34)来高效的捕获全局空间依赖。2D特征图送入堆叠的变形单元, multi-head的头部数量是8,前向反馈输出维度是512.然后增强的2D视觉特征V被提取。

Parallel Visual Attention Module(PVAM)

 注意力机制被广泛用于序列识别。可以看作是一种特征对齐的方式,相关输入的信息校准为相应的输入。因此注意力机制被用来生成N维特征,每个特征对应文本的一个字符。当前基于注意力的方法由于时序依赖性不够高效,因此PVA被引入来改善计算效率。
 一般来说注意力机制被描述为下列方式:给定一个键值对(ki, vi)和一个查询q,计算q和ki的相似性,根据相似性来聚集vi。而在我们的工作里,键值对设置为2D特征 (vij , vij ).遵循Bahdanau attention[2],用隐藏层Ht-1作为查询生成第t个特征。为了并行计算,reading顺序被用作查询而不是时间依赖的Ht-1,文本的第一个字符reading顺序是0.第二个字符的顺序是1,依此类推。我们的并行机制可以概括如下:
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第4张图片
We,Wo,Wv都是训练参数,Ot是字符reading顺序,fo是嵌入函数。
 基于PVA的思路,我们设计了PVAM来校准所有时间的的视觉特征。对齐的第t个时间步的视觉特征被描述为如下:
在这里插入图片描述
计算是与时间无关的,因此可以并行计算。一些注意力特征图如图4所示;
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第5张图片
获取的注意力特征图可以关注对应的字符。

Global Semantic Reasoning Module

 我们提出了GSRM,遵循多路并行传输来克服单向传输的缺陷。首先我们回顾了典型的RNN概率公式,如下所示:
在这里插入图片描述
et看作是第t个标签yt的词嵌入,在每一个时间步,RNN类的方法会参考之前的标签或预测结果。因为et-1和Ht-1只能在时间t时捕捉,这限制着语义推理的能力,也造成了推理时效率低下。为了克服以上问题,我们不用真正的词嵌入e,用一个近似的词嵌入e’这是时间独立的。从这个改善可以获得以下几个好处:1.Ht-1可以从等式3中移除,因此序列过程可以升级为并行过程。2。全局语义信息包括了前面和后面的字符,结合在一块可以推论出此时的近似语义内容。因此概率表达式被描述为如下:
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第6张图片
e’t时et的近似信息,函数fr是一个当前语义信息和全局语义内容的映射。如果我们用st来表示
在这里插入图片描述
st是第t个语义信息特征S。等式4可以简化为下列:
在这里插入图片描述

基于以上思想,我们提出GSRM,它由两个关键部分组成:可视化语义嵌入模块(visual-to-semantic embedding block)和语义推理模块(semantic reasoning block)。
 visual-to-semantic embedding block是用来生成e’,具体的结构如图5所示:
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译_第7张图片
由于PVAM,我们得到的特征在每个时间段已经对其了。对齐的特征G首先送入全连接层和嵌入损失Le,交叉熵损失是利用的,求和使它更关注目标字符。
在这里插入图片描述
然后嵌入向量e’t基于近似输出字符gt计算得出。
 Semantic reasoning block服务于实现全局语义推论,也就是等式4的函数fr。GSRM的结构如图5所示。e’之后是几个变形单元,这允许模型高效的感知全局语义信息。同时,初级的关系和高级的关系(如word semantic)可以被多个变形单元建模。最后,每一步的语义特征通过这个模块输出,定义为S。同时,损失Lr加上s,目标函数可以定义为:
在这里插入图片描述
交叉熵损失从全局信息的角度来最小化目标函数,这也帮助减少收敛时间。

你可能感兴趣的:(深度学习)