A Transformer-based Radical Analysis Network for Chinese Character Recognition

研究目的

 

RAN(一种新颖的部首分析网络 ) 可以自适应地关注汉字中最相关的部分来描述部首。同时,它还可以检测部首之间的相对空间关系。 能够有效地识别看不见的汉字类别,并通过将汉字视为部首的分层组合而不是单个字符类别,大大降低了训练数据的需求。但是,在处理例如复杂字符的识别、低频字符类别、自然场景中的字符识别,RAN仍有很大的提升空间。

解决方案

基于self-attention的 Transformer 允许输入序列中的每个元素建立连接并找出他们应该更多关注的地方,可以轻松捕获序列中详细的内部模式和长期依赖关系。因此,Transformer 可以比 RAN 更好地学习内部组成规则

使用 Transformer 架构进将 RAN 中的原始注意力模块替换为 Transformer 解码器,更好地泛化到复杂样本和低频字符,在识别具有不同属性的汉字方面具有更好的鲁棒性。

方法

A Transformer-based Radical Analysis Network for Chinese Character Recognition_第1张图片

RTN 模型采用编码器-解码器架构,如图所示它包含两个部分:

(1)Dense编码器,将图像作为输入以产生固定长度的上下文向量;

(2)Transformer 解码器,以上下文向量为输入,生成可变长度符号序列

Dense编码器:

        采用DenseNet作为编码器从图像中提取高级视觉特征,我们将得到 D × H × W 的tensor转化为大小为 D × L ( L = H × W)的tensor,然后进行线性变换。数组中的每个元素都是对应于图像局部区域的 D 维向量:

        \mathbf{A}=\left\{\mathbf{a}_{1}, \ldots, \mathbf{a}_{L}\right\}, \mathbf{a}_{l} \in \mathbb{R}^{D}

Transformer 解码器:

        Transformer解码器由堆叠的相同的block组成。每个block包含三层:(a)decoder self-attention layer; (b) encoder-decoder attention layer; (c) feed-forward layer。分析汉字的内部层次部首结构,并生成相应的空间结构和部首序列。

可视化

A Transformer-based Radical Analysis Network for Chinese Character Recognition_第2张图片

A Transformer-based Radical Analysis Network for Chinese Character Recognition_第3张图片

 

 

你可能感兴趣的:(论文笔记,深度学习)