2020 Radical analysis network for learning hierarchies of Chinese characters学习

Abstract

汉字是宝贵的财产,在于其由基础字根库和结构化的字形构成了庞大的汉字数量。本文引入RAN(radical analysis network自由基分析网络或字根分析网络)充分利用上述特征来实现汉字的识别。RAN使用注意力机制实现汉字字根的提取和字根间的空间结构特征(字形特征)。然后RAN解码出包含已提取字根和字形特征的汉字层次结构。把汉字看做由字根构成比把每个汉字看成一个整体更受人们欢迎,因为它既能大大降低词汇量,还能忽视形近字的冗余信息,并且使得系统能识别未见过的字,例如零基础学习。文中介绍的方法获得了自然场景文本行识别竞赛MTWI 2018的冠军,突出了该算法较基于整字建模的中文识别算法的优势。通过实验,我们评估RAN在自然场景的的实际表现,此外,新增denseRNN编码器,多注意力机制和HSV表示的RAN可用于场景文本识别。

你可能感兴趣的:(2020 Radical analysis network for learning hierarchies of Chinese characters学习)