-相邻密集文本单元间存在部分背景区域,即文本与文本之间的边界区域,如图3-4所示,边界区域并不单独存在,边界区域一定由两个相邻文本单元共同决定,相邻文本单元共同决定边界区域的位置、大小,同时边界区域的位置和大小反应了相邻文本单元的位置和关系。边界区域可以表征相邻文本之间的排斥关系,排斥关系在区分不同文本实例过程有极其重要的作用,如图3-5
所示,依赖于边界区域可将粘连部分去除,从而将紧密相邻的文本分割预测结果区分开,这是本文考虑解决分割区域粘连问题的出发点和思路。
如图3-19所示,先将同一张文本图片分别输入两个文本识别网络(使用不同超参数训练的CRNN改进模型),得到模型预测结果prediction1
和prediction2,以及各自的置信度align score1和align score 2,根据align score1和align score2的大小确定最终的识别结果。通过align score分数来选择置信度较高的识别结果,能够提高网络整体识别精度,确保识别结果的准确性。
本章首先介绍票据文本检测算法框架,针对分割方法存在的文本区域粘连问题,设计基于建模相邻文本单元间边界的文本检测算法框架,使用文本单元间边界的预测解决文本区域预测的粘连问题;针对二值化操作不可导,无法嵌入网络中导致训练不完全的问题,借鉴廖明辉等人[22]的DifferentiableBinarization思想,引入可微分的二值化模块,完成基于分割的票据文本检测算法框架设计。另外详细地介绍了方法设计思路、训练标签制作以及网络推理过程。
然后介绍对CRNN网络的改进设计,设计增加Inception模块和CReLU模块,提高网络的识别精度;并设计align
score集成策略,进一步提高票据文本的识别准确率,其中主要对align score的设计思路和计算方法进行了详细说明。
本章设计的高精度票据文本检测与识别算法,为本文提出的基于深度学习的票据识别系统构建奠定了模型基础。本文设计的各个模块均可方便的移植到其它文本检测和识别网络,具有良好的通用性和可移植性。