基于深度学习的图像文字识别技术

基于深度学习的图像文字识别技术
【写在前面】
文字是人们在社会交流和通信中必不可少的信息载体,它在生活中以图片或者文本的形式大量存在。在我们的生活中有许多文字识别技术的运用,这周我开始了解图像文字识别技术,查阅了一些相关文献,以下是我对图像文字识别技术的认识以及我看文献后的感受。

1、什么是图像文字识别技术?
把图像中的文字检测识别出来,转化为电子文本,这个过程就是图像文字识别,或称为OCR光学字符识别(Optical Character Recognition)。

2、文字识别技术在生活中的运用:
1)、纸质文档电子化:纸质文档在现实中大量存在,包括我们写的字体、过去出版的各种书刊、杂志、报纸,票据、证件等,如果我们人工输入费时费力是不现实的,就需要通过文字识别技术来自动识别。
2)、用于识别车牌、标识、标牌等,自动识别技术对智能交通、地图信息采集、社会管理等非常重要。
3)、用于场景图像和合成文档图像,在生活中的实景中需要翻译的英语等其他语言。

3、文字识别技术的原理
基于深度学习的图像文字识别技术_第1张图片
1).图像预处理(image pretreatment):主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性、最大限度地简化数据,从而改进特征提取、图像分割、匹配和识别的可靠性。
一般的预处理流程为:1灰度化->2几何变换->3图像增强
基于深度学习的图像文字识别技术_第2张图片

2)、文本检测(text detection):将图片上的文字和其他环境对象分离开。比如下图红色框是被忽略舍弃的,绿色框内是要被识别的。
基于深度学习的图像文字识别技术_第3张图片

3)、字符分割(character segementation):将文字分割成一个个单一的字符。
基于深度学习的图像文字识别技术_第4张图片

4)、字符分类(character classification):确定每一个字符是什么。
基于深度学习的图像文字识别技术_第5张图片

4、图像文字识别技术的不足:
1)、复杂版本分析能力不足。目前的深度学习方法难以解决任意模式的文档的分割问题。
2)、识别精度和置信度不够。自由书写和图片质量退化的场合识别率会下降,导致用户认可度低。
3)、小样本泛化能力不足。深度神经网络的泛化性能是依靠大规模数据集训练的。有些应用场合难以收集标注的大量样本来训练识别模型,如隐私的信息、日常生活中不常见的文档(中文古籍等),在这种较少样本的情况下训练很难得到很高的识别率。
4)、图形符号识别性能不足。图文混合文档中存在的表格、公式、流程图、签名印章等还不能得到满意的识别性能。
5、阅读完文献的感想
文献主要介绍了图像文字识别技术的总体概况及当前面临的不足问题并其展望未来的趋势。在阅读文献时,有许多的专业术语没有听过,图像文字识别技术的每一个步骤都是基于深度学习算法的一个个深度的领域,深入研究每一个领域都很难。以上只是对其表面上的认识,如有不当,请多多指教。

关于毕业设计选择的课题我还没有想好,关于物联网工程的一些专业课RFID射频识别、信号与系统、单片机等还未学到,现在也想多阅读文献资料来拓宽视野。等到大概了解掌握专业课之后,再把专业知识引入毕业设计的课题中去。

【参考文献】:
[1]刘成林,文档图像识别技术回顾与展望,数据与发展前沿,[J],2019,1(2):17-25.
[2]王德青,吾守尔 .斯拉木,许苗苗,场景文字识别技术研究综述,计算机工程与应用,2020,56(18):1-15.

你可能感兴趣的:(基于深度学习的图像文字识别技术)