OCR工作的总结

OCR工作总结

一、简介

  OCR 是实时高效的定位与识别图片中的所有文字信息,返回文字框位置与文字内容。支持多场景、任意版面下整 图文字的识别,以及中英文、字母、数字的识别。通俗的来说,就是将图片上的文字内容,智能识别成为可编辑的文本。

二、原理

  OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术:文本检测和文字识别。先将图像中的特征的提取并检测目标区域,之后对目标区域的的字符进行分割和分类。
  以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。
  首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。

三、难点

  复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺,等等。

四、算法方案

  开源最广:ctpn+crnn
  代码链接:https://github.com/xiaofengShi/CHINESE-OCR
  有大佬的测试结果:https://www.cnblogs.com/skyfsm/p/10345305.html

之前看到腾讯云里有一个ocr优化方向的文章,最近又找不到。

  训练数据生成代码的链接:https://github.com/Sanster/text_renderer
  OCR工作难点可参考:https://cloud.tencent.com/developer/article/1080576?from=information.detail.%E8%85%BE%E8%AE%AF%E4%BA%91%E7%9A%84%E8%BA%AB%E4%BB%BD%E8%AF%81ocr%E8%AF%86%E5%88%AB

你可能感兴趣的:(ocr,图像识别,算法)