tesseract提高图片质量

一.官方文档

https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

二.提高输出质量

因为采集的图片会出现阴影、倾斜、边角等,所以先对图片进行预处理,官方推荐的方法如下

1.图像处理
  • 改变尺寸
  • 二值化
  • 噪声去除
  • 旋转/抗扭斜
  • 除边界
  • 工具/库
  • 例子
2.页面分割方法
3.词典、单词列表、模式


改变尺寸:
Tesseract要求图片至少在300dpi,这样才能更好的调整图片。


二值化:
将图像转换为黑白
tesseract提高图片质量_第1张图片


噪声去除:
噪声是图片上随机变化的亮度和颜色,会造成图像阅读文本困难。某些噪声在二值化之后也不能被Tesseract移除,导致准确率下降。
tesseract提高图片质量_第2张图片


旋转/抗扭斜:
歪斜的图像是指扫码的图像不是正直的。如果一个页面特别倾斜,Tesseract’s 的分隔会大大降低,严重影响OCR质量。根据文本的行是值的去旋转图像。
tesseract提高图片质量_第3张图片


除边界:
扫描的页面边界四周通常是黑暗的。将导致获取错误的字符,尤其它们是不同的形状和渐变。
tesseract提高图片质量_第4张图片


工具/库:

  • Leptonica
  • OpenCV
  • Scan Tailor
  • ImageMagick
  • unpaper
  • ImageJ
  • Gimp


例子
如果你想以编程的方式提成图像质量,看下面的例子:

  • OpenCV - Rotation (Deskewing) - c++ example
  • Fred’s ImageMagick TEXTCLEANER - bash script for processing a scanned document of text to clean the text background.
  • rotation_spacing.py - python script for automatic detection of rotation and line spacing of an image of text
  • crop_morphology.py - Finding blocks of text in an image using Python, OpenCV and numpy
  • Credit card OCR with OpenCV and Python

你可能感兴趣的:(tesseract)