提高OCR识别率的一些菜鸟方法

  1. 原稿的质量直接影响到最后OCR的正确率,因此先要适当调整原稿。对于低质量稿件,可考虑在扫描前用复印机先行复印并适当调节对比度和亮度,使背景变成白色,而文字色泽保持黑色即可。经过复印以后的报纸,OCR的识别率有明显的提高。
  2. 扫描过程中一定要将原稿摆正,否则OCR软件将无法正确识别。如果无法将原稿摆正,可使用 “自动倾斜校正”或者“手动纠斜”功能纠正字体的倾斜。选择适当的扫描参数也很重要,一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比度对文字的正确识别非常关键,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描,从而对图像的亮度进行更为细致的调节,调节的工具是扫描仪工具内的“阀值”。
  3. 对于分辨率,原则上不求最“高”,只求最“佳”。若分辨率太高,扫描时间将会增加,图形所需的空间也会成倍地增长;若分辨率太低,识别率就不会很高。一般普通五号印刷体采用250~300dpi;若字号较大 (四号以上),用150~200dpi就足够了;如果是六号或七号等小字体,就要考虑使用400~600dpi。如果印刷字迹比较模糊,或笔划较多的识别文本,应适当提高扫描的分辨率。
  4. 扫描后,观察图像是否有污点现象,如有则使用图像处理软件将污点擦去。同时如果有图像存在,也会影响OCR的文字切分,可使用 “图像的块擦拭”工具将文档中的图像去除。此外,还应采用适当的辨识方式,注意稿件是横排还是竖排,可选择合适的编排格式按钮,以保持对应。如有必要还可进行版面分析,否则识别结果会有大量的空格,而OCR通常也将空白处作为识别对象。自动识别虽可很好地解决这一问题,但也常把不应分开的区域分开,造成识别结果的错误和颠倒。这时可结合自动分析与手工分析,将不恰当的版面分析删除。最后,再次适当地调节对比度和亮度,增加文字和背景的对比度,从而最终达到95%以的识别率。       

你可能感兴趣的:(网络技术)