二值化图像去除小黑点_OCR图像预处理小结

二值化图像去除小黑点_OCR图像预处理小结_第1张图片

图像预处理总结

识别文字前,我们要对原始图片进行预处理,以便后续的特征提取和学习。我们使用的OCR引擎使用tesseract,已内置二值化、降噪功能,由于扫描版pdf不会出现光照不均衡、页面透视变换等情况,因此预处理的重点会放在角度矫正、图章去除、打印痕迹干扰等问题上。

通用型预处理

  • 图像角度倾斜矫正,其中
  • 通过霍夫变换得到直线方向的众数从而得到旋转角度

二值化图像去除小黑点_OCR图像预处理小结_第2张图片
  • 通过画最小外接矩形得到旋转角度

二值化图像去除小黑点_OCR图像预处理小结_第3张图片
  • 黑边去除

二值化图像去除小黑点_OCR图像预处理小结_第4张图片

非通用型图像预处理

  • 红色印章:取红通道做OCR

二值化图像去除小黑点_OCR图像预处理小结_第5张图片
  • 打印痕迹干扰,使用双边滤波进行降噪,既保留了字体的轮廓,又去掉了打印痕迹干扰

二值化图像去除小黑点_OCR图像预处理小结_第6张图片
  • 图像退化、不清晰,高反差保留得到文字轮廓信息,与原图进行图层叠加

二值化图像去除小黑点_OCR图像预处理小结_第7张图片

你可能感兴趣的:(二值化图像去除小黑点)