《深度实践OCR:基于深度学习的文字识别》----在读

第二章:图像预处理

主要为:二值化、去噪、倾斜角检测校正。

2.1 二值化(Image Binarization)

二值化指将像素点的灰度值设为0或255,使图像呈黑白效果。可以减少维度、排除噪声干扰。
分为:全局阈值方法、局部阈值方法、基于深度学习的方法等。
1、全局阈值方法
1)固定阈值
《深度实践OCR:基于深度学习的文字识别》----在读_第1张图片
缺点:很难为不同的输入图像确定最佳阈值。
2)Otsu算法(最大类间方差法)
自适应的阈值确定方法。将输入图像视为L个灰度级,得到最佳的k值选择。
代码参考ch2_Otsu.py《深度实践OCR:基于深度学习的文字识别》----在读_第2张图片
2、局部阈值方法
1)自适应阈值
使用积分图(Integral Image)。
思想:以一个像素点为中心设置大小为s*s的滑窗,滑窗扫过整张图像,对窗口内的像素求均值将均值作为局部阈值。像素值低于局部阈值t/100,则为0,高于则为255。
2)Niblack算法
根据窗口内的像素值计算局部阈值,不同的是不仅考虑区域内像素点的均值和方差,还事先设定修正系数k决定影响程度。
缺陷:滑窗会导致在边界区域的像素范围内无法求取阈值;如果滑窗内全部是背景,会使一部分像素点成为前景,形成伪噪声。
3)Sauvola算法
针对文档二值化处理。
4)基于深度学习的方法

2.2 平滑去噪

好的去噪方法在去除噪声的同时,还需保持图像的边界和细节。
1、空间滤波
1)线性空间滤波器
2)非线性空间滤波器
2、小波阈值去噪
3、非局部方法
1)NL-means(非局部均值算法)
《深度实践OCR:基于深度学习的文字识别》----在读_第3张图片
2)BM3D(Block-Matching and 3D Filtering)
当前最好的算法之一,和NL-means算法都运用了非局部匹配的思想,但复杂度高于NL-means。
4、基于神经网络的方法
1)MLP
2)LLNet(Low-Light Net)
通过引入序贯相似性检测算法(Stacked Sparse Denoising Autoencoder, SSDA)的思想实现低噪度图片的自适应增强(增亮、去噪)。

2.3 倾斜角检测和校正

常见的方法有霍夫变换(Hough Transform)、Randon变换(Randon Transform)和基于PCA(Principal Component Analysis)方法等。
《深度实践OCR:基于深度学习的文字识别》----在读_第4张图片

你可能感兴趣的:(深度学习,读书笔记,深度学习,计算机视觉,opencv)