深度学习抠图——手写文本提取

CVPR2020论文:Text Extraction and Restoration of Old
Handwritten Documents

1.主要内容:
a. 构建了一个训练用数据集,采用半自动方法生成ground truth。
b. 提出了一种重建高质量手稿图像的方法。全卷积自编码器来提取退化图像的字符文本(前景),并用高斯混合模型进行背景重建,最后,将字符文本和背景进行融合生成重建图像。
c. 进一步对该方法进行了改进。即采用深度卷积网络代替高斯混合模型进行背景重建。减少了图像重建过程中人为干预,提高了自适应程度。

2.图像重建的主要步骤:

深度学习抠图——手写文本提取_第1张图片

a. 图像预处理
将RGB彩色图像转换为灰度图像。
当背景为亮调时,采用公式:
在这里插入图片描述
当背景为暗调时,采用公式:
在这里插入图片描述
b. 字符文本提取(自编码器)
深度学习抠图——手写文本提取_第2张图片
输入图像为256*256的灰度图,编码器为4层conv,解码器为6层conv。每层步幅为2,最后两层步幅为1。采用tanh激活函数,最后一层采用sigmoid使输出在(0,1)范围内。
目标损失函数采用 Structural dissimilarity(DSSIM)函数(因为结构特征比颜色特征重要),其原理参见论文[Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P.: Image quality assessment:from error visibility to structural similarity. IEEE transactions on image processing13(4), 600–612 (2004)]
深度学习抠图——手写文本提取_第3张图片
深度学习抠图——手写文本提取_第4张图片
c. 前景图像重建(即将上一步提取的灰度图还原初始颜色)
深度学习抠图——手写文本提取_第5张图片
还原过程主要是根据输入原始图像和提取的字符灰度图像进行数学乘积运算,公式如下:
在这里插入图片描述
γ值为(0,1)的常数,主要功能是将图像阶调变暗。
d. 图像背景重建
文章认为退化的手写稿图像的信息符合混合高斯分布,主要包含4个部分:前景(即文字),背景(即纸张颜色), 背影(即指两面写的手稿,其反面的字迹透印到正面了),噪声。其主要还原过程(基于高斯混合模型的聚类):
深度学习抠图——手写文本提取_第6张图片
K代表类别,因为其信息分为4个部分,故将K人为定为4。

然后,将颜色向量c(R,G,B)按照公式(1)转化为灰度平均值。值最小的为前景(即字符文本,因为字符颜色暗),值最大的为背景(背景像素点最多,颜色亮)。介于两者之间的为背影(即指两面写的手稿,其反面的字迹透印到正面了),噪声。之后,利用高斯分布重建和原输入图像尺寸一致的背景图像。最后,用高斯模糊进行平滑处理,即得最后重建背景图像。
e. 后处理
前景和背景进行融合得到最终重建图像。将前景叠加到背景上。

3.改进后的方法

深度学习抠图——手写文本提取_第7张图片
分为前景重建网络和背景重建网络,两个网络结构相同,为平行关系。网络结构的变化主要在于输入为3通道图像,损失函数不变。
深度学习抠图——手写文本提取_第8张图片

你可能感兴趣的:(深度学习--抠图,深度学习,神经网络)