《Colorful Image Colorization》论文解读

本篇paper提出一种 前向encoder+ 反向decoder+ab概率分布预测的网络结构,首先预测出ab通道的概率分布,之后转成ab色道具体值,此外本文的思路可概括为3点:设计损失函数 +加权平滑像素损失 + 概率分布转点估计。

       [1]设计损失函数时,首先将ab通道的输出空间以10为步长量化为Q=313类(两个色道ab轴的值一起预测的),计算损失时将标签色值也转换到313厚度的概率空间上,在倒数第二层进行训练,使用多分类交叉熵作为损失函数来对概率分布网络进行优化(64*64图上每个色素分布都可以知道,但是为什么可以直接从64*64变成224*224?不知)。

《Colorful Image Colorization》论文解读_第1张图片

《Colorful Image Colorization》论文解读_第2张图片

          [2]由于云朵、路面、沙漠等经常大面积地作为背景出现在图片中,自然图像中ab色道的取值倾向于较小的方向。下图是从130万的数据集中统计的ab取值分布,可以发现自然图片中取值都集中在不饱和区域,如果不考虑这个问题,那损失函数将会被不饱和的值主导。          

         因此本文使用一种加权平滑像素损失的方式,在训练的时候为每个像素的loss重新调整权重,这个权重的大小是基于像素颜色的稀有度来设置的,通过统计ImageNet训练集的色彩概率分布,我们可以获取色素的稀有程度,使用类似于代价敏感的方法,对于越稀有的色素给予更大的权重和关注力,从而实现平滑的效果。

《Colorful Image Colorization》论文解读_第3张图片

          [3]在将ab色道概率分布转换成ab色道值时,可以有两种方式,一种是直接取每个色素概率最大的值作为预测值,对应T=0,颜色较为鲜艳,但会出现色彩不连续,另一种是取预测分布的平均值,对应T=1,无色彩不连续现象,但是色彩较为不饱和,因此这里使用一种比较持重的、模拟退火的算法找到一个偏向最优的平衡点T=0.38。

《Colorful Image Colorization》论文解读_第4张图片

 

你可能感兴趣的:(《Colorful Image Colorization》论文解读)