文章的题目是:
《MBLLEN: Low-light Image/Video Enhancement Using CNNs》
这是一篇2018年6月份的BMCV(视觉顶刊)使用CNN做图像弱光增强的一篇会议文章,针对单分支或简单神经网络不能同时进行亮度、对比度增强和伪影去除、降噪等多功能需求,文章提出一种多分支弱光增强网络模型–MBLLEN。通过CNN卷积层将图像丰富的特征提取到不同的层次,使用多个子网进行同时增强,最后将多分支输出结果融合成最终增强图像,达到从多方面提高图像质量的效果,另外文章所提模型可以扩展到弱光视频增强。总结一下,文章在使用CNN做弱光增强时,做了以下三点创新:
做弱光增强的大体上可分为两个方面:传统方法和深度学习的方法
传统算法可分为基于直方图均衡化方法和基于Retinex理论对光照估计区域增强的方法
一般是针对弱光照数据集(有Label图像),端到端的从弱光图像学习正常光照图像,效率高泛化能力强但对于硬件要求较高,前人提出很多优秀的神经网络结构,如下:
另外,文章指出很多神经网络在弱光增强的同时没有实现去噪功能,在弱光视频增强时会出现**flickering(闪烁)**现象。
MBLLEN模型由三个部分构成:特征提取模块(FEM)、增强模块(EM)、融合模块(FM)。
由单向10层网络结构构成,32个3×3卷积核,卷积步长为1,ReLU激活函数,没有池化处理表面特征损失。每一层的输出同时是下一个FEM卷积层的输入和EM对应卷积层的输入。
包含和FEM卷积层相同数量的子网络,子网络结构相同,都是1卷积层(8个3×3卷积核、步幅为1、ReLU激活函数)+3卷积(16个5×5卷积核、步幅为1、ReLU激活函数,每一层输出尺寸是减小的应该是没有padding=0,)+3反卷积(5×5卷积核个数分别为16/8/3、步幅为1、ReLU激活函数)
融合所有从EM子网输出的图像,使用3通道1×1卷积核卷积得到最终增强结果。
对于视频增强,需要对模型修正,用3D卷积代替2D卷积(16核大小为3×3×3尺寸),第一层输入为31帧图像。后面都是对三维图像流进行处理。
常用的MSE和MAE损失函数不足以表达图像丰富的特征,文章提了一个新的损失函数,包括结构损失、内容损失和区域损失。
反向传播作用过程如下图:
公式为:
L o s s = L S t r + L V G G / i , j + L R e g i o n Loss=L_{Str}+L_{VGG/i,j}+L_{Region} Loss=LStr+LVGG/i,j+LRegion
第一项:Structure loss
结构损失主要减小增强图像对于Label图像的结构扭曲和畸变,借用LLCNN中的SSIM损失函数,文章使用SSIM和MS-SSIM之和表示结构损失,公式如下:
L S t r = L S S I M + L M S − S S I M L_{Str}=L_{SSIM}+L_{MS-SSIM} LStr=LSSIM+LMS−SSIM其中: L S S I M = − 1 N ∑ p ∈ i m g 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 ⋅ 2 σ x y + C 2 σ x 2 + σ y 2 + C 2 L_{SSIM}=-\frac{1}{N}\sum_{p\in img}^{ }\frac{2\mu _{x}\mu _{y}+C_{1}}{\mu _{x}^{2}+\mu _{y}^{2}+C_{1}}\cdot \frac{2\sigma _{xy}+C_{2}}{\sigma _{x}^{2}+\sigma _{y}^{2}+C_{2}} LSSIM=−N1p∈img∑μx2+μy2+C12μxμy+C1⋅σx2+σy2+C22σxy+C2
第二项:Context loss
像MSE和SSIM这样的度量标准只关注图像中的低级信息,为了使用某种高级信息来提高视觉质量。文章借鉴了论文SRGAN的idea(增强图像和Label图像应该有相识的高级图像内容),使用一个内容提取器表征增强图像的输出。通过最小化增强图像和Label图像在预训练VGG-19网络输出的绝对差值,表征增强图像的内容损失。公式如下:
L V G G / i , j = 1 W i , j H i , j C i , j ∑ x = 1 W i , j ∑ y = 1 H i , j ∑ z = 1 C i , j ∥ Φ i , j ( E ) x , y , z − Φ i , j ( G ) x , y , z ∥ L_{VGG/i,j}=\frac{1}{W_{i,j}H_{i,j}C_{i,j}}\sum_{x=1}^{W_{i,j}}\sum_{y=1}^{H_{i,j}}\sum_{z=1}^{C_{i,j}}\left \| \Phi _{i,j}(E)_{x,y,z}-\Phi _{i,j}(G)_{x,y,z} \right \| LVGG/i,j=Wi,jHi,jCi,j1x=1∑Wi,jy=1∑Hi,jz=1∑Ci,j∥Φi,j(E)x,y,z−Φi,j(G)x,y,z∥式中, E E E和 G G G分别表示增强图像和Label图像, W i , j W_{i,j} Wi,j、 H i , j H_{i,j} Hi,j、 C i , j C_{i,j} Ci,j分别表示预训练VGG网络的三通道的对应特征图维度。 Φ i , j \Phi _{i,j} Φi,j表示VGG-19网络第 j j j卷积层、第 i i i块的特征图。
第三项:Region loss
以上两项损失函数都是考虑图像整体特征的差异,考虑到弱光图像光照不均匀性,文章提出区域损失来提升弱光区域质量。文章通过分割图像40%(经验值)最暗像素值来近似估计整图暗光区域,得到如下损失函数:
L R e g i o n = w L ⋅ 1 m L n L ∑ i = 1 n L ∑ j = 1 m L ( ∥ E L ( i , j ) − G L ( i , j ) ∥ ) + w H ⋅ 1 m H n H ∑ i = 1 n H ∑ j = 1 m H ( ∥ E H ( i , j ) − G H ( i , j ) ∥ ) L_{Region}=w_{L}\cdot \frac{1}{m_{L}n_{L}}\sum_{i=1}^{n_{L}}\sum_{j=1}^{m_{L}}(\left \| E_{L}(i,j)-G_{L}(i,j) \right \|)+w_{H}\cdot \frac{1}{m_{H}n_{H}}\sum_{i=1}^{n_{H}}\sum_{j=1}^{m_{H}}(\left \| E_{H}(i,j)-G_{H}(i,j) \right \|) LRegion=wL⋅mLnL1i=1∑nLj=1∑mL(∥EL(i,j)−GL(i,j)∥)+wH⋅mHnH1i=1∑nHj=1∑mH(∥EH(i,j)−GH(i,j)∥)式中, E L E_{L} EL和 G L G_{L} GL分别表示增强图和Label图的弱光区域, E H E_{H} EH和 G H G_{H} GH分别表示增强图和Label图的其他区域,系数 w L w_{L} wL和 w H w_{H} wH设为4和1.
文章是通过在PASCAL VOC数据集基础上合成的方法得到弱光照数据集对的,用于合成的图像作为Label图像,通过对两个方面处理模拟弱光照条件:
图像质量评估标准,有PSNR、SSIM、AB(Average Brightness)、VIF(
Visual Information Fidelity)、LOE和TMQI。
文中使用差不多十种对比方法来做对比实验,分为四个不同场景:
1、弱光场景
2、弱光含噪声场景
3、真实弱光场景
4、视频场景
下面贴出一幅弱光场景对比实验效果图:
明显看到,使用MBLLEN方法得到增强图像对于其他增强方法的优越性,我觉得如果能在同一数据集情况下,和主流深度学习方法作对比就更好了,如LLNet、LLCNN、Retinex-Net等。
待续…