dpfnet

论文阅读之:DPFNet: A Dual-branch Dilated Network with Phase-aware Fourier Convolution for Low-light Image Enhancement

代码:https://github.com/Zhuangyunliang/DPFNet

问题:

该领域常用的卷积神经网络擅长对空间域的低频局部结构特征进行采样,这导致了重建图像的纹理细节不明确。

解决:

  1. 我们提出了一种利用傅里叶系数的新模块,该模块可以在频率相位的语义约束下恢复高质量的纹理细节,并补充空间域。

  2. 我们设计了一个简单有效的图像空间域模块,利用不同接受域的扩张卷积,以减轻频繁降采样造成的细节损失。

我们将上述部分集成到一个端到端双分支网络中,设计了一个新的损失函数和一个自适应融合模块,引导网络灵活地结合空间域和频域特征,产生更好视觉效果。

创新:

  • phase-aware Fourier convolution module(在图像傅里叶空间中重构在相位语义信息引导下的高频纹理细节,以补充空间域)
  • 我们将空间域和频域增强集成到一个端到端双分支网络中。该网络能够集成低频和高频信息,同时捕获本地和全局交互。
  • 我们提出一个傅里叶损失,以平衡空间和频域的特征,以恢复自然图像。

框架

dpfnet_第1张图片

方法

DPFNet主要由两个特征增强流一个特征融合流组成。DPFNet的每个部分的设计:

the phase-aware Fourier convolution module (PFM)

作用:在傅里叶域生成包含更多的全局和高频细节(上流),目的是在频域信息的辅助下恢复高频纹理细节,以补充空间域。

输入 输出 函数 作用 备注
l l o w l_{low} llow fft的频域 F ( u , v ) \mathcal{F}(u, v) F(u,v) F P \mathcal{F_P} FP, F A \mathcal{F_A} FA F ( u , v ) = ∑ x , y I l o w ( x , y ) e − j 2 π ( u M x + v N y ) \mathcal{F}(u, v)=\sum_{x, y} I_{l o w}(x, y) e^{-j 2 \pi\left(\frac{u}{M} x+\frac{v}{N} y\right)} F(u,v)=x,yIlow(x,y)ej2π(Mux+Nvy) 任意频率的频谱包含了空间位置下的全局信息。 F P \mathcal{F_P} FP:(相位)语义结构 F A \mathcal{F_A} FA:颜色纹理(振幅)
F P \mathcal{F_P} FP, F A \mathcal{F_A} FA F P \mathcal{F_P} FP, F A \mathcal{F_A} FA PFM(三个相同的复杂的结构) F P ← ϕ ( F P ) + ψ ( F A ) F A ← ϕ ( F A ) − ψ ( F P ) \begin{array}{l}\mathcal{F}_{P} \leftarrow \phi\left(\mathcal{F}_{P}\right)+\psi\left(\mathcal{F}_{A}\right) \\\mathcal{F}_{A} \leftarrow \phi\left(\mathcal{F}_{A}\right)-\psi\left(\mathcal{F}_{P}\right)\end{array} FPϕ(FP)+ψ(FA)FAϕ(FA)ψ(FP) 能增强阶段性语义指导,这是通过两种不同的实值卷积运算来实现的,其中实值卷积的滤波器的参数是共享的 ϕ ( ⋅ )  and  ψ ( ⋅ ) \phi(\cdot) \text { and } \psi(\cdot) ϕ() and ψ()是两个不想关的函数
F P \mathcal{F_P} FP, F A \mathcal{F_A} FA F f \mathcal{F_f} Ff F f = i F F T ( F A + j F P ) F_{f}=i F F T\left(\mathcal{F}_{A}+j \mathcal{F}_{P}\right) Ff=iFFT(FA+jFP) 将频率的增强频谱重构到空间域 其中j是复值虚部的单位

dpfnet_第2张图片

多层次扩张卷积(MDCM)

在空间域(底部流)中聚合了不同感受野下的局部上下文和内容特征。

dpfnet_第3张图片

F s = ϕ ( cat ⁡ [ D B n ( D B n − 2 ( F local  ) ) , D B n − 2 ( F local  ) , F local  ] ) ⊕ F low  F_{s}=\phi\left(\operatorname{cat}\left[D B_{n}\left(D B_{n-2}\left(F_{\text {local }}\right)\right), D B_{n-2}\left(F_{\text {local }}\right), F_{\text {local }}\right]\right) \oplus F_{\text {low }} Fs=ϕ(cat[DBn(DBn2(Flocal )),DBn2(Flocal ),Flocal ])Flow 

式中,n表示DB中扩张卷积的膨胀率。受[14]的启发,我们在每个DB中添加了一个与膨胀率= n + 1的卷积,以缓解网格伪影。

自适应融合模块(AFM)

融合了空间域和频域特征,以避免过度增强的伪影,重建了更自然、高 质量的图像。有效地混合重建高质量的特性保持良好的可见性,我们拼接频率流的提取特征 F f F_f Ff和空间流的特征 F s F_s Fs通道维度。并且喂入一个卷积层去学习两个重要指标 w f , w s w_f,w_s wfws,可以表示为:

w f , w s = softmax ⁡ ( Conv ⁡ ( cat ⁡ [ F f , F s ] ) ) w_{f}, w_{s}=\operatorname{softmax}\left(\operatorname{Conv}\left(\operatorname{cat}\left[F_{f}, F_{s}\right]\right)\right) wf,ws=softmax(Conv(cat[Ff,Fs]))

其中,Conv(·)为两个内核为3×3的卷积层。在重要性索引中,每个像素被分配一个对应的权值,该权重由对应的特征元素乘以每个元素来重构输出。恢复过程的定义如下:

I n o r m = R B × 2 ( F f ⊗ w f ⊕ F s ⊗ w s ) I_{n o r m}=R B_{\times 2}\left(F_{f} \otimes w_{f} \oplus F_{s} \otimes w_{s}\right) Inorm=RB×2(FfwfFsws)

其中,⊗表示元素乘法,⊕表示元素加法。注意,输出通过两个残差块(RB)生成最终结果Inorm,以捕获图像增强的细微变化,使增强的图像看起来自然。

3.4 Loss Function

我们通过了一个损失组,由三个部分组成,每个部分都有特定的能力

SSIM Loss

由于低光图像的退化与许多不同的因素有关,使用 l 1 l_1 l1 l 2 l_2 l2作为损失函数会导致不同程度的失真,并不能给出最理想的结果。相比之下,我们采用SSIM损失来整体评估亮度、对比度和结构等差异。具体来说, l s l_s ls被定义为 L s = 1 − SSIM ⁡ ( I n o r m , I g t ) \mathcal{L}_{s}=1-\operatorname{SSIM}\left(I_{n o r m}, I_{g t}\right) Ls=1SSIM(Inorm,Igt).其中, I n o r m I_{norm} Inorm I g t I_{gt} Igt表示增强的图像和地面真相,SSIM(·)表示SSIM [39]操作符.

Fourier Loss.

为了提高我们提出的模型对频率特征的敏感性,我们提出了一种基于频域空间的傅里叶损失 L f L_f Lf)来指导模型重建高频细节。 L f L_f Lf可以看作是地面真实值与增强图像之间的频率距离的加权平均值,即为 L f = 1 N ∑ i = 0 N ∥ c a t [ I g t A , I g t P ] − c a t [ I n o r m A , I n o r m P ] ∥ 2 \mathcal{L}_{f}=\frac{1}{N} \sum_{i=0}^{N}\left\|c a t\left[I_{g t}^{A}, I_{g t}^{P}\right]-c a t\left[I_{n o r m}^{A}, I_{n o r m}^{P}\right]\right\|^{2} Lf=N1i=0N cat[IgtA,IgtP]cat[InormA,InormP] 2, I g t A , I g t P I_{g t}^{A}, I_{g t}^{P} IgtA,IgtP通过FFT变换表示地面真实图像的振幅和相位分量,它们在通道维度上连接在一起,共同最小化地面真实图像与增强图像之间的间隙。

Perceptual Loss.

我们引入感知损失( L p L_p Lp)[8]作为一种感知措施来利用图像的语义信息,提高增强图像的视觉质量。具体来说,我们使用欧氏距离来计算特征图之间的差值,公式定义如下: L p = 1 W H C ∥ ϕ ( I g t ) − ϕ ( I n o r m ) ∥ 2 \mathcal{L}_{p}=\frac{1}{W H C}\left\|\phi\left(I_{g t}\right)-\phi\left(I_{n o r m}\right)\right\|^{2} Lp=WHC1ϕ(Igt)ϕ(Inorm)2,其中,W、H、C分别表示图像的三维空间,预训练后的VGG网络[23]记为φ(·)。 L p L_p Lp平衡了 L s L_s Ls L s L_s Ls的指导作用,确保了我们的网络培训过程的稳定性。

Total Loss.

我们用损失组来构建总损失函数,即 L = L s + λ a L f + λ b L p \mathcal{L}=\mathcal{L}_{s}+\lambda_{a} \mathcal{L}_{f}+\lambda_{b} \mathcal{L}_{p} L=Ls+λaLf+λbLp,其中,λa和λb是权衡权重超参数。大量的实验表明,当λa = 1.0和λb = 0.2时,我们的网络得到了最好的结果。

实验结果

al{L}_{p}$,其中,λa和λb是权衡权重超参数。大量的实验表明,当λa = 1.0和λb = 0.2时,我们的网络得到了最好的结果。

实验结果

dpfnet_第4张图片

你可能感兴趣的:(扩散模型diffusion)