Deep Image Prior (Paper reading)

Deep Image Prior (Paper reading)

Dmitry Ulyanov, Skolkovo Institute of Science and Technology, Russia, CVPR2018, Cited: 1966, Code, Paper.

目录子

  • Deep Image Prior (Paper reading)
    • 1. 前言
    • 2. 整体思想
    • 3. 方法
    • 5. 总结

1. 前言

深度卷积神经网络可以从大量的图像中学习到真实图像先验的能力。先验是我们对世界的基本假设。例如,我们假设一枚硬币抛出50%正面和50%反面,这是我们的先验。这种先验并不总是正确的,但大多数时候是正确的。同样,我们假设自然图像是无噪声和无孔洞的,这也是我们的先验。因此,本文提出了一种用于去噪和修复应用的深度图像先验思想。该论文反驳了监督学习对于建立良好的图像先验是必要的这一观点。它们表明,生成器网络的结构就可以在不需要学习就能捕获大量low-level图像统计信息。本文展示了一个随机初始化的神经网络用作手工制作的先验,在去噪,超分和修复等标准逆任务上具有出色的表现。

2. 整体思想

简单来说,使用一个生成器从随机噪声开始迭代生成降质图像 y y y的过程中,生成器会先学习先验分布,在学习破坏图像,因此,在生成器破坏图像之前终止迭代,就可以获得清晰图像。

3. 方法

深度网络学习一个生成器/解码器 x = f θ ( z ) x=f_{\theta}(z) x=fθ(z),通过映射随机变量 z z z到图像 x x x,来生成图像。这个方法可以用于从随机分布中采样真实的图像。本文聚焦于分布是corrupted观测 y y y来解决去噪,超分等问题。

考虑逆问题的最优化任务:
x ∗ = min ⁡ x E ( x ; y ) + R ( x ) (1) x^{*}=\min_{x}E(x;y)+R(x) \tag{1} x=xminE(x;y)+R(x)(1)
其中,第一项是依赖于具体应用的数据项,第二项通常是捕获图像先验的正则项。正则项可以是图像的Total Variation,本文的正则项 R ( x ) R(x) R(x)选择使用神经网络(U-Net)来获得,当网络可以生成图像时, R ( x ) = 0 R(x)=0 R(x)=0,其他则 R ( x ) = + ∞ R(x)=+\infty R(x)=+,因此优化器定义为:
θ ∗ = arg min ⁡ θ E ( f θ ( z ) ; y ) , x ∗ = f θ ∗ ( z ) (2) \theta^{*}=\argmin_{\theta}E(f_{\theta}(z);y), \quad x^{*}=f_{\theta^{*}}(z) \tag{2} θ=θargminE(fθ(z);y),x=fθ(z)(2)
下图说明了主要思想。给定噪声图像 y y y,使用梯度下降优化卷积神经网络(例如U-Net),以生成噪声图像的先验-去噪图像 x ∗ x^{*} x。神经网络的输入是固定的3D张量 z z z。输入张量具有32个特征图,并且具有与 x x x相同的空间维度。

Deep Image Prior (Paper reading)_第1张图片
我们假设我们的网络可以有效良好的生成图像,因此公式1的优化目标变,也就是最终的损失函数为:
L = ∣ ∣ f θ ( z ) − y ∣ ∣ 2 = ∣ ∣ x ∗ − y ∣ ∣ 2 (3) L=||f_{\theta}(z)-y||^{2}=||x^{*}-y||^{2}\tag{3} L=fθ(z)y2=xy2(3)
当训练神经网络时,我们倾向于寻求全局最小值。对于这个损失函数,全局最小值意味着重新生成一个有噪声的图像,即,当 x ∗ = y x^{*}=y x=y时, L = 0 L=0 L=0。这是由于神经网络的巨大过拟合能力而导致的。为了避免这种全局最小值,本文提前终止了优化过程。在达到全局最小解之前,生成的图像 x ∗ x^{*} x要么收敛到近似的局部最优值,要么至少其优化轨迹接近最优的。这一论点提出了一个关键问题:何时终止或终止标准是什么? 本文没有说明这个问题。提前停止不是一个具体的解决方案。下图显示了优化迭代次数对生成的图像先验 x ∗ x^{*} x的影响。它显示了在2400次迭代之后,在网络过度填充损坏的图像之前,如何达到nice-looking的局部最优。幸运的是,后续论文A Bayesian Perspective on the Deep Image Prior链接解决了终止标准的限制。

Deep Image Prior (Paper reading)_第2张图片
这种方法的另一个挑战是计算复杂性。根据论文,每幅图像需要几分钟的GPU计算。这种想法的核心优点之一是不需要标签,是一种无监督学习方法。作者多次说明,生成的先验图像的质量取决于网络架构。此外,这是一篇18年的文章,当时的算力和网络模型和现在具有很大差距。

5. 总结

想法简单实用,效果在18年可以说是无监督中较好的了,缺点是计算量大,耗时长,但是在后面基于Langevin动力学的方法中被解决。性能与生成网络的选择有关。最近的扩散模型同样是基于先验的思想的生成器,和本文的思想感觉也很相似。

你可能感兴趣的:(Low-level,图像处理,人工智能,深度学习)