通街市密人有

Priors in Deep Image Restoration and Enhancement: A Survey

深度图像恢复和增强中的先验：综述

论文链接：https://arxiv.org/abs/2206.02070

项目链接：https://github.com/VLIS2022/Awesome-Image-Prior (Preprint. Under review)

Abstract

图像恢复和增强是通过消除诸如噪声、模糊和分辨率退化等退化来提高图像质量的过程。深度学习(DL)最近被应用于图像恢复和增强。由于深度神经网络的病态性，人们已经探索了大量的先验知识来促进深度神经网络的训练。然而，到目前为止，学界还没有对先验的重要性进行系统的研究和分析。因此，本文首次对先验算法在深度图像恢复和增强方面的最新进展进行了全面的综述。我们的工作主要包括五个方面的内容：(1) 深度图像恢复与增强的先验理论分析；(2) 基于DL的方法中常用的先验层次结构分类法；(3 )对每个先验的原理、潜力和应用进行深刻的讨论；(4) 总结关键问题，强调未来可能的发展方向，特别是采用之前的大型基础模型，以激发更多的社区研究；(5) 一个开源存储库，提供所有提到的作品和代码链接的分类。

1 Introduction

在捕获、存储、传输和渲染过程中，图像质量经常会下降。典型的退化包括模糊、分辨率退化、噪声和其他伪影。图像恢复和增强是一个试图通过消除这些退化来提高图像质量，同时保留必不可少的图像特征的过程，如图1所示。

一般来说，图像的恢复和增强可以分为六种类型，如图2所示：

(1) 去除环境影响，去除图像中由于环境因素造成的伪影，包括雨[74]、雪[126]、雾霾[56]等；

(2) 相机处理流水线，即图像信号处理器(ISP)，将光电信号转换为数字信号，包括去噪[185]、色彩校正[2]、去噪[213]、去噪[84]、高动态范围(HDR)成像[194]等；

(3) 去模糊，旨在通过去除主要由物体或相机运动引起的模糊伪影来恢复清晰的图像[230]；

(4) 压缩伪影去除，旨在减少图像存储和传输过程中因有损压缩而产生的边缘模糊、阻塞、振铃伪影等低质量问题[180]；

(5) 超分辨率(super-resolution, SR)，旨在提高图像或视频的分辨率[203]；

(6) 视频帧插值，又称超慢动作，目的是将低帧率视频转换为高帧率视频[70]。

图像恢复和增强在人脸识别[145]、自动驾驶[95]、医学图像分析[67]等领域有着广泛的应用。因此，许多早期的努力都在积极探索物理模型，以从退化版本中恢复高质量的图像内容[56]。

近年来，深度学习为图像恢复和增强带来了新的启示。基于DL的方法通常在各种任务上达到最先进(SOTA)的性能[246,213,19]。因此，各种深度神经网络(DNN)被开发出来，如卷积神经网络(CNN)[232]、循环神经网络(RNN)[246]、生成对抗网络(GAN)[91]和视觉Transformer(ViT)[114]，它们都表现出强大的学习能力。然而，由于图像恢复和增强的高度病态性，基于DL的方法仍然存在许多挑战，例如严重依赖大规模数据，超参数选择和收敛不稳定。

因此，在许多图像恢复和增强任务中，已经探索了各种先验来加速DNN的收敛和提高精度[33,83]。具体而言，先验是指图像和视频内容所固有的特定知识和模式。在网络训练或推理过程中巧妙地整合这些先验可以加速收敛并显著提高网络性能[198,56]。在本文中，我们首先系统地将图像增强和恢复先验分为四大类：

(1) 结构先验，(2) 统计先验，(3) 语义先验，(4) 基于深度学习的先验。

这四个主要类别进一步包括十个子类别，代表了30多个特定先验的综合集合，如图3所示。注意，在传统的图像增强和恢复中，结构先验和统计先验中的大多数先验都是在基于DL的技术出现之前建立的。本文强调了这些先验在DL时代背景下的应用和潜力。相反，语义先验和基于DL的先验本质上与学习方法相关。

虽然不同的特定先验以不同的方式应用，但我们首先尝试使用数据的流形分布[98]来整体解释先验的有效性。流形的分布表明，自然图像倾向于聚集在高维图像空间 $R^{H×W×3}$ 内的非线性低维流形附近，其中H和W分别表示图像的高度和宽度，3对应于彩色图像，如图1所示。 $R^{H×W×3}$ 空间中的大多数图像表示随机噪声，而不是有意义的图像。有意义的图像集合构成 $R^{H×W×3}$ 空间的一个子集。图像先验是描述该图像子集内特定知识的有效手段。例如，暗通道先验[56]描述了对无雾图像的强约束。因此，先验可以有效地降低预测空间的维数(即从级的图退化像空间映射到高质量的图像空间)。第二节提供了更多的数学原理分析。

本文全面而系统地综述了先验算法在深度图像恢复和增强中的最新发展，例如大规模基础模型作为先验算法。以前，一些调查，如[194,230,203,117]只关注图像恢复和增强中的特定任务。例如，Liu等[117]提出了一种分类策略，将深度图像超分辨率方法分为不同的类别。Wang等人[194]回顾了深度HDR成像的关键方面，例如，域输入曝露、新的传感器数据和新的学习策略。Zhang等[230]讨论了图像模糊的常见原因，并分析了不同的基于CNN的方法。不同的是，本调查通过调查不同的任务来更好地理解先验在最近的深度图像恢复和增强方法中发挥的作用，从而考虑了更普遍的观点。直观地，我们强调了先验的重要性，这些先验有利于在深度图像恢复和增强的各种任务中作为指导。因此，这项调查是第一次对先验的最新进展进行有见地和系统的分析，这可能有助于激发社区的新研究努力。

本研究的主要贡献有五个方面：(I)对深度图像恢复与增强的先验算法进行了全面的综述，主要包括四个部分：结构先验(第3节)，统计先验(第4节)，语义先验(第5节)，和基于深度学习的先验(第6节)。(II)我们提出了基于几何理论的先验在图像恢复和增强任务中有效性的一般数学基础(第2节)。(III)我们从层次和结构上分析了不同先验之间的联系以及每个先验在不同深度图像恢复和增强任务中的应用(第7节)。(IV)我们讨论了在深度图像恢复和增强任务中利用先验的公开挑战并确定未来的方向，以指导该领域的进一步研究，特别是之前的大规模基础模型(第7节)。(V)我们创建了一个开源存储库，其中包含所有提到的作品和代码链接的分类。我们的开源存储库将定期更新这个研究方向的新提交，我们希望它能对未来的研究有所启发。仓库链接是GitHub Link¹。同时，我们在表1-8中对某些图像恢复和增强任务的一些代表性先验进行了突出和基准测试。由于篇幅所限，我们在补充材料中给出了一些具有代表性的先验算法用于深度图像恢复和增强任务的实验结果。

在接下来的章节中，我们将讨论和分析先验在深度图像恢复和增强任务中的各个方面。本文的其余部分组织如下。在第2节中，我们定义了深度图像恢复和增强任务中的先验，并从理论上分析了不同任务的原理。在第3节至第6节中，我们对每个主要先验及其相应的子类别先验进行了全面的讨论。在第7节，我们讨论了开放的问题和未来的方向。在第8节中，我们结束了本文。

注：给了图4但文中没体现。

2 Background and Theoretical Analysis

在本节中，我们提供了基于几何理论的先验在深度图像恢复和增强中的有效性的一般数学基础[98]。我们在公式1中表示高质量图像 $I_h$ 和低质量图像 $I_l$ 之间的关系，其中 $Φ$ 是映射函数， $θ_α$ 是参数。对于深度图像恢复和增强网络，可以灵活地将 $Φ$ 替换为DNN[246]。
$I_h=\Phi(I_l;\theta_\alpha) \tag{1}$
退化函数是恢复和增强过程的逆，如公式2所示，其中 $Φ^{−1}$ 为退化函数，如模糊模型、噪声模型、下采样模型， $θ_β$ 为其参数。
$I_l=\Phi^{-1}(I_h;\theta_\beta) \tag{2}$
根据流形分布规律[98]，我们将环境空间记为 $\mathbb{R}^{ C×H×W}$ ，其中C为RGB通道数，H和W分别为图像的高度和宽度。环境空间中的大多数图像都没有物理意义，就像噪声一样，如图1所示，红色圆圈代表的是没有意义的图像。我们只对包含有意义信息的图像感兴趣，比如自然图像、人脸图像和文本图像。在图像恢复和增强任务中，我们重点研究了高质量图像集 $S_h$ 和低质量图像集 $S_l$ 。它们都分布在环境空间的低维流形空间中，如图1所示。 $\mathbb{R}^{ C×H×W}$ 、 $S_h$ 、 $S_l$ 之间的关系如公式3所示，其中|·|表示基数，即集合的大小。
$\begin{align} &\begin{cases}\{S_h\cup S_l\}\subset\mathbb{R}^{C\times H\times W}\\|S_h|\ll|\mathbb{R}^{C\times H\times W}|\\|S_l|\ll|\mathbb{R}^{C\times H\times W}|\end{cases} \tag{3}\\ &D(x)=\int_{\Omega}c(x,\Phi(x;\theta_\alpha))dx \tag{4} \end{align}$
一种深度图像恢复增强模型 $Φ(·;θ_α)$ 描述了从低质量图像集 $S_l$ 到高质量图像集 $S_h$ 的映射。训练映射模型 $Φ(·;θ_α)$ 是求公式4的最小值，其中 $D (x)$ 是两个分布映射的总代价， $c (\cdot,\cdot)$ 是代价函数，如 $L_1$ ，MSE， [98]， $Ω$ 是一个凸区域，表示考虑模型 $Φ(·;θ_α)$ 是一个同胚变换。不同的代价函数导致不同的映射模型。相应的，退化模型 $Φ^{−1}(·;θ_β)$ 描述了相反的映射。

因此，我们认为 $p_Φ$ ，图像恢复和增强模型的性能 $Φ(·;θ_α)$ ，取决于三个方面：

(1) $p_l$ ，根据 $S_l$ (即低质量图像分布)估计输入分布的精度；

(2) $p_h$ ，根据Sh(即高质量图像分布)估计输出分布的精度；

(3) $f_Φ$ ，将输入映射到输出的能力。

当采样均匀时， $p_l$ 和 $p_h$ 与采样密度 $ρ$ 成正比。 $f_Φ$ 可以通过网络的映射能力来衡量。 $p_Φ$ 与 $p_l$ , $p_h$ , $f_Φ$ 之间的关系可以简化为公式5。
$p_{\Phi}\propto p_{l}\times p_{h}\times f_{\Phi} \tag{5}$
假设 $S_D$ 为图像恢复增强数据集，可由公式6表示。这里， $D_l$ 是低质量图像数据集。 $D_h$ 为高质量图像数据集。 $N_l$ 和 $N_h$ 是数据集的计数。 $I_{(l, i)}$ 和 $I_{(h,j)}$ 分别是集合 $S_l$ 和集合 $S_h$ 中的采样点。通常，数据集是流形空间上采样点的集合，如图1所示。五边形是一个深绿色椭圆上的点，五边形的集合是一个高质量的图像数据集。低质量和高质量的采样密度如公式7所示，其中C为数据集的大小，|S|为集合的基数。因此，低质量图像和高质量图像的采样密度如公式8所示。另外， $S_l$ 和 $S_h$ 为常数，公式5 = 公式9。
$\begin{align} &\begin{cases}D_l=\{I_{(l,i)}|i\in[1,N_l]\}\\D_h=\{I_{(h,j)}|j\in[1,N_h]\}\\S_D=\{(I_l,I_h)|I_l\in D_l,I_h\in D_h\}\end{cases} \tag{6}\\\\ &\rho=\frac{C}{|S|} \tag{7}\\\\ &\begin{cases}\rho_l=\frac{N_l}{|S_l|}\\\rho_h=\frac{N_h}{|S_h|}\end{cases} \tag{8}\\\\ &p_{\Phi}\propto N_{l}\times|S_{l}|^{-1}\times N_{h}\times|S_{h}|^{-1}\times f_{\Phi} \tag{9} \end{align}$
先验的有效性反映在对 $p_l$ 、 $p_h$ 和 $f_Φ$ 的影响上。一些先验可以约束高质量的图像集，如暗通道先验[56]、梯度分布[235]、 $L_0$ 规则[238]。这些先验描述了高质量图像集 $S_h$ 的一些属性，减少了网络估计 $S_h$ 分布的搜索空间，相当于增加了 $p_h$ 。通常，先验可以通过增加 $p_l$ 、 $p_h$ 和 $f_Φ$ 的一个或多个值来提高网络性能。

在本次综述中，所有被调查的先验都可以通过这些原则进行分析。具体来说，一些先前的研究侧重于通过直接生成更多低质量图像来提高 $p_l$ ，例如，对核和噪声信息建模(第4.3.2节)或使用生成模型(第6.2.2节)进行训练集综合。此外，一些先前的研究侧重于通过将高质量图像的知识嵌入到深度学习框架中来提高 $p_h$ 值，例如，使用统计信息(第4.1节)或深度去噪(第6.2.3节)作为调节项，使用GAN Inversion(第6.2.1节)来利用潜在空间的知识。此外，其他一些先验专注于通过指导网络结构的设计来改进 $f_Φ$ ，例如，物理模型(第4.2节)、时间先验(第3.2节)、建模核和噪声(第4.3.1节)、非局部相似性(第3.3节)，或者引入额外的信息来改进深度学习模型，例如，变换先验(第3.1节)、语义先验(第5.1节)、以人为中心的先验(第5.2节)。此外，深度图像先验(第6.1节)利用DNN结构 $f_Φ$ 增加 $p_h$ ，从而从单幅低质量图像进行图像恢复和增强。

3 Structure Prior

结构先验基于图像或视频的底层结构[173]和几何特征[59]，为图像和视频重建提供规则和约束。我们考虑基于变换的先验、时间先验和非局部自相似先验作为结构先验的一部分，因为它们能够提供对图像结构的有价值的见解。

基于变换的先验(第3.1节)包括基于频率的转换和非基于频率的转换。基于频率的变换侧重于频域。通过分析和操纵图像的频率成分，这些变换可以揭示重要的结构信息，并指导恢复和增强过程[24,45,134,124]。另一方面，非基于频率的变换在空间域中操作，可以包括几何变换或其他空间操作。这些转换可以通过利用像素或区域之间的空间关系来帮助保留结构细节并提高整体图像质量[215,160,40]。

时间先验(第3.2节)，特别是在视频中，利用帧序列的时间一致性和一致性[147,113]。通过考虑连续帧之间的动态结构变化，时间先验有助于在视频恢复和增强任务中保持时间清晰度并减少伪影。

非局部自相似性先验（第3.3节）是结构先验的另一个组成部分，它利用图像和帧中存在的固有自相似性。通过识别和利用图像或帧内相似的patch或区域，这些先验有助于保留结构细节和纹理，有助于整体图像的恢复和增强[197,237]。利用非局部自相似先验确保恢复图像保持结构的连贯性和一致性，从而提高视觉质量。

3.1 基于变换的先验

Insight：将图像转换到不同的域可以为网络训练带来有利的特性，例如，某些噪声模式在特定的频率子带中更加明显。

在本节中，我们回顾了使用变换作为先验来减小深度图像恢复和增强的解空间的代表性工作。与应用变换以提高数据多样性的数据增强不同，将变换用作先验的目标是利用来自转换领域的额外信息，以提高网络模型的性能和训练效率。前面使用的变换可以分为两类：基于频率的变换[122]和基于非频率的变换[218]。如前所述，利用基于频率的变换进行深度图像恢复和增强的代表性工作如表1所示，更详细的内容可在补充资料中找到。

3.1.1基于频率变换的学习

将数据转换到频域，例如使用如图6所示的离散傅立叶变换(DFT)或离散小波变换(DWT)，可以将数据分解为不同的频率子带，以便进行成分分析。在基于DL的方法被开发出来之前，这些方法已经被广泛研究用于图像恢复[135,41]。在深度图像恢复的背景下，一些研究通过经验或实验表明，噪声[7]、摩尔纹[121]、雨[217]、雾霾[42]或雪[24]等图案在某些频率子带中更为明显。通过将频率信息整合到深度学习框架中，可以有效地提高网络训练效率。此外，不同的子带包含图像上下文的某些先验信息。例如，高频子带通常传递更多的纹理细节，而低频子带传递更多的结构信息，这可以有力地指导网络恢复缺失的细节，并保持图像SR的客观质量[54,62,32]。这些将基于频率的变换引入DNN的方法可以通过将变换后的数据直接作为输入和输出来实现[7,62,121,32,54,24]，如图5(a)所示，或者将变换应用于中间特征映射[122,164,42]，如图5(b)所示。

此外，利用基于频率的变换的先验也可以封装为现有深度学习流程中强大的即插即用模块。MWCNN[122]用DWT代替池化操作，并使用其逆变换作为上采样操作。因此，它可以扩大DNN模型的接受域，同时从特征图中捕获频率和位置信息。在此基础上，Rong等[164]也提出了一种基于Haar小波的小波池运算，以更好地去噪和重构相应的信号。此外，Maggioni等[134]在这种可逆变换操作中引入了可学习参数，进一步提高了DNN模型的性能。

Discussion：从我们的综述来看，现有的DNN模型，如[121]，利用基于频率的转换，如先前，主要是基于实证研究。然而，强大的特定任务知识和广泛的实验是必需的。因此，有必要进行更多的理论分析，如[7]，探索一种更普遍的先验，将基于频率的变换用于不同的深度图像恢复和增强任务。此外，现有的工作[122,164]主要侧重于使用上述转换将池化操作替换为先验操作。简而言之，未来的研究可以考虑通过引入可学习参数来设计更灵活的基于频率的变换模块，例如[134]。

3.1.2 基于非频率变换的学习

也存在一些基于非频率的变换，通过强调图像的一些重要模式，可以作为深度图像恢复和增强的信息先验。其中，从图像中获得的边缘信息可以视为信息先验，因为它可以为DNN训练提供详细的结构或几何指导。

Yang等[215]提出了以低分辨率(LR) canny边缘图和LR图像为输入分别预测高分辨率(HR)图像和HR边缘图的代表性工作。这迫使网络在SR中保留结构信息。Nazeri等人[143]提出了一个两阶段的SR框架，首先通过LR canny边缘图和LR图像的拼接来预测HR边缘图。然后，他们设计了一个图像补全模块，通过将预测的HR边缘图和LR图像作为输入来获得HR图像。为了更好地提取边缘信息，Ren等人[160]和Zhu等人[251]采用深度边缘检测器，如HDE[208]来生成边缘图，而不是使用手工算子。此外，Fang等[40]提出了一种软边缘辅助框架，通过同时优化边缘损失和SR损失，以端到端方式共同学习边缘映射和SR任务。

除了边缘变换，Ren等人[159]还探索了使用变换，包括白平衡、对比度增强和伽玛校正，作为深度图像去雾。特别地，他们提出了一种门控融合网络，将所有变换后的模糊图像作为输入来预测其相应的置信图。然后将这些置信度图与变换后的图像加权，以获得干净的图像。

Discussion：将选择的变换应用于先前的退化图像，对于深度图像恢复和增强任务显示出有效性。然而，如果我们可以将基于变换的先验引入到网络设计中，用联合子网络代替手工制作的变换算子，将会更有意义[40]。

3.2 时间先验

Insight：时间先验是为深度视频恢复和增强任务量身定制的。这种先验在视频中主要来源于帧之间的关系，即时间信息。

在本节中，我们介绍两种主要的时间先验：光流和时间锐度先验。它们通常用于深度视频恢复和增强任务中的时间特征对齐。

3.2.1 光流

光流反映了由观察者和场景引起的视频连续帧之间物体、表面和边缘的运动[12]。可表述如下：
$I(x,y,t)=I(x+\Delta x,y+\Delta y,z+\Delta z), \tag{10}$
式中(x, y)为图像I中的像素位置，t为两帧之间的时间变化，由光流计算得到。传统的方法侧重于稀疏光流，仅对图像中具有鲜明特征的像素进行估计，如变分方法[12]、Lucas-Kanade方法[13]。然而，大多数基于DL的方法都集中在密集光流上，这可以缓解传统方法的局限性。Dosovitskiy等[37]引入了FlowNet，这是第一个基于CNN的光流估计方法。该基线不断得到改进，如[66,157,177]，已广泛应用于各种深度图像恢复和增强任务。

首先，视频超分辨率(VSR)是通过对相邻帧的运动估计来恢复高分辨率(HR)帧进行帧对齐。因此，通常使用光流来对齐相邻的帧，如图7(a)所示。Sajjadi等人[167]提出了一个代表性的框架，该框架依赖于基于流的编码器-解码器架构来估计光流。他们还设计了一个循环网络来传播长期时间信息，以恢复HR视频。ToFlow[210]联合训练流量估计组件和视频处理组件，以更好地计算VSR的光流。然而，光流受到光的不变性和大运动的限制。因此，DUF[76]、DCN[196,187]等几项研究都尝试使用基于CNN的对齐方法来实现帧对齐。此外，最近的许多研究使用光流作为辅助信息来支持帧对准，如图7(b)所示。BasicVSR++[19]是使用光流引导DCN进行帧对准的代表性框架。该作品在NTIRE 2021视频修复和增强挑战赛中获得了三个冠军和一个亚军[175]。与BasicVSR++类似，Liang等[113]利用光流引导自注意结构完成时间特征对齐。

在视频去模糊中，还利用光流处理不连续的模糊帧，如图7©所示。Pan等人[147]提出了第一个使用光流获得的扭曲的相邻帧来构建先验时间清晰度的工作，这将在下一节中讨论。最近的一些作品[103,168]也采用了类似的思想，将光流作为获得先验时间清晰度的先决条件。与文献[147,103,168]不同的是，Wang等[201]提出在图像字幕过程中使用光流先验估计运动幅度作为模糊度。该方法将光流作为模糊估计的先验，从而有效地指导去模糊网络聚焦于不同的区域。

此外，在多曝光HDR成像中，光流用于对低、中、高曝光帧，如图7(d)所示。代表性作品采用经典的光流估计方法[79,211]或基于DL的方法[152,151]对多曝光LDR图像进行对齐。然后，他们设计了基于DNN的框架来融合对齐的LDR图像来重建HDR图像。表2总结了与之前一样使用光流进行深度图像/视频恢复和增强的代表性任务。除了图7所示的方法外，光流还常用于其他任务，如深度视频去雨[216]、深度视频帧插值[9]。

Discussion：从前面的分析可以看出，在光照环境变化和运动较大的情况下，很难计算光流。因此，这些问题在现实世界的视频中是不可避免的。尽管许多研究[76,196,187]试图用DNN代替光流来进行帧对齐，但光流中包含的重要运动信息丢失了。为此，人们积极开展研究，以减轻对更好的框架对准的限制。近年来的许多研究表明，将光流估计作为初始或辅助成分与其他方法相结合，在深度视频恢复和增强中比仅使用先验方法效果更好。例如，[19,113]使用光流来引导VSR的DCN或自关注，[147,103,168]使用光流来生成视频去模糊之前的时间清晰度。未来的研究可以考虑将光流与深度神经网络结合起来，以解决现实应用中的挑战。

3.2.2 时间锐度先验

时间锐度先验是基于非连续模糊特性假设的深度视频去模糊的特定先验[147]。同一物体在不同帧中同时包含清晰像素和模糊像素。锐利的像素可以作为深度视频去模糊的先决条件。尽管一些传统方法[28]使用了这个先验，但它首次与基于深度学习的模型结合，并在[147]中明确定义。Pan等人[147]提出了一种比较当前帧和扭曲帧的代表性框架，该框架利用相邻帧的光流来构造时间清晰度先验。这可以限制基于CNN的深度模型利用锐帧来支持深度视频去模糊。Li等人[103]提出了类似的方法来处理视频中的大运动；然而，它需要多个连续帧作为输入来计算时间清晰度，以获得更有决定性的时间信息。而且，它的特征空间可以在多个尺度上匹配。Shang等[168]提出了一种双向长短期记忆(LSTM)架构，从前后相邻的帧中探测最近的两个锐帧(NSF)。原因是在合理范围内从相邻帧获得的时间锐度先验可以有效地促进深度视频去模糊。

Discussion：从我们的综述来看，先验时间锐度主要基于连续帧中的非连续模糊属性[147,103,168]。这个概念可以很容易地扩展到其他领域。例如，由于噪声在视频中也是不连续的，因此可以使用相同的假设来构造另一个先验。因此，未来的研究可以更多地关注具体的时间属性，探索新的时间先验，用于深度视频的恢复和增强。

3.3 非局部自相似作为先验

Insight：非局部自相似先验可以帮助恢复和增强图像中再现patch的特定细节。

非局部自相似性是图像的一个基本属性，它表明在给定的图像中，相同的小图案往往会重复出现[31]，如图8所示。因此，许多低水平的视觉任务利用这种特性作为一个先决条件，以促进高质量图像的恢复。传统的方法，如3D变换BM3D[31]、WNNM[52]等，利用数学变换和映射，将相似的斑块叠加在一起，实现恢复任务。然而，这些方法严重依赖于人工制作的转换来学习自相似性。

另一方面，基于DL的方法将DNN与非局部自相似先验相结合，用于诸如去噪[96]、SR[138,137]和图像恢复[237]等任务。Lefkimmiatis等[96]提出了第一个基于DL的框架，对相似的patch进行分组并联合过滤。然而，先验本身严重依赖于人工设计，该方法的泛化能力有限。相比之下，[237]提出了一个具有代表性的框架，通过非局部注意网络[197]来解决[96]中的问题。原因是非局部注意很好地符合非局部自相似先验的性质，使得它对基于DL的模型更有效，减轻了人工设计的需要。Mei等人[137]将这一思想扩展到非局部稀疏注意，以获取远程相似度，即全局相似度信息。

Discussion：从以上分析中，我们假设非局部注意[197]可以有效替代人工设计的非局部自相似先验的作用。然而，正如[137]所指出的，非局部关注存在两个问题:对局部特征的关注有限和计算成本高。因此，值得探索稀疏关注或其他关注框架，以更好地提取深度图像的全局相似特征进行恢复和增强。

4 Statistical Priors

统计先验是基于成像中的统计特征和噪声模型，提供图像内容的特征分布。我们将统计先验分为三个部分：图像强度和梯度分布、基于物理的先验，以及核函数和噪声信息作为先验。

图像强度和梯度分布先验(第4.1节)利用图像内容的统计属性。例如，暗通道先验[149]和明通道先验[17]被广泛用于去模糊任务中的参数估计。基于物理的先验(第4.2节)将物理模型和原理纳入图像的恢复和增强。例如，大气散射模型[142]和去雨模型[111]利用大气和雨的物理性质来指导去雾和去雾任务。这些先验可以通过结合物理模型和原理提供统计约束和指导，提高图像质量。核和噪声信息先验(第4.3节)是另一种统计先验，它利用图像的核和噪声模型的知识来指导去模糊或去噪[241,50]。通过结合核和噪声的统计分布，这些先验可以帮助估计模糊核和降低噪声。

4.1 图像强度和梯度分布作为先验

Insight：图像强度和梯度分布作为图像 $I (x)$ 和图像导数 $I^{'} (x)$ 的优先焦点。

在本节中，我们回顾了在估计DNN参数或将其嵌入DNN结构之前利用统计图像特征的代表性工作。先验统计图像特征可分为：先验统计强度特征和先验统计梯度特征。表3列出了使用这些先验的代表性作品。

4.1.1 统计强度特征作为先验

统计强度特征通常是指图像通道强度分布，如双色分布先验[148]、双色先验[77]、直方图均衡化先验[33,43]和极值分布，如暗通道先验[149,56]、亮通道先验[212,182,94]。

暗通道先验[56]描述了在一个局部邻域中至少有一个颜色通道具有强度值接近于零的像素。Yan等[212]将其扩展到先验的明亮通道，这约束了相邻小像素中至少有一个颜色通道具有非常大的强度，如图11所示。它们被广泛用于传统图像恢复任务中的核估计或参数约束，例如去雾、去噪和弱光增强。Lee等人[94]提出了第一个利用明亮通道先验进行弱光图像增强的无监督框架。该先验预测图像中的初始光照映射，然后用于建立无监督损失来优化编码器-解码器网络。相比之下，ECPeNet[17]直接将暗通道先验和亮通道先验插入到编码器-解码器网络中，用于图像去模糊。因此，该方法可以聚合先验和模糊图像表示的信息，指导动态场景去模糊。

4.1.2 统计梯度特征作为先验

统计梯度特征是指图像梯度分布以及局部梯度的极值分布，包括局部最大梯度先验[22]、梯度引导先验[132]、梯度通道先验[174, 83]。尽管它们在传统的图像恢复和增强任务中得到了广泛的应用，但它们很少被用于基于DL的框架。

Ma等人[132]提出了一种梯度分支网络，使用梯度作为先验来获取额外的结构信息并构建梯度损失。这种先验使得网络能够更加专注于图像SR的几何结构，如图10 (a)所示。Sun等[176]采用了类似的思路来获取结构信息来指导SR网络。

Discussion：通过综述，我们发现基于统计梯度特征的先验可以为深度图像恢复和增强任务提供额外的知识或指导[132]。然而，上述的一些先验，如局部最大梯度先验[22]、梯度通道先验[174,83]，尚未应用到基于DL的深度图像恢复和增强方法中。因此，未来的研究可能会集中在这个方向上。

4.2 基于物理的先验

Insight：物理模型可以根据物理原理将输出分解为单独的组件或因素，从而降低学习难度并增加可解释性。

恶劣的天气，如雾霾、雨、雪等，在图像捕捉过程中会导致图像质量下降。传统方法，如[142]，根据物理原理精心设计了退化模型。尽管许多研究使用深度神经网络直接从退化的图像中恢复干净的图像，但也有一些尝试将传统方法作为强先验引入深度学习管道。在这些物理模型中的先验知识的指导下，如图12所示，所设计的深度神经网络模型更加有效和可解释性，刺激了深度图像恢复和增强方法的发展。

4.2.1 Atmospheric Scattering模型

典型的退化模型是大气散射模型(ASM)[142]，该模型被广泛用于图像深度去雾[16]。ASM的公式为 $I (x) = J (x) t (x) + A (1 - t (x))$ ，其中x为像素点位置，t(x)为介质透射图，A为全球大气光。J(x)为干净图像，I(x)为朦胧场景下的退化图像。DehazeNet[16]遵循ASM模型，使用CNN估计透射图t(x)，并从估计t(x)的0.1%最暗像素处获得大气光a。为了获得更精确的大气光A，DCPDN[223]提出联合学习一个密集连接的金字塔网络来估计传输图t(x)和UNet[165]来估计大气光A。此外，为了减少单独估计t(x)和A所带来的累积误差，许多方法试图通过重新表述ASM模型来使用单个中间参数。例如，在AOD-Net[101]中，ASM模型被一个中间参数K(x)重新表述。因此ASM模型可以用 $J (x) = K (x) I (x) - K (x) + b$ 来求解。AOD-Net[101]所显示的良好性能证明了ASM模型仍然可以很好地嵌入到DL框架中，而无需单独估计t(x)和a。随后，DehazeGAN[250]、FAMEDNet[225]和PFDN[35]也采用了这种简化的ASM模型。此外，ASM模型还可以用于其他任务，如去雪[23]和低光图像增强[81]，通过估计相应的分量来指导DNN模型设计。

4.2.2 Rain模型

为了更好地适应不同的去雨模式，人们提出了各种去雨模型来进行深度图像提取。ACM (Additive composite model, ACM)[111]是最简单、应用最广泛的去雨模型，可以表示为 $O (x) = B (x) + S (x)$ ，其中x表示像素的位置，B表示清晰背景层，S表示雨纹层，O表示雨纹导致的退化图像。基于 ACM，Fu等人[44]提出了一项代表性工作，该工作从细节层获取输入，并预测退化图像与ground truth清晰图像之间的残差。在[44]的思路基础上，DID-MDN[224]引入了额外的雨密度分类器以提高残差质量。RESCAN[109]提出了一个更简单的循环框架，通过残差学习执行多级去雨。JORDER[218]考虑到雨带和雨的积累，提出了另一种具有代表性的方法，即引入掩膜和附加雨带层。因此，JORDER中退化的雨图像可以分解为多个雨条层、雨区和干净的背景图像，作为多级去雨的预测目标。此外，一些研究通过不同的因素解释雨天场景，例如遮挡[120]、时间属性[216]或深度图[60]。

4.2.3 Retinex模型

基于人类对颜色的感知方式，Retinex模型[93]假设观察到的图像I可以分解为反射率R和照度L两个分量，Retinex模型的形式可以描述为 $I (x) = R (x) \cdot L (x)$ ，其中x表示像素的位置，·表示逐像素的乘法运算。Retinex模型已被广泛地集成到深度低光图像增强方法中，如[204,239]，显示出良好的性能。这些方法的基本思想是设计专门的子网络来分别学习光照和反射率分量。Retinex-Net [204] 是一项代表性工作，提出了一个分解网络，将输入图像分解成反射分量和照明分量。然后，设计增强网络对光照图进行调整。在遵循 Retinex-Net 流程的基础上，许多工作[239,234,219]已经提出了对预测或高级网络架构的更多限制。为了提高计算效率，LightenNet[102]提出使用更小的编码器来估计照度，并将输入图像除以照度映射得到增强图像。沿着这条思路，IM-Net[200]和RUAS[123]也仅仅关注深度神经网络框架设计中的光照估计。

Discussion：从综述来看，基于物理先验的深度学习方法通常依赖于分解策略来预测和组装不同的组件，这限制了它们在深度神经网络框架设计中的灵活性。可以将神经架构搜索技术(例如[104])与基于物理的更有效的DNN设计方案相结合。此外，物理模型通常是特定于任务的，或者专注于某些应用程序场景。因此，未来的研究可以集中在设计一个更通用的物理模型，可以用于各种深度图像恢复和增强任务。

4.3 核和噪声信息作为先验

Insight：建模核和噪声信息可以为特定于图像的恢复提供额外的信息，或者帮助生成更逼真的低质量图像。

使用预定义的退化模型对图像退化过程进行建模可以有效地减少解空间。在图像恢复的通用流程中，许多研究[50, 241]广泛采用了经典的退化模型。经典退化模型可表示为y = (x⊗k)↓s +n，其中y表示退化图像，x⊗k表示潜图像x与核k之间的卷积运算，↓s为尺度因子为s的下样本运算，n为噪声。这种退化信息，即核和噪声，可以作为先验用于DNN结构设计，如图13 (a)所示，也可以用于训练数据集合成，以提高网络性能和鲁棒性，如图13 (b)所示。

注：文中写错成14 (a)、14 (b)

4.3.1 DNN结构设计中的显式建模

有了这样的退化模型，许多研究[241,209,233,65]关注于利用退化模型的估计核或噪声信息来提高dnn的性能。SRMD[241]首次将模糊核和噪声图作为图像sr的额外输入。具体而言，SRMD提出了一种利用主成分分析(PCA)在矢量化模糊核上投影的拉伸策略，对核信息进行编码。沿着这条思路，UDVD[209]进一步提出了一个动态卷积块，从条件输入中提取特征，以生成逐像素的内核进行细化。Zhang等[233]通过考虑更多的退化信息作为条件输入，引入了一种图像SR的展开优化。他们还将训练目标转化为数据子问题和优先子问题，可以交替求解。类似地，FFDNet[240]提出将噪声级图连接起来作为图像去噪的条件输入。

除了使用预估计的退化信息的方法外，一些工作侧重于使用DNN模型估计核，然后将估计的核与上述以核信息作为条件输入的深度恢复方法相结合。KernelGAN [10] 提出使用深度线性网络作为生成器，以参数化图像超分辨率的潜在核心，同时设计了一个判别器来区分生成的图块和真实的低分辨率图块。训练完成后，对生成器中的所有卷积滤波器进行卷积，可以显式地获得估计的核。如图14所示，在KernelGAN中学习到的核可以比非DNN模型更鲁棒。FKP[115]提出了一种基于流的核建模方法来生成合理的核初始化，并遍历学习到的核流形以获得更好的核估计结果。

此外，一系列工作[50,64,53]以端到端的方式共同估计退化信息并学习目标恢复任务。ICK[50]提出了一种迭代核校正方法，基于前一阶段的SR结果对估计的核信息进行校正。Huang等人[64]通过迭代估计退化和恢复SR图像开发了一种深度交替网络。CBDNet[53]使用噪声估计子网络来预测噪声信息，并将其作为DNN模型的额外输入，用于图像去噪。

4.3.2 在训练集合成中的显式建模

其他一些方法也提出使用从真实图像估计的更真实的核来覆盖训练数据集中的更多退化模式。例如，Zhou等人[249]基于从真实LR图像估计的一些真实SR核构建了一个大型核池，并使用数据分布学习。RealSR[69]采用了类似的策略，使用更真实的内核构建更通用的训练数据集。Tran等[188]提出使用编码器-解码器架构将锐模糊图像对的模糊核编码为模糊核空间，并将学习到的核空间应用于模糊图像仿真。在图像去噪任务中，GCBD[21]和C2N[68]都使用GAN生成逼真的噪声来构建用于图像去噪的配对数据集。

Discussion：在现实场景中，图像的退化过程通常是未知的，并且可能受到预定义退化模型之外的各种因素的影响。因此，对核和噪声信息进行显式建模不能得到令人满意的结果，因为这些模型不包括退化。除了核和噪声图的格式之外，还可以使用更通用的方式来编码退化信息或补充信息，例如，可学习表示[193]和数据特征[89]。

5 Semantic Priors

语义先验基于图像的语义信息，提供关于图像内容的知识和高级信息。我们将语义先验分为两部分：(1)一般语义信息作为先验；(2)以人为中心的语义信息作为先验。作为先验的一般语义信息(第5.1节)包含各种对象、场景和其他视觉元素。由于其重要的研究兴趣，以人为中心的先验，如身体姿势、面部先验，在一般语义先验中代表了一种独特的形式，需要单独的介绍(第5.2节)。

5.1 通用语义信息作为先验

Insight：通用语义信息是指将语义分割[6]的结果或特征作为指导深度图像恢复和增强的先验信息。

语义信息可以对图像内容带来相当大的约束，例如自然场景和人体、人脸[198,118]，这可能为深度图像恢复和增强提供足够的指导。最近，人们提出了许多方法来使用语义信息作为先验的任务，如去模糊[170,172]，去雾[161]，去雨[110]，图像/视频SR[199,195,155,192]，低光图像增强[39,243,112]以及图像去模糊和SR的组合[170,172,20,153]。

我们将这些方法大致分为四类，如图15所示。根据图像增强网络与语义分割网络的关系划分前三类，可以与图像增强网络同时训练。最后一类语义信息来自于一个大型的基础模型，例如Segment Anything model (SAM)[88]，这是深度学习中一个全新的技术，目前正在蓬勃发展。

第一类方法的一般示例如图15(a)所示，其中将语义信息作为DNN的输入，用于图像恢复和增强。Wang等人[198]提出了第一个利用语义信息来估计固有反射参数的低光图像增强框架。这可以增强区域细节，并指导基于场景语义的自适应去噪。在此基础上，Ren等[161]提出了一种以全局语义结果为输入估计视频去雾中的传输映射的框架。与这些方法不同，Shen等[172]和Chen等[20]直接将语义分割结果作为图像增强网络的输入。具体而言，Shen等[170]采用带有语义信息的编解码网络来实现图像去模糊的目标。Chen等[20]取代了编码-解码框架，提出了一种语义感知的图像恢复风格转换框架。虽然这些方法利用语义先验作为指导，取得了良好的效果，但它们对语义分割网络积累的误差很敏感。

第二类方法联合训练深度图像恢复网络和语义分割网络，可以缓解累积误差带来的影响，如图15 (b)所示。Wang等[192]通过联合学习分割网络和SR网络，提出了一个代表性的框架。由于它们采用相同的编码器-解码器结构，共享编码器，因此从LR输入可以得到SR图像和SR分割结果，没有任何累积误差。类似地，Liu等人[118]发现图像语义分割网络和去噪网络的联合训练能够通过提高在复杂场景中的泛化能力来相互强化。

第三类方法探讨了图像恢复增强任务与高级任务之间的协同关系，并引入了两个网络训练的相互指导策略，如图15 ©所示。例如Li等[110]提出了一个包含去雨网络和分割网络的框架。去雨网络消除了图像级和特征级对分割网络的影响，而分割网络通过嵌入语义信息来学习空间感知特征，便于去雨。同样，Ma等[131]提出了一种基于相互协作的联合人脸SR和地标检测框架。此外，检测信息也可以被视为一种特殊类型的语义先验，可以应用于深度图像恢复任务[63,172,131]。Shen等[172]在区分人和背景之前利用检测信息，分别指导行人和背景图像去模糊的网络。这样做的好处是，先验可以更好地驱动每个任务的网络，使其专注于包含行人或背景的特定区域。

近年来，大规模基础模型[156,88]为计算机视觉领域提供了新的推动力。作为一项说明性研究，SAM[88]在目前可用的最大分割数据集上以提示方式进行训练。该数据集由1100万张图片上超过10亿个注释组成。SAM出色的分割能力为语义引导的图像增强提供了新的灵感，如图16所示。与上述提到的三个类别不同，基于 SAM 的方法[71, 207, 242, 129]直接从 SAM 预训练模型中获取语义信息，而不是联合训练图像增强网络和分割网络。例如，Xiao等人[207]将SAM先验调谐单元作为现有SR网络中的附加组件[226,26]，旨在将SAM的语义信息作为引导机制。然而，这些方法仅仅采用了插件的方式，忽略了图像增强网络骨干网的优化，从而限制了取得的进展。作为一种强大但新兴的方法，其他大型基础模型也具有巨大的潜力，在大型基础模型一节(第6.2.4节)中进一步说明。

Discussion：综上所述，语义先验有助于提高深度图像恢复的性能[198]，而恢复后的输出有助于学习语义分割网络[118]。因此，避免任务之间的依赖关系和开发更有效的相互协作策略值得更多的研究。另一方面，大规模基础模型的利用[88]具有巨大的潜力，因为它可以提供稳定和有弹性的语义信息用于指导。此外，根据第2节的理论分析，语义先验通过提供额外的语义信息来提升深度图像增强模型的能力 $f_Φ$ ，并且可以很容易地扩展到其他领域，例如HDR成像和图像压缩伪影去除。最后，通过语义先验来探索高阶任务和低阶任务的融合也很有前景。

5.2 Human-centric先验

Insight：如图17所示，人体或面部独特的几何和结构等特征可以用来指导深度图像恢复和增强。人脸先验越来越受到关注，基于人体的先验也得到了研究。

在本节中，我们将全面概述受到广泛关注的面部先验，接着分析有关人体的先验。尽管调查人体先验的研究数量相对有限，但对虚拟现实(VR)的蓬勃发展的兴趣已经引发了对这些先验的关注，用于增强包含人类的图像，以增强下游任务中的表现[245,72]。

面部先验可以分为三种类型[198]：面部特定先验[222,25,220]，基于参考的先验[108,106,107]和生成面部先验[198,214]。广泛使用的人脸特异性先验是基于人脸处于受控环境中且变化很小的常识。因此，可以利用独特的几何和空间分布信息，如面部ground truth[131]作为几何面部先验[25,14,86,61,20]来完成人脸图像恢复任务。同时，每个组件的各种特征，例如眼睛，可以作为先验知识。典型地，FSRNet[25]是一个由两个阶段组成的代表性框架。在第一阶段，设计一个先验估计网络，同时提供面部地标热图和解析图。在第二阶段，提出了一种以热图和解析图为输入的恢复网络，以恢复干净的人脸图像。然而，由于低质量图像往往会丢失有关面部细节的纹理信息，人脸特异性先验的应用仍然受到限制。

基于参考的先验依赖于高质量面部图像[107,108]或面部成分字典[106]的指导。这些先验通常是通过传统的方法获得的，例如K-means，对面部成分的感知显著特征进行聚类。然后应用这些先验来解决更具挑战性的人脸图像恢复问题。

生成式人脸先验算法是应用最广泛的一种方法，能够提供丰富的参考信息。[20214198]。例如，GFPGAN[198]在实现关节恢复和颜色增强之前，利用预训练GAN捕获的面部分布作为面部。同时，提出了一些特定的人脸先验来约束深度神经网络的训练过程。例如，身份先验[49]利用预训练的识别网络模型为人脸幻觉提供辅助的识别信息。最后，这些特定的面部先验是否可以进一步扩展到更多的图像增强和恢复任务中，仍然值得探索。

以利用人体信息为重点的研究也备受关注。值得注意的是，出现了三部代表性工作。Liu等[125]将人体不同部位(如手臂、衬衫)的解析信息引入SR网络骨干网；Shen等[172]利用人体检测信息将人与背景区分开来，设计了一个多分支网络，分别处理前景和背景，以解决与人体运动相关的运动模糊问题；Lumentut[130]利用人体位置信息引导网络关注人体模糊化。human-centric图像增强技术利用人体区域和背景之间的语义差异，允许网络通过识别不同的区域来提高性能。

Discussion：一些研究在SR和去模糊中利用了human-centric的先验，有效地整合了人体和面部的先验知识，赋予网络有价值的几何和语义信息。SR和去模糊技术在human-centric的场景中，包括姿势估计、人物再识别和VR的各种下游任务中起着关键作用。鉴于目前VR应用的广泛采用，应特别注意涉及human-centric图像增强的任务。在未来的努力中，可以有效地利用来自面部先验应用的宝贵见解，将3D和其他先验纳入其中，引导human-centric图像增强技术的发展。

6 Deep Learning-based Prior

基于深度学习的先验是从深度学习模型(如CNN)中学习到的，利用深度神经网络的结构和参数对图像进行恢复和增强。我们将此先验分为两个不同的部分：深度图像先验(第6.1节)和作为先验的预训练模型(第6.2节)。

6.1 深度图像先验

Insight：随机初始化的CNN可以仅基于退化的图像生成高质量的图像。CNN的结构可以作为先验。

CNN在图像处理任务中表现出了很强的能力。Ulyanov等人[189]发现卷积神经网络（CNN）的结构本质上可以捕捉自然图像分布。具体来说，它证明了网络不需要外部数据集来训练，并且可以仅仅依靠自身来恢复或增强图像。因此，CNN本身就是一个先验，被称为深度图像先验(DIP)。给定一个由θ参数化的随机初始化CNN, DIP运行一个优化过程，通过最小化任务相关的损失函数L，从噪声输入通过θ恢复观测图像，如图18所示。在大多数任务中，通常使用L2距离能量函数来比较生成的图像x和退化的图像 $x_0$ 。梯度下降为基础的方法被应用于优化θ产生一个有利的恢复图像 $x^ *$ 。

DIP是一个普遍先验，这可能是由于CNN固有的图像级归纳偏置。它可以很容易地应用于几乎所有的图像处理任务，如SR[189]、去模糊[158]、去雾[46]、去噪[90]。DIP的关键是它对许多任务的兼容性和令人印象深刻的性能。DIP具有高度的通用性，因为它不依赖于手工制作的核或方程，因此显著减轻了臭名昭著的超参数调优问题。利用DIP最常用的方法可能是设计新颖的网络结构和防止网络发生灾难性过拟合。下面将介绍这两个重要的研究方向。

6.1.1 深度图像先验的网络结构

神经网络的多样性和灵活性使DIP具有丰富的潜力。Heckel等[58]提出减轻DIP中CNN的繁重参数，发现轻量级的非卷积神经网络就足以生成高质量的图像。SelfDeblur[158]认为DIP仅限于捕获模糊核的先验，因为它被设计为生成自然图像。因此，它采用了一个额外的全连接网络来建模模糊核。不同的任务甚至图像往往需要不同的网络结构来达到最佳性能。因此，一些研究试图自动搜索合适的架构。[5]在DIP中引入了神经结构搜索，并在搜索空间中加入了新的成分，如上采样cell和跨尺度残差连接。尽管搜索空间很大，但它们通过添加特定于图像的度量显著减少了搜索时间。

DIP端到端还原整个图像，充当黑盒。为了可视化并使其更明确，另一项研究将多个CNN组合在一起，以便每个图像可以根据任务分解为几个层。Yosef等[46]首先提出了双DIP (Double-DIP, D-DIP)，将图像分解为几个基本成分。D-DIP使用一个DIP生成器网络构建一个层次，基于DIP能够捕捉整个图像的事实，这比一个层次更为复杂。这些基于解耦的方法可以很容易地应用于下游任务。例如，在去雾任务中，Li等[100]将雾霾图像分解为无雾图像层、透射图层和大气光层。最近，He等人[57]提出在网络中加入自注意，并将其命名为深度注意先验。出现的像素对应有助于更好的可解释性。

6.1.2 防止深度图像先验过拟合

DIP有一个基本原理：优化网络fθ以产生期望的输出 $x^*$ 。然而，优化仅仅是基于观察到的图像 $x_0$ ，这样的单图像训练存在巨大的过拟合风险。在任何任务中，为了生成更好的图像，必须防止过拟合或在训练过程中及时中断。否则可能导致输出收敛到目标退化 $x_0$ 或崩溃。

Cheng等[27]用贝叶斯方法对DIP进行了理论研究。他们表明，用随机梯度朗之万动力学代替随机梯度下降可以显著减少过拟合，并在去噪和补全任务中获得更好的结果。Quan等[154]提出使用基于伯努利采样的像素级dropout来减少去噪时的过拟合和预测偏差。此外，Jo等人[75]通过有效自由度监测DIP去噪过程，以施加及时停止。

先验可以指导搜索到高质量的图像，DIP可以灵活地与其他先验相结合。这里，其他图像先验作为DIP的显式正则化。一方面，一些下游任务将受益于给定的先验；另一方面，这些先验可以增强DIP并减轻过拟合。这种方法通常是在训练过程中将已有的先验作为损失函数的一项进行积分。例如，[136]采用去噪的方法进行正则化，Liu等[119]采用总变异TV先验。或者，Li等[105]提出在网络冻结的情况下优化初始噪声；MetaDIP[231]表明，用预训练的权值初始化网络也可以使优化时间更短，鲁棒性更强。

6.1.3 深度视频先验

由一系列图像组成的视频也可以从DIP中受益。Lei等人[97]提出了深度视频先验(Deep Video Prior, DVP)，并表明输出帧中对应之间的距离可以通过CNN在内部最小化。这是基于这样一个事实:给定一个CNN，在训练的早期阶段，相似的patch会产生相似的结果。因此，DVP在输出帧之间实现了令人信服的时间一致性，并且不需要手工制作显式正则化项。

Discussion：DIP以其简单性和通用性而闻名于世。它为低级视觉任务提供了新的见解，并点燃了探索深度模型属性的研究。DIP是一种普遍适用的有效的无监督方法，通常不受图像大小、内容或质量的限制。尽管与许多有监督的衍生品相比，vanilla DIP仍有不足，但其特定任务的衍生品已接近最先进的监督方法。DIP的优化过程具有图像特异性。DIP虽然不需要大规模的训练，但通常需要数千次迭代才能生成一幅令人满意的图像，耗费大量的时间和计算资源。此外，DIP往往会对退化图像进行过拟合。研究人员仍在积极寻求解决这两个问题的办法。

6.2 预训练模型作为先验

Insight：预训练的模型通常包含高质量图像或低质量图像的特定知识，可以用作深度图像恢复和增强的生成器或正则化术语。

6.2.1 GAN Inversion作为先验

GAN在图像生成[162,3]和编辑任务[162,184]中占据主导地位。一个训练有素的生成器理论上可以复制任何图像，给定相应的潜在码z。因此，预训练的 GAN 模型，如StyleGAN [82]，可以用作一种先验，即 GAN 先验。GAN先验是基于GAN Inversion的。首先将退化图像映射到唯一的潜在码，然后在潜在空间中搜索优选码。最后，通过优化后的代码可以直接生成恢复或增强的图像，如图19所示。简而言之，对于任意退化的图像 $\hat{x}$ 及其潜在码 $\hat{z}$ ，通过在预训练的生成器G的输出空间中找到一个自然潜在码z，即可得到自然图像x。

PULSE[139]首先通过在HR面部图像流形中提出一种有效的搜索策略，引入了人脸SR的GAN先验。由于隐码是一个维度有限的特征向量，可能无法捕捉到丰富的空间信息。为此，多码GAN先验[51]提出同时使用多个潜在码来处理一张图像。它们自适应地融合潜在代码在某个中间层G上产生的特征。有了这样一个更复杂的模型，GAN先验能够有更广泛的应用，如着色、去噪和补全。

然而，Pan等人[150]发现，生成器G捕获的图像流形与来自野外的输入图像之间存在差距，因为G可能会过拟合其训练数据集。为了解决这个问题，他们提出了深度生成先验(DGP)，它同时更新G和潜在代码z，在各种恢复任务中显示出明显的改进。另一个更好地利用GAN先验的策略是训练编码器 $E(x;θ_E)$ 事先生成图像特定的分布z，然后将其馈送给G。lean[18]在G之前添加了一个可训练的编码器，在G之后添加了一个解码器，用于SR任务。同样，在人脸恢复中，GFP-GAN[198]增加了退化去除模块，获得了高质量的G专用多层次空间特征。这些预处理或后处理可以进一步挖掘GAN先验的潜力。

6.2.2 在训练集合成中的生成先验

GAN还可以用于利用数据分布学习，并在生成配对合成训练集之前作为退化。具体来说，基于GAN的方法通过使用一个或多个鉴别器来区分生成的图像样本和真实图像样本，从而对退化过程的生成器模型进行预训练。按照这种方式，退化GAN[15]是一个具有代表性的框架，它结合了一个预训练的退化生成器，从HR图像生成LR图像，并提出了一个SR网络来超分辨率LR图像。为了减少生成的LR图像与真实LR图像之间的域差距，DASR[205]建议使用这两种类型的图像来训练SR模型。Zhang等人[229]提出了第一个框架，该框架学习如何使用未配对的锐利和模糊图像数据集模糊锐利图像，然后生成用于训练去模糊模型的图像对。

6.2.3 基于模型方法的深度去噪先验

由于经典的基于模型的方法具有可解释性和自适应性，一些图像恢复方法提出将深度神经网络整合到MAP (Maximum A Posteriori)框架中，并使用迭代优化算法作为正则化先验。给定干净的图像x和退化的图像y, MAP框架最小化由数据项和正则化项组成的能量函数。数据项使解与退化过程保持一致，而前一项使解具有期望的性质，以减轻不适定问题。基于该框架，Zhang等人[232]提出的一项代表性工作将一组快速有效的CNN去噪器集成到先验项中，以解决各种恢复任务，如去噪、去模糊和超分辨率。扩展工作[228]提出使用更强的U-Net去噪器来获得更好的性能，并将其应用于更多的恢复任务。在[36]中也采用了类似的思想，用深度去噪模型替换先前的项。此外，深度展开网络[227]提出以端到端方式优化包括去噪先验项在内的所有参数，从而提供更好的性能。

6.2.4 基于大规模基础模型的先验

大规模基础模型[11]，或大规模预训练模型，通过利用从大量训练数据中学习到的丰富表征，为各种图像恢复和增强任务提供了大量的先验知识。由于其强大的判别或生成能力，大规模基础模型，如连接文本和图像（CLIP）[156]、扩散模型[163]和分割任何模型（SAM）[88]，在图像增强任务中，如超分辨率（SR）、去噪和去模糊方面已经引起了关注。然而，由于对高保真结果的要求很高，将这些模型应用于图像增强任务面临挑战。为了解决这个问题，研究人员开发了新的方法[1,73,242]，利用基础模型的优势，同时为特定的任务定制它们。

CLIP[156]是一个大规模的基础模型，通过自然语言监督有效地获取视觉概念，利用包含超过4亿图像文本对的数据集。它可以在没有明确训练的情况下识别不同数据集的各种物体和场景。因此，ADIR[1]使用CLIP作为通用检索模型，检索语义相似的图像作为图像恢复任务的参考。TextIR[8]框架利用CLIP的文本-图像对齐特性，通过文本描述实现灵活可控的恢复。同时，[181]设计了一种恶劣天气图像恢复模型，该模型结合了空间自适应残差编码器和CLIP天气先验嵌入模块，以处理基于天气文本的不同天气条件。

Stable Diffusion[163]是一种潜在的文本到图像的扩散模型，该模型已经在包含23亿张英文字幕图像的庞大数据集上进行了训练。当提供文本输入时，该模型显示出生成逼真图像的能力。因此，它在图像恢复领域受到了极大的关注。盲SR方法[190]利用这些模型，采用时间感知编码器、可控特征包装模块和渐进聚合采样策略来克服尺寸限制，并在合成和现实世界基准测试中展示了出色的性能。

最后，对于分割基础模型，SAM[88]通过合并分割信息作为图像恢复任务的先验，特别是当退化与图像的语义内容相关时[71,207,242,129]。SAM的训练数据集目前是最大的分割数据集，包含超过1000万张图像和10亿个标签，如图20所示。该数据集的庞大规模超过了以往的数据集，从而使SAM模型表现出显著的泛化性能和鲁棒性，这将为图像增强领域带来巨大的机会。例如，已经开发了一种交互式图像恢复方法[71]，允许用户从一系列结果中进行选择，并通过SAM生成的掩模在每个对象级别上操作，以生成不同的结果。在[207]中，SAM提供了先验知识，例如：语义掩码，作为提高现有图像恢复模型性能的额外功能。同样，Enlightenment Anything[242]将SAM的语义掩模与低光图像融合，以增强视觉感知。在视频SR中，语义掩码可以作为帧对齐和融合的引导信息。此外，SAM在从雾天图像中检测灰度分割掩模方面显示出巨大的潜力[73]，可以为现有的去雾模型提供先验知识。这表明，将分割和恢复结合在一个统一的流水线中，可以大大提高恢复图像的质量。然而，由于SAM的新颖性，其全部潜在价值仍未被发掘。关于SAM进一步发展方向的讨论见第7.2节。我们希望本文能够为图像增强的基础模型提供新的思路。

Discussion：使用预训练模型作为先验的基本原理在于从大规模数据集中获得的知识的有效性，这可以作为图像增强的有价值的约束和指导。简而言之，预训练数据集提供的约束和指导的有效性随着其规模的增大而增加。最近，大型语言和视觉基础模型的出现引发了深度学习领域的新一波革命。利用这些大规模预模型在图像增强领域提供了一条有价值的研究途径，值得研究人员积极探索。

7 Open Problems and New Perspectives

7.1 开放性问题

到目前为止，我们回顾了各种深度图像恢复和增强任务的技术进展。这些先验相互紧密联系，在网络结构、数据生成、损失函数设计等方面起着举足轻重的作用。因此，了解先验和它们的应用范围之间的联系是至关重要的，这对于在社区中激发新的研究领域至关重要。本文主要讨论了先验的几个关键方面，包括它们之间的关系、泛化能力、潜在价值和应用。

先验与基于DL的方法的关系。根据第2节的理论分析，先验通过数据( $p_l$ 和 $p_h$ )和网络( $f_ϕ$ )两种方式影响深度图像恢复和增强方法，如图10所示。从数据的角度来看，一些先验，如基于核信息的先验(4.3.2节)，基于生成模型的先验(6.2.2节)，可以利用低质量(合成)图像中的退化信息来提高 $p_l$ 。相比之下，与 $p_h$ 相关的先验，例如，基于统计强度特征的先验(第4.1节)，是通过学习高质量图像的固有模式来构建的。从模型的角度来看，先验可以帮助DNN模型收敛，并通过增加 $f_φ$ 来指导其结构设计以获得更好的性能，例如时间先验(第3.2节)、语义先验(第5.1节)。因此，探索基于先验的深度图像恢复和增强方法的应用前景十分广阔。

不同先验之间的关系。先验之间有着广泛的联系，它们中的许多反映了图像的相似属性，并且一些先验可以更详细地表示其他先验，如表10所示。例如，暗通道先验[149]和亮通道先验[212]是图像通道统计先验的子集[212]。而极端通道先验[212]和梯度通道先验[132]是不同场景下图像稀疏度的具体表示，如4.1.1节所述。时域锐度先验 [103] 是时域先验的一种特殊形式，如第3.2节所述。因此，基于先验之间的联系来探索新的先验是有希望的。例如，暗通道先验可以扩展为自适应正则化项，以约束HDR和低光成像中的DNN模型。

先验对泛化能力的影响。用于图像恢复和增强的DNN模型训练纯粹是数据驱动的；因此，它倾向于寻找从输入到输出的解空间的捷径，导致在应用到另一个数据域时泛化能力有限[47]。一个典型的例子是，许多基于模拟数据集训练的基于DL的方法不能很好地推广到更复杂的现实场景[20]。先验可以更好地约束DNN模型，使其具有更强的泛化能力，因为先验可以帮助找到更有效的解空间，从而获得更好的泛化性能。例如，先验可以引导无监督域自适应的DNN模型将知识从模拟图像转移到真实图像[169,99]。此外，将在不同先验生成的模拟数据集上训练的DNN的知识转移到现实世界图像的模型学习中可能是一个潜在的方向。

先验与DNN结构的关系。先验从三个方面影响深度图像恢复和增强任务中的网络结构设计。第一个与网络本身密切相关。例如，非局部注意[197]可以是利用非局部自相似先验[237]的更好设计，因为它的结构可以很好地拟合该先验的性质。第二个问题与输出有关。一些先验约束了网络的输出，例如暗通道先验[34]。第三个与输入数据有关。例如，光流引导网络在处理输入时使用滑动窗口或序列[196,19]。相比之下，统计先验(第4.1节)，例如暗他搭配和梯度求导，在训练过程中往往更多地充当正则化项，与网络解耦。我们认为利用特定先验的性质来设计新的网络结构是势在必行的。

超越图像恢复和增强。图像恢复和增强任务是几乎所有高级视觉任务的基础。因此，可以探索用于深度图像恢复和增强的先验，以提高高级任务的性能。例如，Liu等人[118]使用去噪的先验来提高深度语义分割模型的性能。此外，面部先验(第5.2节)不仅可以用于图像增强任务，还可以用于人脸检测、分割和识别[20]。最后但并非最不重要的是，通常用于高级和低级视觉任务(第5.1节)的语义先验可以与其他先验相连接，以加强对这两个任务的学习。未来的研究可以考虑为高级和图像恢复任务设计更有效的网络结构，因为之前这两个任务都是独立学习的。

为什么一些先验算法没有广泛应用于DNN ？首先，DNN本身可以自动学习图像的一些特征，例如去模糊中的模糊核。例如，Su等人[141]提出了一种端到端去模糊网络，该网络优于之前的框架[178]，该框架集成了显式模糊核的先验。其次，一些先验，如非局部自相似先验(3.3节)，迄今尚未得到很好的研究，因此具有更积极研究的巨大潜力。例如，最近的Transformer框架在分类[85]和检测[127]等许多任务中都能获得比CNN框架更好的结果，因为Transformer框架可以获得非局部关注。最后一个原因是这些先验更多地被用作正则化[22]或损失函数[94]。例如，暗通道先验被设计为深度去雾网络中的损失函数[48]。综上所述，我们认为在这个方向上有很大的研究空间，因为先验可以用于各种深度图像恢复和增强任务。

7.2 新视角

由于大多数先验表明图像的内在属性，它们可以潜在地扩展到其他任务。然而，我们的回顾发现先验在特定深度恢复和增强任务中的应用存在一些差距，如表10所示。

基于核建模的先验潜力。在第4.3节中，我们回顾和分析了基于核和噪声信息的深度图像SR和去模糊的先验。一些基于DL的图像恢复任务，包括去雾、去雨和去雪方法，很少使用这些先验。然而，核估计是去雾、去雨和去雪的重要步骤[202]。因此，一个潜在的方向是将估计的核转换为一种新的先验类型，用于其他深度图像恢复和增强任务。

非局部自相似先验的潜力。非局部相似性先验反映了自然图像的显式模式，如第3.3节所述。然而，从表10可以看出，它仅用于典型的图像恢复和增强任务，如图像去模糊和SR。这种先验利用图像中一些小patch的再现，为图像恢复提供额外的细节[96]。这些详细的信息也有助于其他恢复和增强任务，包括HDR成像、图像去噪、图像去雾等。因此，有可能在更广泛的应用之前对其进行扩展。

面部先验的潜力。面部先验的研究主要集中在面部幻觉和去模糊。然而，面部先验的通用特征应该用于更多的任务。例如，Shen等人[170]利用人脸先验中人脸成分的几何和空间信息进行人脸图像幻觉。这种几何和空间信息在人脸中是常见的，这表明它可以用于支持人脸图像的HDR和低光图像增强。因此，利用面部先验进行HDR成像、弱光增强、脱噪等是一个潜在的发展方向，如表10所示。

统计图像特征作为先验的潜力。一些图像的统计特征先验，如L0正则化[148]、梯度剖面先验[179]和直方图均衡化[33]，被广泛用于传统的图像恢复和增强任务中。这些先验描述了高质量图像或低质量图像的一些特定属性，这在损失函数和正则化项方面是有用的。例如，可以将先验的梯度剖面作为边缘信息输入到深度SR网络中，对HR图像的边缘进行锐化。此外，直方图均衡化先验还可以监督深度HDR网络预测具有更高动态范围的图像。

多传感器融合的先验算法。近年来，事件相机和红外相机为深度图像恢复和增强带来了新的启示。事件相机比基于帧的相机有很多优势，比如HDR和无运动模糊[244,128]。红外摄像机也因其能反射更宽波长范围的光而备受关注[30]。这些传感器提供了传统摄像机在极端条件下无法捕捉到的关键视觉信息，例如高速运动和夜景。人们已经努力利用事件数据作为指导来提高深度图像恢复和增强的性能[191]。然而，如何利用这些新的相机数据作为先验，更好地指导DNN模型进行图像恢复和增强，仍然是亟待研究的问题。此外，考虑多传感器融合用于深度图像恢复和增强可能是有趣的。我们希望本文中分析的先验能够激发更多研究，以发现适用于这些新型传感器数据的新先验。

预训练模型的潜力。在第6.2.1节中，一些基于预训练生成器的GAN Inversion方法[51150]可以通过在潜在空间中搜索潜在代码来生成高质量的图像。这表明在大规模数据集上预训练的GAN模型可以从高质量的图像中学习到一些先验知识。因此，为其他图像恢复任务开发特定于任务的搜索策略是可能的。例如，对于图像去雾任务，搜索目标可以是干净场景的潜在代码，同时保持与退化级图像相同的语义。除了第6.2.2节之外，一些研究[169,221]提出使用GAN Pipeline，以端到端方式联合嵌入退化的图像合成和图像恢复任务。然而，这些图像合成方法受到特定任务训练数据集规模的限制。将GAN Inversion技术应用于图像合成可以提供一种利用从预训练GAN中学习到的图像分布的新视角。因此，通过生成更多看不见的图像来进一步增加数据的多样性是一个很有前途的方向。最近，大规模预训练模型的快速发展在各种下游任务中显示出巨大的潜力，例如零射击语义理解[4]和图像生成[166]。这些预训练模型由于具有大规模的训练数据，可以作为强先验，为各种图像恢复任务提供语义信息。

大规模基础模型的潜力。在第6.2.4节中，我们将大规模基础模型总结为先验模型，如CLIP[156]、Stable Diffusion[163]和SAM[88]。不同的下游应用[144,248]强调了这些大规模基础模型在提供可靠语义表示方面的多功能性。虽然一些大型基础模型已经用于图像增强和恢复任务，但这些模型的实际能力还远远没有得到充分利用，例如听从指令的能力。例如，最近的大规模语言模型，如GPT-4[146]，在遵循用户指令时显示出比以前的模型更好的Zero-Shot能力。展望未来，大规模基础模型在图像恢复和增强方面的潜力是巨大的。如Visual ChatGPT[206]所示，通过用户友好的交互界面集成多模态输入(如文本)，可以迭代地提高图像质量。此外，像Visual ChatGPT这样的系统的交互方法允许不断改进，根据文本指令产生更精确的结果。随着大尺度基础模型的发展，我们期望这些先进的能力可以用于提高图像增强和恢复任务的性能。例如，利用听从指令的能力对图像进行更深层次的语义理解或任务个性化，可以显著提高基于用户意图的图像恢复的准确性和保真度。

8 Conclusion

本文对先验算法在深度图像恢复和增强方面的最新进展进行了系统的分析。我们对先前常用的基于DL的方法进行了层次和结构分类。同时，我们对每个先验的原理、潜力和应用进行了深入的讨论。此外，我们总结了关键问题，强调了潜在的未来方向，以激发更多的研究在社区。

你可能感兴趣的:(图像恢复,深度学习,人工智能,计算机视觉)

[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
HTML 媒体(Media)
HTML媒体(Media)在当今数字化时代，HTML作为构建网页的基础语言，其重要性不言而喻。其中，媒体元素是HTML的重要组成部分，它允许我们在网页中嵌入音频、视频、图像等多媒体内容，从而丰富用户的浏览体验。本文将深入探讨HTML媒体元素的相关知识，包括其基本概念、常用标签、属性以及实际应用。媒体元素概述HTML媒体元素指的是在网页中嵌入音频、视频、图像等内容的标签。这些标签不仅能够丰富网页内容
深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
如何在YashanDB中实现自动化备份？数据库
引言在现代数据库管理系统中，数据的安全性和可恢复性越来越受到重视。尤其是在数据可能因人为失误、硬件故障或网络问题而丢失的情况下，自动化备份解决方案显得尤为重要。YashanDB作为一款高性能的关系型数据库，支持多种备份策略以确保数据的安全性和一致性。本文将深入探讨YashanDB的备份机制、支持的备份类型及如何实现自动化备份策略的具体步骤，旨在帮助数据库管理员和技术人员有效管理其数据备份工作。Ya
5.31.15 使用图像到图像转换和 YOLO 技术对先前的乳房 X 光检查结果中的异常进行早期检测和分类托比-马奎尔深度学习基础知识 YOLO
在本研究中，我们研究了基于You-Only-Look-Once(YOLO)架构的端到端融合模型的有效性，该模型可同时检测和分类数字乳房X光检查中的可疑乳腺病变。包括四类病例：肿块、钙化、结构扭曲和正常，这些病例来自包含413个病例的私人数字乳房X光检查数据库。对于所有病例，先前的乳房X光检查（通常是1年前扫描的）均报告为正常，而当前的乳房X光检查被诊断为癌变（经活检证实）或健康。方法：建议将基于Y
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
工业相机和镜头选型标准金蝶软件小李 OpenCV与机器视觉 Halcon机器视觉 C#程序设计语言基础数码相机计算机视觉算法人工智能深度学习
工业相机和镜头选型标准包括以下几点：相机选型标准分辨率：根据目标物的大小和检测精度来确定。分辨率越高，能捕捉到的细节越丰富，但也会增加数据处理量和成本。帧率：根据目标物或相机的运动速度来选择。高帧率相机适用于快速运动物体的捕捉和分析。传感器类型：CCD或CMOS。CCD在成像质量、色彩还原和信噪比方面更具优势，适用于对成像质量要求很高的场景；CMOS图像采集速度快，功耗低，集成度高，制造成本低，适
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
WPF之URI的使用要记得喝水 wpf c#visual studio windows
pack://application:,pack://application:,是一个在WPF(WindowsPresentationFoundation)应用程序中用于指定资源位置的URI(统一资源标识符)方案的特定格式。这个格式用于访问嵌入在应用程序程序集（assemblies）中的资源，如图像、XAML文件、样式等。解析这个URI的各个部分：**pack://：**这是URI方案的开始，表示
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
MongoDB数据库备份及恢复策略详解魑魅丶小鬼
本文还有配套的精品资源，点击获取简介：MongoDB，作为流行的开源NoSQL数据库，提供灵活、高性能和易用性的特点。为了保证数据安全和业务连续性，进行有效的备份和恢复策略至关重要。本文将介绍MongoDB的备份工具和方法，包括mongodump和mongorestore命令行工具，以及更复杂的云备份解决方案。同时，将通过一个中等规模的数据集实例来详细说明备份流程，强调备份前停止写入、执行备份、检
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
摄像头各参数的意义_详解：摄像头参数介绍说明序雨摄像头各参数的意义
摄像头的核心是CCD，由于CCD在生产过程中分不同等级和和生产商获得的途径不同，造成CCD的采集效果也不同。一个简单的检测方法，就是将摄像头通电，不接镜头，用手遮住镜头接口，看图像有没有亮点，雪花大不大，然后接上镜头，将摄像头对准一个色彩鲜明的物体，查看器的颜色是否有偏色，图像有无扭曲现象，色彩和灰度是否平滑。由于摄像头的核心部件是CCD，所以其主要参数大多与CCD有关，下面就列出摄像头的主要参数
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
20.XLD轮廓 Echo`` Halcon系统化学习计算机视觉人工智能算法
目录1.xld概念2.画轮廓3.区域转轮廓4.边缘提取算子5.xld特征提取6.提取任意线条7.提取最长的线条8.xld分割10.xld合并11.xld拟合12.xld几何变换13.xld变换14.xld集合运算15.区域和轮廓精度16.轮廓的保存读取17.halcon操作CAD文件18.轮廓测量算子19.同心度计算1.xld概念*图像处理*1.处理对象HObject*1.图像-image*2.区
MongoDB 数据库的备份与恢复 qq_33928223 数据库管理数据库 mongodb oracle
以下是MongoDB中使用mongodump和mongorestore进行数据库逻辑备份与恢复的完整指南：一、mongodump备份工具1.核心功能逻辑备份：将MongoDB中的数据以BSON/JSON格式导出到本地文件。灵活性：支持按数据库、集合、条件过滤备份。低影响：默认在后台运行，对线上服务影响较小。2.常用命令及参数mongodump\--host\#目标实例地址（默认localhost:
undo tablespace的恢复， database能不关闭最好不要关闭 jnrjian oracle 数据库
Appliesto:EnterpriseManagerforOracleDatabase-Version9.2.0.1to11.2.0.4Informationinthisdocumentappliestoanyplatform.PurposeProblemDescription:====================Thisisarecoveryscenarioinwhichadatafile
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
mysql 主从复制原理、实现方式以及主从同步延迟的处理方式
mysql主从复制原理、实现方式MySQL主从复制是实现高可用、读写分离和灾难恢复的核心机制，其本质是主库（Master）将数据变更异步同步到从库（Slave）。以下是深度解析：一、主从复制核心原理1.三线程协作模型BinlogDumpThreadI/OThreadSQLThread主库Master从库SlaveRelayLogSlaveDB线程所在位置职责BinlogDumpThread主库监听
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs