zzfive

stable diffuison论文阅读

论文链接：High-Resolution Image Synthesis with Latent Diffusion Models

文章目录

摘要
引言
- 普及高分辨率图像合成
- 向潜空间出发
相关工作
- 图像合成的生成模型
- 两阶段法图像合成
方法
- 感知图像压缩
- 隐空间扩散模型
- - 扩散模型
  - 隐空间表征的生成模型
- 条件机制
实验
- 感知压缩权衡
- 基于隐空间扩散的图像生成
- 条件隐空间扩散
- - 用于LDMs的Transformer编码器
  - 超过 $256^2$ 的卷积采样
- 基于隐空间扩散的超分辨率
- 基于隐空间扩散的修复
局限性和社会影响
- 局限性
- 社会影响
结论

摘要

通过将图像形成过程分解为去噪自动编码器的顺序应用，扩散模型(DMs)实现了对图像数据和其他数据的最先进的合成结果。此外，它们的表述允许一种引导机制来控制图像生成过程，而无需重新培训。然而，由于这些模型通常直接在像素空间中操作，所以优化功能强大的DMs通常需要花费数百天的GPU天，并且由于顺序评估，推理成本很高。为了在有限的计算资源上实现DM训练，同时保持其质量和灵活性，本文将它们应用于强大的预训练自动编码器的隐空间。与以前的工作不同，在这样的表示上训练扩散模型首次允许在降低复杂性和保持细节之间达到接近最优的点，从而极大地提高了视觉保真度。通过在模型体系结构中引入交叉注意层，将扩散模型转化为强大而灵活的生成器，用于文本或边界框等一般条件输入，并以卷积方式进行高分辨率合成。本文的隐空间扩散模型(LDMs)在图像修复和类别条件图像合成方面获得了最新的SOTA分数，在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上的性能具有很强的竞争力，同时与基于像素的DMs相比，显著减少了计算需求。

引言

图像合成是计算机视觉领域近年来发展最迅猛的领域之一，也是计算需求最大的领域之一。特别是复杂的自然场景的高分辨率合成目前主要由扩大的基于似然的模型控制，在自回归(AR)变压器中可能包含数十亿个参数。相比之下，GANs的良好结果大多局限于变异性相对有限的数据，因为它们的对抗学习过程不容易扩展到建模复杂的多模态分布。最近，由去噪自编码器层次构建的扩散模型在图像合成及其他方面取得了令人印象深刻的结果，并在类条件图像合成和超分辨率方面定义了最先进的技术。此外，与其他类型的生成模型相比，即使是无条件的DMs也可以很容易地应用于诸如inpainting和colorization或基于笔画的合成等任务。作为基于似然的模型，它们不像GANs那样表现出模式崩溃和训练不稳定性，而且通过大量利用参数共享，它们可以模拟高度复杂的自然图像分布，而不像AR模型那样涉及数十亿个参数。

图1 用较低的下采样提高可达到质量的上限。由于扩散模型为空间数据提供了极好的归纳偏差，不需要在隐空间中对相关生成模型进行大量的空间下采样，但仍然可以通过合适的自动编码模型大大降低数据的维数。图片来自DIV2K验证集，评估像素为512x512。用f表示空间下采样因子。在ImageNet-val上计算重建FIDs和PSNR

普及高分辨率图像合成

DMs属于基于似然的模型，其模式覆盖行为使它们易于在建模数据的难以察觉的细节上花费过多的容量(以及计算资源)。尽管重加权变分目标旨在通过对初始去噪步骤采样不足来解决这一问题，DMs仍然需要大量的计算，因为训练和评估这样的模型需要在RGB图像的高维空间中重复函数评估(和梯度计算)。例如，训练最强大的DMs通常需要数百个GPU天，并且在输入空间的噪声版本上重复评估也非常昂贵，因此在单个A100 GPU上生成50k个样本大约需要5天。这对研究界和一般用户有两个影响：首先，训练这样的模型需要大量的计算资源，而这些资源只在该领域的一小部分可用，并且会留下巨大的碳足迹。其次，评估一个已经训练好的模型在时间和内存上也很昂贵，因为相同的模型架构必须连续运行大量的步骤。

为了提高这个功能强大的模型类的可访问性，同时减少其显著的资源消耗，需要一种降低训练和采样计算复杂度的方法。因此，在不影响数据管理系统性能的前提下，减少数据管理系统的计算需求是提高其可访问性的关键。

向潜空间出发

本文的方法从分析像素空间中已经训练好的扩散模型开始：图2显示了训练模型的速率失真权衡。与任何基于似然的模型一样，学习大致可以分为两个阶段：第一个阶段是压缩感知阶段，它去除高频细节，但仍然学习不到语义变化。在第二阶段，实际生成模型学习数据的语义和概念组成(语义压缩)。因此，目标是首先找到一个感知上等价的，但在计算上更合适的空间，在那里将训练扩散模型用于高分辨率图像合成。

图2 阐述感知和语义压缩：数字图像的大多数位对应于难以察觉的细节。虽然DMs允许通过最小化责任损失项来抑制这些语义上无意义的信息，但梯度(在训练期间)和神经网络骨干(训练和推理)仍然需要在所有像素上进行评估，导致多余的计算和不必要的昂贵的优化和推理。本文提出隐空间扩散模型(LDMs)作为一种有效的生成模型和一个单独的温和压缩阶段，只消除难以察觉的细节

按照惯例，本文将训练分为两个不同的阶段：首先，训练一个自动编码器，它提供一个在感知上与数据空间等价的低维(因此是有效的)表示空间。重要的是，与之前的工作相比，本文不需要依赖过度的空间压缩，因为在学习的隐空间中训练DMs，这在空间维数方面表现出更好的缩放特性。降低的复杂性也提供了有效的图像生成从隐空间与单一网络通道。本文把得到的模型称为潜伏扩散模型(LDMs)。

这种方法的一个显著优点是，只需要训练一次通用自动编码阶段，然后将它用于多个DM训练或探索可能完全不同的任务。这使得对各种图像到图像和文本到图像任务的大量扩散模型的有效探索成为可能。对于后者，本文设计了一种架构，将Transformers连接到DM的UNet主干，并实现任何类型的基于tokens的条件反射机制。

总之，本文工作做出了以下贡献：

与纯粹基于Transformers的方法相比，本文方法更优雅地扩展到高维数据，因此：(a) 在压缩级别上工作，它提供比以前的工作更忠实和更详细的重建（见图 1）； (b) 可以有效地应用于百万像素图像的高分辨率合成
在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了具有竞争力的性能，同时显著降低了计算成本。与基于像素的扩散方法相比，还显著降低了推断成本
本文表明，与之前同时学习编码器/解码器架构和基于分数的先验的工作相比，本文方法不需要对重构和生成能力进行微妙的加权。这确保了极其忠实的重构，并且对隐空间的正则化要求非常少
发现，对于密集条件任务，如超分辨率、修复和语义合成，本文模型可以以卷积的方式应用，并渲染大的、一致的图像，约 $1024^2$ 像素
此外，设计了一种基于交叉注意的通用条件反射机制，实现了多模态训练。使用它来训练类条件模型、文本到图像模型和Layout-to-image模型
最后，在https://github.com/CompVis/latent-diffusion上发布了预训练的隐空间扩散和自动编码模型，除了DMs的训练之外，它还可以用于各种任务

方法

为了降低训练扩散模型对高分辨率图像合成的计算需求，观察到，尽管扩散模型允许通过对相应损失项进行过采样而忽略感知上不相关的细节，但它们仍然需要在像素空间中进行代价高昂的函数评估，这将导致计算时间和能量资源的巨大需求。建议通过将压缩与生成学习阶段明确分离来规避这一缺陷(见图2)。为了实现这一目标，本文使用了一种自编码模型，该模型学习的空间在感知上与图像空间相当，但显著降低了计算复杂度。

这种方法提供了几个优点：(i)通过离开高维图像空间，使得DMs在计算上更有效，因为采样是在低维空间上执行的；(ii)利用了继承自其UNet架构的DMs的归纳偏差，这使得它们对于具有空间结构的数据特别有效，因此减轻了以前方法所要求的积极的、降低质量的压缩级别的需求；(iii)最后，得到了通用压缩模型，其隐空间可用于训练多个生成模型，也可用于其他下游应用，如单图像的CLIP引导合成。

感知图像压缩

本文的感知压缩模型基于之前的工作，由一个自动编码器组成，该自动编码器由感知损失和基于patch的对抗目标的组合训练。这确保了重建通过强制局部真实感并避免仅仅依赖像素空间损失(例如 L2 或 L1 目标)引入的模糊性，从而仅限于图像流形。

更精确地说，在RGB空间中给定一个图像 $x ∈ R^{H×W ×3}$ ，编码器 $E$ 将 $x$ 编码为一个隐的表示 $z = E (x)$ ，解码器 $D$ 从隐空间的图像中重建图像，得到 $\tilde{x} = D(z) = D(E(x))$ ，其中 $z∈R^{h×w×c}$ 。重要的是，编码器以 $f = H / h = W / w$ 的因子对图像进行下采样，研究了不同的下采样因子 $f = 2^m,m∈N$ 。

为了避免任意高方差的隐空间，本文尝试了两种不同的正则化。第一个变体KL-reg.，对学习潜伏期的标准法线施加轻微的KL-penalty，类似于VAE；而VQ-reg.在解码器中使用矢量量化层。这个模型可以解释为一个VQGAN，但量化层被解码器吸收。因为本文后续DMs设计用于处理学习到的隐空间 $z = E (x)$ 的二维结构，所以可以使用相对温和的压缩率并实现非常好的重构。这与之前的工作形成对比，以前的工作依赖于学习空间 $z$ 的任意1D顺序来自回归建模其分布，从而忽略了 $z$ 的大部分固有结构。因此，本文的压缩模型更好地保留了 $x$ 的详细信息(见表8)。完整的目标和训练细节可以在附录中找到。

隐空间扩散模型

扩散模型

扩散模型是通过逐步去噪正态分布变量来学习数据分布 $p (x)$ 的概率模型，这对应于学习长度为 $T$ 的固定马尔可夫链的反向过程。对于图像合成，最成功的模型依赖于 $p (x)$ 上变分下界的重加权变体，它反映了去噪分数匹配。这些模型可以解释为去噪自编码器 $θ(x_t,t)$ 的等加权序列。 $T = 1 \dots\dots T$ ；它们被训练来预测其输入的去噪变体，其中 $x_t$ 是输入 $x$ 的噪声版本。相应的目标可以简化为：
$L_{DM}=E_{x,\epsilon \sim N(0,1),t}[||\epsilon-\epsilon_{\theta}(x_t,t)||^2_2],\tag{1}$
其中 $t$ 从 $\lbrace1,\cdot\cdot\cdot,T\rbrace$ 中均匀采样。

隐空间表征的生成模型

通过训练过的由 $E$ 和 $D$ 组成的感知压缩模型，现在可以获得一个有效的、低维的隐空间，其中高频的、难以察觉的细节被抽象出来。与高维像素空间相比，该空间更适合基于似然的生成模型，因为它们现在可以(i)专注于数据的重要语义位，(ii)在更低维、计算效率更高的空间训练。

与以前的工作不同的是，在高度压缩、离散的隐空间中，依赖自回归的、基于注意力的Transformers模型，可以利用本文模型提供的特定于图像的归纳偏差。这包括主要从2D卷积层构建底层UNet的能力，并使用重加权界限进一步将目标集中在感知上最相关的位上，目标更新为：
$L_{LDM}:=E_{E(x),\epsilon \sim N(0,1),t}[||\epsilon-\epsilon_{\theta}(z_t,t)||^2_2],\tag{2}$

本文模型中的神经主干 $\epsilon_θ(\cdot,t)$ 被实现为一个时间条件UNet。由于前向过程是固定的，所以在训练过程中可以有效地从 $E$ 中获取 $z_t$ ，而 $p (z)$ 中的样本只需经过一次 $D$ 就可以解码到图像空间中。

条件机制

与其他类型的生成模型相似，扩散模型原则上能够建模形式为 $p (z ∣ y)$ 的条件分布。这可以通过条件去噪自动编码器 $\epsilon_θ(z_t,t,y)$ 实现，并为通过输入 $y$ (如文本、语义映射或其他图像到图像的翻译任务)控制合成过程铺平了道路。然而，在图像合成的背景下，将DMs的生成能力与类条件标签或输入图像的模糊变体之外的其他类型条件结合在一起是一个尚未探索的研究领域。

本文通过使用交叉注意机制(cross-attention mechanism)来增强DMs的底层UNet主干，从而使其成为更灵活的条件图像生成器，该机制对于学习各种输入模式的基于注意的模型非常有效。为了从各种模态(如语言提示)对 $y$ 进行预处理，引入了一个领域特定的编码器 $τ_θ$ ，它将 $y$ 投影到一个中间表示 $τ_θ(y)∈R^{M ×d_τ}$ ，然后通过一个交叉注意层映射到UNet的中间层，实现注意 $softmax(\frac{QK^T}{\sqrt{d}})·V$ ，其中
$Q=W^{(i)}_Q\cdot\varphi_i(z_t),\,K=W^{(i)}_K\cdot\tau_{\theta}(y),\,V=W^{(i)}_V\cdot\tau_{\theta}(y).$
其中， $\varphi_i(z_t) \in R^{N \times d^i_{\epsilon}}$ 表示实现 $\epsilon_{\theta}$ 和 $W^{(i)}_V \in R^{d \times d^i_{\epsilon}},\,W^{(i)}_Q \in R^{d \times d_{\tau}},\,W^{(i)}_K \in R^{d \times d_{\tau}}$ 是可学习的投影矩阵的UNET的(扁平的)中间表示。具体架构见图3。

图3 LDMS模型架构

基于图像-条件对，通过以下公式学习有条件的LDM
$L_{LDM}:=E_{E(x),y,\epsilon \sim N(0,1),t}[||\epsilon-\epsilon_{\theta}(z_t,t,\tau_{\theta}(y))||^2_2],\tag{3}$
其中 $\tau_{\theta},\epsilon_{\theta}$ 通过公式3联合优化。这种条件作用机制是灵活的，因为 $τ_θ$ 可以通过特定领域的专家进行参数化，例如，当 $y$ 是文本提示时 $τ_θ$ 可以是(未掩码的)Transformers。

实验

LDMs为各种图像形态的基于扩散的图像合成提供了灵活的、计算上易于处理的方法，下文展示了这一点。然而，首先，分析了模型在训练和推理方面与基于像素的扩散模型相比的增益。有趣的是，发现在VQ正则化的隐空间中训练的LDMs有时会获得更好的样本质量，即使VQ正则的第一阶段模型的重建能力稍微落后于它们的连续模型，见表8。第一阶段正则化方案对LDMs训练的效果及其对分辨率 $256^2$ 图片的泛化能力的可视化比较可以在附录D.1中找到。附录E.2列出了本节中所有结果的架构、实现、训练和评估的详细信息。

感知压缩权衡

本节分析了具有不同下采样因子 $f∈{1，2，4，8，16，32}$ (缩写为LDM-f，其中LDM-1对应于基于像素的DM)的LDM的行为。为了获得可比的测试场，将本节中所有实验的计算资源固定为单个NVIDIA A100，并使用相同数量的步骤和相同数量的参数训练所有模型。表8显示了用于本节比较的LDM的第一阶段模型的超参数和重建性能。图6显示了ImageNet数据集上2M步类别条件模型的样本质量与训练进度的函数关系。发现，i）LDM-{1,2}的小降采样因子导致训练进度缓慢，而ii）过大的 $f$ 值在相对较少的训练步骤后导致保真度停滞。回顾上述分析（图1和2），将其归因于i）将大部分感知压缩留给扩散模型，以及ii）第一阶段压缩过强，导致信息丢失，从而限制了可实现的质量。LDM-{4-16}在效率和感知上可靠的结果之间取得了良好的平衡，这表现为在2M个训练步骤之后，基于像素的扩散(LDM-1)和LDM-8之间的显著FID差距为38。

在图7中，使用DDIM采样器比较了在CelebAHQ和ImageNet上训练的模型，并将其与FID分数进行比较。LDM-{4-8}在感知和概念压缩比率不合适的情况下优于模型。特别是与基于像素的LDM-1相比，它们实现了更低的FID分数，同时显著提高了样本吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。总之，LDM-4和LDM-8为获得高质量的合成结果提供了最佳条件。

基于隐空间扩散的图像生成

在CelebA-HQ， FFHQ， LSUN-Churches和LSUN-Bedroom上训练 $256^2$ 分辨率图像的无条件模型，评估i)样品质量；ii)数据流形的覆盖范围，使用FID精度和召回。表1总结了结果。在CelebA-HQ上，报告了一个新的最先进的FID，5.11，优于以前的基于似然的模型和GANs；也优于LSGM，其中隐空间扩散模型与第一阶段一起训练。相比之下，在固定的空间中训练扩散模型，避免了在隐空间上学习先验来权衡重建质量的困难，如图1-2所示。

表1 无条件图像合成的评估指标； $\dag:$ N-s是指使用DDIM采样器采样N步； $^*:$ 在KL正则化隐空间中进行训练；其他结果可在附录找到

除了LSUN-Bedroom数据集，本文模型在所有基于扩散的方法上都优于先前的方法，得分接近ADM，尽管使用了一半的参数，所需的训练资源少了4倍(见附录E.3.5)。此外，LDMs在精度和召回率方面持续优于基于GAN的方法，从而证实了基于模式覆盖似然的训练目标相对于对抗方法的优势。在图4中，还展示了每个数据集上的定性结果。

图4 样本来自使用CelebAHQ， FFHQ， LSUN-Churches， LSUN-Bedroom和类别条件ImageNet训练的LDMs，分辨率为256x256

图5 用户定义的文本提示样本来自本文文本到图像合成模型LDM-8 (KL)，该模型是在LAION数据库上训练；以200个DDIM步骤生成样品， $η = 1.0$ ；使用无条件引导， $s = 10.0$

图6 分析了ImageNet数据集上2M以上训练步具有不同下采样因子的类条件LDMs的训练。与具有较大下采样因子(LDM-{4-16})的模型相比，基于像素的LDM-1需要更大的训练时间。LDM-32中过多的感知压缩限制了整体样本质量。所有模型都在一台NVIDIA A100上训练，计算预算相同。100个DDIM步骤，且κ = 0

图7 在CelebA-HQ(左)和ImageNet(右)数据集上比较不同压缩的LDMs。不同的标记表示使用DDIM的{10,20,50,100,200}采样步骤，沿着每条线从右向左。虚线显示了200步的FID分数，表明LDM-{4-8}的强大性能。对5000个样本进行FID评分。在A100上对所有模型进行500k (CelebA) / 2M (ImageNet)步长训练

条件隐空间扩散

用于LDMs的Transformer编码器

通过在LDMs中引入基于交叉注意的条件反射，为它们打开了以前未被用于扩散模型的各种条件反射模式。对于文本到图像的图像建模，本文训练了一个1.45B参数KL正则化的LDM，条件为LAION-400M的语言提示。使用bert分词器并实现 $τ_θ$ 作为Transformer来推断一个隐空间编码，该编码通过(多头)交叉注意映射到UNet。这种可学习语言表示和视觉合成的领域特定专家的结合产生了一个强大的模型，它很好地概括了复杂的、用户定义的文本提示，如图8和图5所示。对于定量分析，遵循先前的工作，并在MS-COCO验证集上评估文本到图像的生成，其中本文的模型大幅度优于AR和基于GAN的方法，如表2所示。注意到，应用classifier-free扩散制导大大提高了样本质量，例如，引导的LDM-KL-8-G能与最新的最先进的AR和扩散模型在文本到图像合成中性能相当，同时大大减少了参数数量。为了进一步分析基于交叉注意的条件反射机制的灵活性，还训练模型在OpenImages上基于语义Layout合成图像，在COCO上基于finetune合成图像，见图8。量化评估和实施细节见附录D.3。

图8 在COCO上使用LDMs进行“Layout-to-image”的合成

表2 在256×256大小的MS-COCO数据集上评估文本条件图像合成：本文模型有250个DDIM步，尽管使用了明显较少的参数，但与最新的扩散和自回归方法相当

最后，根据之前的工作，使用表3、图4和附录D.4中的 $f∈{4,8}$ 评估了性能最佳的类别条件ImageNet模型；超越了最先进的扩散模型ADM，同时显著降低了计算需求和参数计数。

表3 将类别条件ImageNet LDM与最近在ImageNet上的类别条件图像生成的最新方法进行比较

超过 $256^2$ 的卷积采样

通过将空间对齐的条件信息连接到 $θ$ 的输入，LDMs可以作为高效的通用图像到图像转换模型。本文使用它来训练语义合成、超分辨率和修补的模型。对于语义合成，使用与semantic maps配对的景观图像，并将semantic maps的下采样版本与 $f = 4$ 模型(VQ-reg，见表8)的隐空间图像表征连接起来。在 $256^2$ (从 $384^2$ 中裁剪)的输入分辨率上进行训练，但发现本文们的模型可以泛化到更大的分辨率，并且当以卷积方式评估时，可以生成高达百万像素的图像(见图9)。利用这种行为也应用超分辨率模型和修补模型来生成 $512^2$ 到 $1024^2$ 之间的大图像。对于这种应用，信噪比(由隐空间的规模引起)显著影响结果。在附录D.1节中，在学习(i)由 $f = 4$ 模型(KL-reg)提供的潜空间的LDM时说明了这一点，见表8)和(ii)缩放版本，按组件的标准偏差进行缩放。后者结合classifier-free引导，也可以为图13所示的文本条件LDM-KL-8-G直接合成 $256^2$ 图像。

图9 在256×256分辨率上训练的LDMs可以推广到更大的分辨率(图中为512×1024)，用于空间条件任务，如景观图像的语义合成

基于隐空间扩散的超分辨率

通过拼接在低分辨率图像上直接进行条件调整，可以有效地训练LDMs实现超分辨率。在第一个实验中，遵循SR3，并使用4×-downsampling将图像退化固定为双三次插值，并按照SR3的数据处理管道在ImageNet上进行训练。使用在OpenImages (VQ-reg)上预训练的f = 4自动编码模型，并将低分辨率条件y与UNet的输入连接起来，即 $τ_θ$ 为恒等式。实验的定性和定量结果(见图10和表5)表现出具有竞争力的性能，LDM-SR在FID中优于SR3，而SR3具有更好的IS。一个简单的图像回归模型获得了最高的PSNR和SSIM得分；然而，这些指标并不能很好地与人类的感知保持一致，而且比起不完全一致的高频细节，它们更倾向于模糊。此外，进行了一项用户研究，将像素基线与LDM-SR进行比较。遵循SR3，向人类受试者展示了两张高分辨率图像之间的一张低分辨率图像，并询问他们的偏好。表4的结果证实了LDM-SR的良好性能。PSNR和SSIM可以通过使用post-hoc引导机制来推动，通过感知损失来实现这个基于图像的引导，参见附录D.6。

图10 ImageNet 64→256超分辨率的ImageNet- val。LDM-SR在渲染真实纹理方面具有优势，而SR3可以合成更连贯的精细结构

表4 任务1：向受试者展示基本事实和生成的图像，并询其偏好；任务2：受试者必须在两张生成的图像中做出选择

表5 ×4 ImageNet-Val上的上采样结果(256×256)；†：在验证集上计算FID特征，‡：在训练集上计算FID特征；*：在NVIDIA A100上评估

由于双三次退化过程不能很好地推广到不遵循此预处理的图像，本文还通过使用更多样化的退化来训练一个通用模型LDM-BSR。结果见附录D.6.1。

基于隐空间扩散的修复

“修复”是用新内容填充图像的遮蔽区域的任务，要么是因为图像的部分已经损坏，要么是为了替换图像中现有的但不需要的内容。本文评估了用于条件图像生成的一般方法与用于此任务的更专门的、最先进的方法的比较情况。评估遵循LaMa协议，这是一种最近的修补模型，它引入了一种依赖于快速傅里叶卷积的专用架构，详情见附录E.2.2。

首先分析了第一阶段不同设计选择的效果。特别地，比较了LDM-1(即基于像素的条件DM)与LDM-4的嵌入效率，对于KL和VQ正则化，以及VQLDM-4在第一阶段没有任何关注的情况下(见表8)，后者在高分辨率解码时减少了GPU内存。为了可比性，固定了所有模型的参数数量。表6报告了分辨率 $256^2$ 和 $512^2$ 下的训练和采样吞吐量，每个epoch的总训练时间(以小时为单位)，以及六个epoch后验证分割上的FID得分。总的来说，观察到基于像素和隐空间的扩散模型之间的速度至少提高了2.7倍，同时FID得分提高了至少1.6倍。

表6 评估维修效率；†：与图7的偏差，由于不同的GPU设置/批处理大小

通过与表7中其他修复方法的比较，本文的模型在注意条件下比Resolution-robust Large Mask Inpainting with Fourier Convolutions提高了FID测量的整体图像质量；未掩模图像与样本之间的LPIPS也略高。将此归因于Resolution-robust Large Mask Inpainting with Fourier Convolutions只产生单一结果，与本文的LDM产生的不同结果相比，该结果倾向于恢复更多的平均图像。此外，在一项用户研究(表4)中，人类受试者更倾向于本文结果。

表7 Places试验图像中30k张512 × 512裁剪的修复性能比较；列40-50%报告在硬示例上计算的指标，其中40-50%的图像区域必须被修复

基于这些初始结果，本文也在没有注意的VQ正则化第一阶段的潜空间中训练了一个更大的扩散模型(在表7中较大)。在Diffusion Models Beat GANs on Image Synthesis之后，该扩散模型的UNet在其特征层次结构的三个层次上使用了注意层，即BigGAN残差块进行上下采样，参数由215M变为387M。训练后，注意到在 $256^2$ 和 $512^2$ 分辨率下产生的样品质量存在差异，怀疑这是由额外的注意模块引起的。然而，在 $512^2$ 分辨率下对模型进行半个epoch的微调，可以使模型适应新的特征统计数据，并在图像修复上设置新的FID状态(见表7、图11)。

图11 物体去除的定性结果

局限性和社会影响

局限性

虽然与基于像素的方法相比，LDMs显著减少了计算需求，但其顺序采样过程仍比GANs慢。此外，当需要高精度时，LDMs的使用可能是值得怀疑的：尽管在本文的 $f = 4$ 自动编码模型中，图像质量的损失非常小(见图1)，但它们的重建能力可能成为像素空间中需要细粒度精度的任务的瓶颈。假设本文的超分辨率模型在这方面已经有一定的局限性。

社会影响

图像等媒体的生成模型是一把双刃剑：一方面，它们使各种创造性应用成为可能，特别是像本文这样降低训练和推理成本的方法，有可能促进这种技术的使用，并使其探索民主化。另一方面，这也意味着创建和传播被操纵的数据或传播虚假信息和垃圾邮件变得更加容易。特别是，故意操纵图像(“deep fakes”)是这一背景下的一个常见问题，女性尤其受其影响较大。

生成式模型还可以显示其训练数据，当数据包含敏感或个人信息，且未经明确同意收集时，这一点非常值得关注。然而，这在多大程度上也适用于图像的DMs还没有完全理解。最后，深度学习模块倾向于重现或加剧数据中已经存在的偏见。虽然扩散模型比基于GAN的方法更好地覆盖了数据分布，但结合了对抗性训练和基于似然的目标的两阶段方法在多大程度上歪曲了数据仍然是一个重要的研究问题。

结论

本文提出了隐空间扩散模型，这是一种简单有效的方法，可以显著提高去噪扩散模型的训练效率和采样效率，而不降低其质量。基于这一点和本文的交叉注意调节机制，实验可以在没有任务特定架构的广泛条件图像合成任务中显示出较先进的方法更好的结果。

表8 在OpenImages训练，在ImageNet-Val评估的完整的自动编码器族；†：表示无注意自动编码器

你可能感兴趣的:(生成模型,论文阅读,扩散模型,论文阅读,计算机视觉,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发