十小大

【图像去噪/扩散模型】Deconstructing Denoising Diffusion Models for Self-Supervised Learning(l-DAE)

前言

论文题目：Deconstructing Denoising Diffusion Models for Self-Supervised Learning —— 基于自监督学习的解构去噪扩散模型

论文地址：Deconstructing Denoising Diffusion Models for Self-Supervised Learning

2024何凯明最新工作，去噪扩散模型！

Abstract

在这项研究中，我们研究了最初用于图像生成的去噪扩散模型 (DDM) 的表示学习能力。我们的理念是解构 DDM，逐渐将其转换为经典的去噪自动编码器 (DAE)。这种解构过程使我们能够探索现代 DDM 的各种组件如何影响自监督表示学习。我们观察到，只有少数现代组件对于学习好的表示至关重要，而其他许多组件并不重要。我们的研究最终得出了一种高度简化的方法，在很大程度上类似于经典的DAE。我们希望我们的研究在现代自我监督学习领域重新点燃了一系列经典方法的兴趣。

1. Introduction

去噪是生成模型在计算机视觉和其他领域当前趋势的核心。目前流行的被称为去噪扩散模型(DDM)，这些方法[36,37,38,23,29,11]学习了一个去噪自动编码器(DAE)[39]，它消除了扩散过程驱动的多个级别的噪声。这些方法取得了令人印象深刻的图像生成质量，特别是对于高分辨率、逼真的图像[33,32]——事实上，这些生成模型是如此好，以至于它们似乎具有很强的识别表示来理解视觉内容。

虽然 DAE 是当今生成模型的强大功能，但它最初是为以自我监督的方式从数据中学习表示 [39] 而提出的。在当今表示学习社区中，DAE 可以说是最成功的变体基于“掩蔽噪声”[39]，例如预测语言中缺失的文本（例如，BERT [10]）或图像中缺失的补丁（例如，MAE [21]）。然而，在概念上，这些基于掩码的变体与去除加性（例如高斯）噪声显着不同：虽然掩码标记明确指定未知与已知内容，但在分离加性噪声的任务中没有干净的信号。然而现今用于生成的 DDM 主要基于加性噪声，这意味着它们可以在没有明确标记未知/已知内容的情况下学习表示。

最近，人们对检查 DDM 的表示学习能力越来越感兴趣 [40, 28]。特别是，这些研究直接使用现成的预训练 DDM [23, 32, 11]，这些 DDM 最初用于生成，并评估它们的表示质量以进行识别。他们报告了使用这些面向生成的模型的令人鼓舞的结果。然而，这些开创性的研究显然留下了悬而未决的问题：这些现成的模型是为生成而设计的，而不是识别；目前尚不清楚表示能力是通过去噪驱动的过程还是扩散驱动的过程获得的。

在这项工作中，我们更深入地研究了这些最近探索初始化的方向[40，28]。使用面向生成的现成 DDM，我们训练面向识别的模型。我们哲学的核心是解构 DDM，逐步将其更改为经典的 DAE。通过这个解构的研究过程，我们检查了现代 DDM 的每个单独方面（我们可以想到），目标是学习表示。这项研究过程为我们提供了对 DAE 学习良好表示的关键组件是什么的新理解。

令人惊讶的是，我们发现主要的关键组件是一个标记器[33]，它创建了一个低维潜在空间。有趣的是，这一观察结果在很大程度上独立于标记器的细节——我们探索了一个标准的VAE[26]，一个patch-wise VAE，一个patch-wise AE和一个patch-wise PCA编码器。我们发现它是低维潜在空间，而不是分词器特定的，这使得 DAE 能够获得良好的表示。

由于 PCA 的有效性，我们的解构轨迹最终达到了与经典 DAE 高度相似的简单架构（图 1）。我们使用补丁 PCA 将图像投影到潜在空间中，添加噪声，然后通过逆 PCA 将其投影回它。然后我们训练一个自动编码器来预测去噪后的图像。我们将此架构称为“潜在去噪自动编码器”（l-DAE）。
图 1. 我们最终达到的潜在去噪自动编码器 (l-DAE) 架构，经过彻底探索解构去噪扩散模型 (DDM) [23]，目标是尽可能地接近经典的去噪自动编码器 (DAE) [39]。在这里，干净图像（左）使用补丁 PCA 投影到潜在空间，其中添加了噪声（中间）。然后它通过逆 PCA 投影回像素。学习自动编码器来预测去噪图像（右）。这种简单的架构在很大程度上类似于经典的 DAE（主要区别在于噪声被添加到潜在中），并实现了具有竞争力的自监督学习性能。

我们的解构轨迹还揭示了许多其他有趣的属性，这些属性位于 DDM 和经典 DAE 之间。例如，我们发现即使使用单个噪声水平（即不使用 DDM 的噪声调度）也可以使用我们的 l-DAE 取得不错的结果。使用多级噪声的作用类似于数据增强的一种形式，可能是有益的，但不是启用因素。有了这个和其他观察，我们认为DDM的表示能力主要是通过去噪驱动的过程获得的，而不是扩散驱动的过程。

最后，我们将我们的结果与以前的基线进行比较。一方面，我们的结果大大优于现成的结果（遵循 [40, 28] 的精神）：正如预期的那样，因为它们是我们解构的起点。另一方面，我们的结果缺乏基线对比学习方法（例如 [7]）和基于掩码的方法（例如 [21]），但差距减少了。我们的研究为进一步研究 DAE 和 DDM 的方向提供了更多空间。

2. Related Work

在机器学习和计算机视觉的历史中，图像的生成（或其他内容）与无监督或自我监督学习的发展密切相关。生成方法在概念上是非/自我监督学习的形式，其中模型在没有标记数据的情况下进行训练，学习捕获输入数据的底层分布。

人们普遍认为，模型生成高保真数据的能力表明其学习良好表示的潜力。例如，生成对抗网络 (GAN) [18] 引起了人们对对抗性表示学习的广泛兴趣 [13, 12]。变分自动编码器 (VAE) [26] 最初被概念化为近似数据分布的生成模型，已演变为学习局部表示（“令牌”）的标准，例如 VQVAE [30] 和变体 [16]。图像修复[2]本质上是条件图像生成的一种形式，导致了一系列现代表示学习方法，包括上下文编码器[31]和掩码自动编码器(MAE)[21]。

类似地，去噪扩散模型 (DDM) [36, 37, 38, 23, 11] 的出色生成性能引起了人们对它们在表示学习方面的潜力的关注。开创性的研究[40，28]已经开始通过评估现有的预先训练的DDM网络来研究这个方向。然而，我们注意到，虽然模型的生成能力表明一定程度的理解，但它不一定转化为对下游任务有用的表示。我们的研究更深入地研究了这些问题。

另一方面，尽管去噪自动编码器 (DAE) [39] 为基于自动编码的表示学习奠定了基础，但它们的成功主要局限于涉及基于掩码的损坏的场景（例如，[21, 41, 17, 5]）。据我们所知，很少或没有最近的研究报告了具有加性高斯噪声的经典 DAE 变体的结果，我们相信根本原因是简单的 DAE 基线（图 2(a)）表现不佳 1（例如，在 ∼20% 图 5）。

3. Background: Denoising Diffusion Models

我们的解构研究始于去噪扩散模型 (DDM) [36, 37, 38, 23, 11]。我们简要描述我们使用的 DDM，如下 [11, 32]。

扩散过程从干净的数据点 (z0) 开始，并依次向它添加噪声。在指定的时间步 t，噪声数据 zt 由下式给出：
$z_{t}=\gamma_{t} z_{0}+\sigma_{t} \epsilon\tag{1}$
其中 ε∼N (0, I) 是从高斯分布中采样的噪声图，γt 和 σt 分别定义了信号和噪声的比例因子。默认情况下，它被设置为γ2t+σ2t=1[29，11]。

学习去噪扩散模型去除噪声，以时间步长 t 为条件。与预测干净输入的原始 DAE [39] 不同，现代 DDM [23, 29] 通常预测噪声 ε。具体来说，这种形式的损失函数最小化：
$\left\|\epsilon-\operatorname{net}\left(z_{t}\right)\right\|^{2}\tag{2}$
其中 net(zt) 是网络输出。该网络在给定噪声调度的情况下针对多个噪声水平进行训练，以时间步长 t 为条件。在生成过程中，迭代地应用经过训练的模型，直到达到干净的信号 z0。

DDM 可以在两种类型的输入空间上运行。一种是原始像素空间[11]，其中原始图像x0直接用作z0。另一种选择是在[33]之后，在标记器产生的潜在空间中构建DDM。见图2(b)。在这种情况下，使用预训练的标记器 f（通常是另一个自动编码器，例如 VQVAE [30]）将图像 x0 映射到其潜在 z0=f (x0)。

扩散变压器(DiT)。我们的研究始于扩散变压器(DiT)[32]。我们选择这种基于 Transformer 的 DDM 有几个原因：（i）与其他基于 UNet 的 DDM [11, 33] 不同，基于 Transformer 的架构可以提供与其他由 Transformer 驱动的自监督学习基线的更公平的比较（例如，[7, 21]）； (ii) DiT 在编码器和解码器之间具有更清晰的区别，而 UNet 的编码器和解码器通过跳跃连接连接，在评估编码器时可能需要对网络手术进行额外的努力； (iii) DiT 比其他基于 UNet 的 DDM（参见 [32]）快得多，同时实现更好的生成质量。

我们使用 DiT-Large (DiT-L) 变体 [32] 作为我们的 DDM 基线。在 DiT-L 中，编码器和解码器放在一起具有 ViT-L [15]（24 个块）的大小。我们评估了编码器的表示质量（线性探测精度），它有 12 个块，称为“1/2L”（半大）。

分词器。[32]中实例化的DiT是一种潜在扩散模型(LDM)[33]的形式，它使用VQGAN标记器[16]。具体来说，这个VQGAN标记器将256×256×3输入图像(height×width×channels)转换为32×32×4潜在映射，步幅为8。

开始基线。默认情况下，我们在ImageNet[9]上训练400个epoch的模型，分辨率为256×256像素。实现细节见第A节。

我们的 DiT 基线结果报告在表1（第 1 行）。使用 DiT-L，我们使用其 1/2 L 编码器报告 57.5% 的线性探针准确度。这个DiT-L模型的生成质量(Fŕechet Inception Distance [22]， FID-50K)为11.6。这是我们破坏性轨迹的起点。

尽管实现细节存在差异，但我们的起点在概念上遵循最近的研究40，28，它在线性探测协议下评估现成的DDM。

4. Deconstructing Denoising Diffusion Models

我们的解构轨迹分为三个阶段。我们首先将 DiT 中的以生成为中心的设置调整为更面向自我监督学习（第 4.1 节）。接下来，我们逐步解构和简化分词器步骤（第 4.2 节）。最后，我们试图尽可能地逆转尽可能多的 DDM 动机设计，将模型推向经典的 DAE [39]（第 4.3 节）。我们在第4.4节中从这个解构过程中总结了我们的学习。

4.1. Reorienting DDM for Self-supervised Learning

虽然 DDM 在概念上是一种 DAE 的形式，但它最初是为图像生成而开发的。DDM 中的许多设计都面向生成任务。一些设计对于自我监督学习并不合法（例如，涉及类标签）；如果不考虑视觉质量，则其他一些设计是不必要的。在本小节中，我们将重新定向我们的 DDM 基线以进行自我监督学习，总结在表1.

删除类条件反射。高质量的 DDM 通常通过对类标签进行条件训练，这可以大大提高生成质量。但是在我们的自我监督学习研究的背景下，类标签的使用根本不合法。作为第一步，我们在基线中删除了类条件。

令人惊讶的是，删除类条件大大提高了线性探针准确度从 57.5% 提高到 62.1%（表 1）。1)，即使生成质量受到预期的影响很大（FID 从 11.6 到 34.2）。我们假设直接在类标签上调节模型可以减少模型对与类标签相关的信息进行编码的需求。删除类条件可以迫使模型学习更多的语义。
解构VQGAN。在我们的基线中，LDM[33]提出的VQGAN标记器和DiT继承，使用多个损失项进行训练:(i)自动编码重建损失;(ii) KL-divergence正则化损失[33];(iii)基于为ImageNet分类训练的监督VGG网络[35]的感知损失[44];(iv)带有鉴别器的对抗性损失[18,16]。我们在 Tab1 中消融后两项.

由于感知损失[44]涉及有监督的预训练网络，使用用这种损失训练的VQGAN是不合法的。相反，我们训练了另一个 VQGAN 标记器 [33]，其中我们删除了感知损失。使用此标记器将线性探针准确度从 62.5% 显着降低到 58.4%（表 1）。1) 然而，到目前为止，它提供了第一个合法的条目。这种比较表明，使用感知损失（带有类标签）训练的标记器本身提供了语义表示。我们注意到，在本文的剩余部分，现在不使用感知损失。

我们训练了下一个进一步去除对抗性损失的VQGAN标记器。它略微将线性探针准确度从 58.4% 增加到 59.0%（表 1）。1)。有了这个，我们此时的分词器本质上是一个 VAE，我们将在下一小节中继续解构。我们还注意到，删除任一损失会损害生成质量。

替换噪音时间表。在生成任务中，目标是逐步将噪声图转换为图像。因此，原始噪声调度在非常嘈杂的图像上花费了许多时间步长（图 3）。如果我们的模型不是面向生成的，这不是必需的。

出于自我监督学习的目的，我们研究了一个更简单的噪声计划。具体来说，我们让 γ2t 在 1>γ2t ≥0 的范围内线性衰减（图 3）。这允许模型在更清晰的图像上花费更多的容量。这种变化大大提高了线性探针准确度从 59.0% 提高到 63.4%（表 1）。1)，这表明原始时间表过于关注噪音较大的制度。另一方面，正如预期的那样，这样做会进一步损害生成能力，导致 FID 为 93.2。

总结。总体而言，Tab 1中的结果表明自监督学习性能与生成质量无关。DDM的表示能力不一定是其生成能力的结果。

4.2. Deconstructing the Tokenizer

接下来，我们通过进行实质性简化来进一步解构 VAE 分词器。我们将以下四种自动编码器变体作为标记器进行比较，每个变体都是前面一个的简化版本：

卷积VAE。到目前为止，我们的 deconstruction 为我们提供了 VAE 标记器。按照惯例[26,33]，该VAE的编码器f(·)和解码器g(·)是深度卷积(conv)神经网络[27]。这种卷积 VAE 最小化了以下损失函数： $\|x-g(f(x))\|^{2}+\mathbb{K} \mathbb{L}[f(x) \mid \mathcal{N}]$ 这里，x 是 VAE 的输入图像。第一项是重建损失，第二项是 f (x) 和单位高斯分布的潜在分布之间的 KullbackLeibler 散度 [3, 16]。
Patch-wise VAE。接下来我们考虑一个简化的情况，其中 VAE 编码器和解码器都是线性投影，VAE 输入 x 是一个补丁。这个patch-wise VAE的训练过程使这种损失最小化: $\left\|x-U^{T} V x\right\|^{2}+\mathbb{K} \mathbb{L}[V x \mid \mathcal{N}] .$ 这里 x 表示展平为 D 维向量的补丁。U 和 V 都是 d×D 矩阵，其中 d 是潜在空间的维度。我们按照 [15] 将补丁大小设置为 16×16 像素。
Patch-wise AE。我们通过删除正则化项来进一步简化 VAE： $\left\|x-U^{T} V x\right\|^{2} .$ 因此，这个标记器本质上是补丁上的自动编码器 (AE)，编码器和解码器都是线性投影。
Patch-wise PCA。最后，我们考虑一个更简单的变体，它在补丁空间上执行主成分分析 (PCA)。很容易证明 PCA 等价于 AE 的一个特例： $\left\|x-V^{T} V x\right\|^{2} .$ 其中 V 满足 VVT =I (d×d 单位矩阵)。PCA 基础可以简单地通过对大量随机采样的补丁进行特征分解来计算，不需要基于梯度的训练。

由于使用补丁的简单性，对于三个补丁标记器，我们可以在补丁空间中可视化它们的过滤器（图 4）。

表 2 总结了使用这四种标记器变体的 DiT 的线性探针精度。我们展示了结果 w.r.t.潜在维度“每个令牌”。我们得出以下观察结果。
分词器的潜在维度对于 DDM 在自我监督学习中运行良好至关重要。

如表2中所示，尽管标记器的架构和损失函数存在差异，但所有四个变体都表现出类似的趋势。有趣的是，最佳维度相对较低（d 为 16 或 32），即使每个补丁的完整维度要高得多（16×16×3=768）。

令人惊讶的是，卷积 VAE 标记器既不必要也不有利；相反，所有基于补丁的标记器，其中每个补丁都是独立编码的，彼此的表现相似，并且始终优于 Conv VAE 变体。此外，KL 正则化项是不必要的，因为 AE 和 PCA 变体都运行良好。

令我们进一步惊讶的是，即使是 PCA 分词器也能很好地工作。与 VAE 或 AE 对应物不同，PCA 分词器不需要基于梯度的训练。使用预先计算的 PCA 基础，PCA 分词器的应用类似于图像预处理的一种形式，而不是“网络架构”。PCA 标记器的有效性在很大程度上帮助我们将现代 DDM 推向经典的 DAE，我们将在下一节中展示。

高分辨率、基于像素的 DDM 在自监督学习方面较差。

在我们继续之前，我们报告了与上述观察结果一致的额外消融。具体来说，我们考虑一个“näıve标记器”，它对从调整大小的图像中提取的补丁执行恒等映射。在这种情况下，“令牌”是由补丁所有像素组成的平坦向量。

在图 5 中，我们展示了这种“基于像素的”标记器的结果，分别在 256、128、64 和 32 的图像大小上运行，补丁大小分别为 16、8、4、2。这些标记化空间的“潜在”维度是每个标记的 768、192、48 和 12。在所有情况下，Transformer 的序列长度保持不变（256）。
有趣的是，这种基于像素的分词器表现出与我们所研究的其他分词器的类似趋势，尽管最佳维度发生了变化。特别是，最佳维度为 d=48，对应于 64 的图像大小，补丁大小为 4。图像大小为 256，补丁大小为 16 (d=768)，线性探针准确率急剧下降到 23.6%。

这些比较表明，标记器和由此产生的潜在空间对于 DDM/DAE 在自监督学习场景中具有竞争力至关重要。特别是，在像素空间上应用具有加性高斯噪声的经典DAE会导致较差的结果。

4.3. Toward Classical Denoising Autoencoders

接下来，我们继续我们的解构轨迹，旨在尽可能接近经典的DAE[39]。我们试图删除当前基于 PCA 的 DDM 和经典 DAE 实践之间仍然存在的每个单个方面。通过这个解构过程，我们更好地了解每个现代设计如何影响经典 DAE。表3 给出了结果，接下来讨论。

预测干净的数据（而不是噪声）。虽然现代 DDM 通常预测噪声 ε（参见等式（2）），但经典的 DAE 相反预测干净的数据。我们通过最小化以下损失函数来检查这种差异：
$\lambda_{t}\left\|z_{0}-\operatorname{net}\left(z_{t}\right)\right\|^{2}\tag{3}$
这里 z0 是干净数据（在潜在空间中），net(zt) 是网络预测。λt 是一个 t 相关的损失权重，用于平衡不同噪声水平的贡献 [34]。建议根据[34]设置λt = γ2t /σ2t。我们发现设置 λt = γ2t 在我们的案例中效果更好。直观地说，它只是将更多的权重放在清理器数据（更大的 γt）的损失项上。

随着预测干净数据（而不是噪声）的修改，线性探针准确度从 65.1% 下降到 62.4%（表3)。这表明预测目标的选择会影响表示质量。

尽管我们在这一步中遭受退化，但我们将坚持现在的修改，因为我们的目标是转向经典的DAE.

删除输入缩放。在现代 DDM（参见等式（1））中，输入按 γt 因子缩放。这在经典 DAE 中并不常见。接下来，我们研究去除输入缩放，即我们设置γt≡1。由于γt是固定的，我们需要直接在σt上定义一个噪声调度。我们简单地将 σt 设置为从 0 到 √2 的线性调度。此外，我们根据经验将方程式中的权重设置为 λt = 1/(1 + σ2t )，这再次更加强调更干净的数据（较小的 σt）。在固定 γt ≡ 1 之后，我们实现了 63.6% 的良好准确度（表3)，这与不同的 γt 对应物的 62.4% 相比具有优势。这表明在我们的场景中不需要用 γt 缩放数据。

用逆PCA对图像空间进行操作。到目前为止，对于我们探索的所有条目（图 5 除外），该模型对标记器产生的潜在空间进行操作（图 2 (b))。理想情况下，我们希望我们的 DAE 可以直接在图像空间上工作，同时仍然具有良好的准确性。使用 PCA，我们可以通过逆 PCA 来实现这一目标。

这个想法如图1所示。特别地，我们通过PCA基(即V)将输入图像投影到潜在空间中，在潜在空间中添加噪声，并通过逆PCA基(VT)将噪声潜移回图像空间。图 1（中间，底部）显示了在潜在空间中添加噪声的示例图像。有了这个噪声图像作为网络的输入，我们可以应用一个标准的ViT网络[15]，它直接对图像进行操作，就好像没有标记器一样。

对输入端应用此修改（同时仍然预测潜在空间中的输出）的准确率为 63.6%（表。3)。进一步将其应用于输出端（即，使用逆 PCA 预测图像空间的输出）的准确率为 63.9%。两个结果表明，使用逆 PCA 在图像空间上运行可以获得与在潜在空间中操作相似的结果。

预测原始图像。虽然逆 PCA 可以在图像空间中产生预测目标，但这个目标不是原始图像。这是因为 PCA 是任何降维 d 的有损编码器。相比之下，直接预测原始图像是一种更自然的解决方案。

当我们让网络预测原始图像时，引入的“噪声”由两部分组成:(i)加性高斯噪声，其内在维数为d，(ii) PCA重构误差，其内在维数为D−d (Dis 768)。我们以不同的方式对这两个部分的损失进行加权。

形式上，使用干净的原始图像 x0 和网络预测网络 (xt)，我们可以计算投影到完整 PCA 空间的残差 r：r ≜ V (x0 − net(xt))。这里 V 是表示完整 PCA 基的 D-by-D 矩阵。然后我们最小化以下损失函数：
$\lambda_{t} \sum_{i=1}^{D} w_{i} r_{i}^{2}\tag{4}$
这里 i 表示向量 r 的第 i 维。i ≤ d 的维度权重 wi 为 1，d < i ≤ D 为 0.1。直观地说，wi降低了PCA重建误差的损失。通过这个公式，预测原始图像达到了 64.5% 的线性探针精度（表3)。该变体在概念上非常简单：其输入是一个噪声图像，其噪声被添加到 PCA 潜在空间中，其预测是原始干净图像（图 1）。

单一噪声水平。最后，在好奇心之外，我们进一步研究了具有单级噪声的变体。我们注意到，由噪声调度给出的多级噪声是由 DDM 中的扩散过程驱动的属性；它在经典 DAE 中在概念上是不必要的。

我们将噪声水平 σ 固定为常数 (p1/3)。使用这种单级噪声实现了 61.5% 的良好精度，比多级噪声对应物 (64.5%) 退化 3%。使用多级噪声类似于 DAE 中的数据增强形式：是有益的，但不是启用因素。这也意味着DDM的表示能力主要是通过去噪驱动的过程获得的，而不是扩散驱动的过程。

由于多级噪声有用且概念上简单，我们将其保留在下一节中介绍的最终条目中。

4.4. Summary

总之，我们解构了现代 DDM 并将其推向经典的 DAE（图 6）。我们撤消了许多现代设计，在概念上只保留了从现代 DDM 继承的两种设计：（i）添加噪声的低维潜在空间； (ii) 多级噪声。

我们在 Tab 3的末尾使用条目。3 作为我们的最终 DAE 实例化（如图 1 所示）。我们将此方法称为“潜在去噪自动编码器”，简称 l-DAE。

5. Analysis and Comparisons

可视化潜在噪声。从概念上讲，l-DAE 是一种 DAE 形式，它学习去除噪声添加到潜在空间。由于 PCA 的简单性，我们可以通过逆 PCA 轻松可视化潜在噪声。

图 7 比较了添加到像素中的噪声与潜在噪声。与像素噪声不同，潜在噪声在很大程度上与图像的分辨率无关。使用patch-wise PCA作为tokenizer，潜在噪声的模式主要由patch size决定。直观地说，我们可以把它看作是使用补丁而不是像素来解决图像。这种行为类似于 MAE [21]，它掩盖了补丁而不是单个像素。
去噪结果。图 8 显示了更多基于 l-DAE 的去噪结果示例。尽管噪音很大，但我们的方法产生了合理的预测。我们注意到这并不奇怪，因为基于神经网络的图像恢复 [4, 14] 一直是一个深入研究的领域。

然而，可视化可以帮助我们更好地理解 l-DAE 如何学习好的表示。添加到潜在空间的重噪声为模型解决创建了一个具有挑战性的借口任务。在本地基于一个或几个噪声补丁预测内容并非易事（即使对于人类也是如此）；该模型被迫学习更高级别的、更全面的语义，以理解底层对象和场景。
数据增强。值得注意的是，我们目前展示的所有模型都没有数据增强：仅使用图像的中心作物，没有随机调整大小或颜色抖动，遵循 [11, 32]。我们进一步探索了我们最终 l-DAE 的温和数据增强（随机调整大小的裁剪）：
这有轻微的改进。这表明 l-DAE 的表示学习能力在很大程度上独立于其对数据增强的依赖。在MAE[21]中观察到类似的行为，这与对比学习方法(如[6])的行为有很大的不同。

训练时期。到目前为止，我们所有的实验都是基于 400 个 epoch 的训练。在 MAE [21] 之后，我们还研究了 800 和 1600 个 epoch 的训练：
作为参考，MAE [21] 获得了从 400 个扩展到 800 个 epoch 的显着增益 (4%)，MoCo v3 [7] 几乎没有增益 (0.2%)，从 300 个扩展到 600 个 epoch。

模型大小。到目前为止，我们所有的模型都基于 DiT-L 变体 [32]，其编码器和解码器都是“ViT-1 2 L”（ViT-L 的一半深度）。我们进一步训练了不同大小的模型，其编码器是 ViT-B 或 ViT-L（解码器总是与编码器大小相同）：
我们观察到良好的缩放行为 w.r.t.模型大小：从 ViT-B 到 ViT-L 缩放的增益很大，为 10.6%。MAE[21]也观察到类似的缩放行为，从ViT-B到ViT-L的增益为7.8%。

与以前的基线进行比较。最后，为了更好地理解不同的自监督学习方法家族如何执行，我们在 Tab4 中与先前基线进行比较。我们考虑MoCo v3[7]，属于对比学习方法家族，MAE[21]，属于基于掩蔽的方法家族。

有趣的是，与 MAE 相比，l-DAE 的性能相当不错，显示出 1.4% (ViT-B) 或 0.8% (ViT-L) 的退化。我们注意到这里的训练设置是MAE 和 l-DAE 之间尽可能公平：两者都训练了 1600 个 epoch，随机裁剪作为数据增强。另一方面，我们还应该注意的是，MAE 在训练中更有效，因为它只对未屏蔽的补丁进行操作。然而，我们在很大程度上缩小了 MAE 和 DAE 驱动方法之间的准确性差距。

最后，我们观察到，与该协议下的对比学习方法相比，基于自动编码器的方法（MAE 和 l-DAE）仍然很短，尤其是当模型较小时。我们希望我们的研究将更多地关注基于自动编码器的自监督学习方法的研究。

6. Conclusion

我们已经报告说，l-DAE 在很大程度上与经典 DAE 相似，可以在自监督学习中具有竞争力。关键组件是添加噪声的低维潜在空间。我们希望我们的发现将在当今自我监督学习研究的背景下重新点燃对基于去噪的方法的兴趣。

A. Implementation Details

DiT架构。我们遵循DiT架构设计[32]。DiT 架构与原始 ViT [15] 类似，并对条件进行了额外的修改。每个 Transformer 块接受以时间步长 t 为条件的嵌入网络（两层 MLP）。该嵌入网络的输出决定了LayerNorm[1]的尺度和偏置参数，称为adaLN[32]。与[32]略有不同，我们将这个MLP的隐藏维度设置为其原始维度的1/4，这有助于降低模型大小和节省内存，而不会以牺牲准确性成本。

训练。原始的 DiTs [32] 以 256 的批大小进行训练。为了加快我们的探索速度，我们将批量大小设置为 2048。我们执行线性学习率预热 [19] 100 个 epoch，然后按照半周期余弦调度对其进行衰减。我们默认使用基本学习率blr = 1e-4[32]，按照线性缩放规则[19]设置实际lr:blr ×批大小/ 256。不使用权值衰减[32]。我们默认训练了 400 个 epoch。在 256 核 TPU-v3 pod 上，训练 DiT-L 需要 12 小时。

线性探测。我们的线性探测实现遵循MAE[21]的做法。我们使用干净、256×256大小的图像进行线性探测训练和评估。ViT 输出特征图通过平均池化全局池化。然后，它由无参数BatchNorm[25]层和线性分类器层处理，遵循[21]。训练批量大小为 16384，学习率为 6.4×10-3（余弦衰减计划），权重衰减为 0，训练长度为 90 个 epoch。在训练期间使用随机调整大小的裁剪和翻转，并使用单个中心裁剪进行测试。报告了 Top-1 准确度。

虽然该模型在自监督预训练中以 t 为条件，但在迁移学习（例如线性探测）中不需要条件。我们在线性探测训练和评估中固定时间步长 t 值。不同 t 值（在 1000 个时间步长中）的影响如下所示：
我们注意到 t 值确定：（i）以 t 为条件的模型权重，以及（ii）迁移学习中添加的噪声，使用相同的 t 级别。两者都显示在表中。我们在所有实验中使用 t = 10 和干净的输入，除了 Tab4 我们使用最佳设置。

固定 t 也意味着用于调节的 t 依赖性 MLP 层不暴露于迁移学习中，因为它们可以在固定 t 的情况下合并。因此，我们的模型的参数数量与标准 ViT [15] 相似，如表 4 所示。

DiT-L [32] 有 24 个块，其中前 12 个块称为“编码器”（因此 ViT-1 2 L），其他块称为“解码器”。编码器和解码器的这种分离是人为的。在下面的表中，我们使用相同的预训练模型展示了使用编码器中不同数量的块的线性探测结果：
当编码器和解码器具有相同的深度时，实现了最佳精度。这种行为不同于 MAE [21]，其编码器和解码器是不对称的。

B. Fine-tuning Results

除了线性探测，我们还报告了端到端微调结果。我们密切遵循MAE的协议[21]。我们使用干净、256×256大小的图像作为编码器的输入。全局平均池化输出用作分类的特征。训练批量大小为 1024，初始学习率为 4×10-3，权重衰减为 0.05，下降路径 [24] 为 0.1，训练长度为 100 个 epoch。我们使用 0.85 (B) 或 0.65 (L) 的逐层学习率衰减。MixUp [43] (0.8)、CutMix [42] (1.0)、RandAug [8] (9, 0.5) 和指数移动平均 (0.9999)，类似于 [21]。结果总结如下：
总体而言，两种基于自动编码器的方法都优于MoCo v3。l-DAE与ViT-B的MAE表现相似，但ViT-L仍达不到MAE。

你可能感兴趣的:(扩散模型论文精读,人工智能,计算机视觉,深度学习,图像处理,扩散模型,论文阅读,论文笔记)

近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
【十自然语言处理项目实战】【10.2 数据收集与预处理】再见孙悟空_ #自然语言处理人工智能知识图谱 transformer 自然语言处理数据收集自然语言处理预处理自然语言处理项目
各位在数据泥潭里打滚的勇士们，今天咱们要聊的这个话题，就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理！这玩意儿看着像脏活累活，实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！（戴上橡胶手套准备掏数据）一、数据收集的野路子：比盗墓还刺激的冒险1.1公开数据集寻宝图（附藏宝坐标）①正道的光：Kaggle（数据界的沃尔玛）：搜
根据论文复现大模型方法以及出错处理技巧 Ai玩家hly 从0倒1 论文复现大模型复现 Ai大模型复现
复现一篇论文中的大模型搭建涉及以下几个关键步骤：理解论文的模型架构、数据集处理、超参数设置以及实验环境的搭建。这里给出一个基本的实现方法示例，假设我们选择复现一个图像分类任务中的经典模型，例如ResNet。实现步骤示例1.理解论文和模型架构选择一篇关于ResNet的论文作为示例，例如《DeepResidualLearningforImageRecognition》（Heetal.,2015）。2.
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
获取网站流量的方法有哪些？ liuliangpuzi 互联网流量运营数据搜索引擎百度大数据
不同流量源的比例反映了网站所有者不同的管理策略和网站的发展阶段。那么，网站流量来源都有哪些？接下来小编就跟大家浅析下网站流量来源的三大途径，一起来看看吧！1、直接访问来源搜索引擎源和外部链源依赖于外部，因此通常存在较大的不确定性，如搜索引擎算法调整、业务模型调整、策略监管等，这可能会使网站的流量从每天数十万IP急剧下降到数千。对于小型商业站来说，从搜索引擎获取流量是一种更经济实惠、廉价的选择，但对
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法天天酷科研工艺参数优化 matlab 神经网络工艺参数优化
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法一、方法原理与框架BP神经网络的作用BP神经网络通过建立工艺参数与目标性能（如翘曲变形、收缩率、硬度等）之间的非线性映射关系，作为代理模型替代复杂的物理仿真或实验。其优势在于：能够处理多输入-多输出的复杂非线性关系，例如激光功率、扫描速度与熔覆层性能的关联。在注塑成型中，预测体积收缩率和翘曲变形的相对误差可控制在5%以内。通过正交
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
复旦：过程奖励优化多模态推理大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：VisualPRM:AnEffectiveProcessRewardModelforMultimodalReasoning来源：arXiv,2503.10291摘要我们引入了VisualPRM，这是一种具有8B参数的高级多模态过程奖励模型（PRM），它通过Best-of-N（BoN）评估策略提高了现有多模态大型语言模型（MLLM）在不同模型尺度和族之间的推理能力。具体来说，我们的模型提高了三
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
FastAPI测试策略：参数解析单元测试 qcidyu 文章归档异常传播验证依赖注入测试请求模拟技术测试覆盖率优化 Pydantic验证测试单元测试策略参数解析测试
扫描二维码关注或者微信搜一搜：编程智域前端至全栈交流与成长探索数千个预构建的AI应用，开启你的下一个伟大创意第一章：核心测试方法论1.1三层测试体系架构#第一层：模型级测试deftest_user_model_validation():withpytest.raises(ValidationError):User(age=-5)#第二层：依赖项测试deftest_auth_dependency()
AI写作平台推荐：AnKo免费AI助力高效写作！ zhongken259 人工智能 AI编程 ai AI平台 AI软件 AI写作 AI网站
AI写作平台推荐：AnKo免费AI助力高效写作！在如今的创作领域，AI写作平台推荐已经成为许多创作者的首选。尤其是AnKo深受用户喜爱。AI写作平台推荐AnKo，不仅能提升写作效率，还能实现精准创作，真是不可错过！AI写作平台推荐：独特优势AI写作平台推荐AnKo，凭借其多模型AI聚合工具，能够提供更加精准和个性化的写作服务。AI写作平台推荐AnKo，不同于其他平台，它能根据创作者的需求灵活调整创
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
量化投资中的投资组合风险溢价模型云策量化量化投资量化交易量化软件量化炒股 QMT 量化交易 PTrade 量化软件量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》量化投资中的投资组合风险溢价模型在量化投资的世界里，风险和回报总是如影随形。投资者们就像是在大海中航行的船长，既要寻找宝藏，又要避开暗礁。今天，我们就来聊聊量化投资中的一个关键工具——投资组合风险溢价模型，它就像是船长的罗盘，帮助我们在风险和回报之间找到平衡。引言：风险与回报的舞蹈在量化投资中，我们经常听到“风险溢价”这个词。
【3D模型】【游戏开发】【Blender】Blender模型分享-狮头木雕附导入方法踏雪无痕老爷子资源介绍 3d blender
导入方法：[Blender]如何导入包含纹理的.blend模型文件在3D建模和渲染工作中，Blender是一款功能强大的免费开源软件。很多时候，我们需要导入.blend后缀的模型文件，同时确保纹理（textures）文件夹中的贴图能够正确加载。本文将介绍详细的导入步骤以及可能遇到的问题和解决方案。1.直接打开.blend文件如果你的.blend文件是一个完整的工程文件，包含了模型和纹理，直接打开即
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献俞兆鹏 AI学习指南人工智能
一、引言RAGFlow是一款基于深度文档理解的开源RAG（Retrieval-AugmentedGeneration，检索增强生成）引擎，旨在解决现有RAG技术在数据处理和生成答案方面的挑战。RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。二、RAGFlow的
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p