EDPJ

（2021|ICCV，DINO，ViT，自监督学习，知识蒸馏）自监督视觉 Transformer 的新特性

Emerging Properties in Self-Supervised Vision Transformers

公纵号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 相关工作

3. 方法

3.1. 自监督学习与知识蒸馏

3.2. 实现和评估协议

4. 主要结果

4.1. 在 ImageNet 上与 SSL 框架进行比较

4.2. 使用SSL训练的ViT的属性

4.2.1. 使用 DINO ViT 进行最近邻检索

4.2.2. 发现场景的语义布局

4.2.3. 在下游任务上的迁移学习

5. DINO 的消融研究

6. 结论

S. 总结

S.1 主要贡献

S.2 方法

0. 摘要

在这篇论文中，我们质疑自监督学习是否为 Vision Transformer（ViT）[16] 提供了与卷积网络（convnets）相比突出的新特性。除了将自监督方法适应这一架构特别有效之外，我们得出以下观察结果：首先，自监督 ViT 特征包含有关图像语义分割的显式信息，这在受监督的 ViT 和卷积网络中并不明显。其次，这些特征还是出色的 k-NN 分类器，使用小型 ViT 在 ImageNet 上达到 78.3%的 top-1。我们的研究还强调了动量编码器（momentum encoder） [26]、多裁剪训练（multi-crop training） [9] 以及在 ViTs 中使用小块的重要性。我们将我们的发现实施到一个简单的自监督方法中，称为 DINO，我们将其解释为一种无标签的自蒸馏（self-distillation with no labels）形式。我们通过在 ViT-Base 上进行线性评估，在 ImageNet 上实现了与 DINO 和 ViTs 的协同作用，达到了80.1% 的 top-1。

代码：https://github.com/facebookresearch/dino

1. 简介

Transformers [57] 最近已经成为视觉识别 [16, 56, 68] 中卷积神经网络（convnets）的一种替代方法。它们的采用与一种受自然语言处理（NLP）启发的训练策略相结合，即在大量数据上进行预训练，然后在目标数据集上进行微调 [15, 45]。由此产生的 Vision Transformers（ViT）[16] 在与卷积网络竞争时表现出色，但它们尚未在其上提供清晰的优势：它们在计算上要求更高，需要更多的训练数据，而且它们的特征并没有展现出独特的性质。

在这篇论文中，我们质疑在视觉中 Transformers 取得的静默成功是否可以通过在预训练中使用监督来解释。我们的动机是，Transformers 在 NLP 中取得成功的主要因素之一是使用了自监督的预训练，例如 BERT [15] 中的紧密过程（close procedure）或 GPT [45] 中的语言建模。这些自监督的预训练目标利用句子中的单词创建假设任务，提供比预测每个句子的单一标签的监督目标更丰富的学习信号。类似地，在图像中，图像级别的监督通常将包含在图像中的丰富视觉信息减少到从几千个对象类别的预定义集中选择的单一概念 [49]。

虽然在 NLP 中使用的自监督假设任务是文本特定的，但许多现有的自监督方法已经显示出它们在使用 convnets 的图像上具有潜力 [9, 11, 23, 26]。它们通常共享类似的结构，但具有不同的组件，旨在避免平凡的解决方案（崩溃）或提高性能 [14]。在这项工作中，我们受到这些方法的启发，研究了自监督预训练对 ViT 特征的影响。特别感兴趣的是，我们已经发现了几个有趣的性质，这些性质在受监督的 ViT 和卷积网络中都没有显现出来：

自监督 ViT 特征明确包含场景布局，特别是对象边界，如图 1 所示。这些信息在最后一个块的自注意模块中可直接访问。
自监督 ViT 特征在基本的最近邻分类器（k-NN）中表现特别出色，无需任何微调、线性分类器或数据增强，在 ImageNet 上达到 78.3% 的 top-1 准确率。

分割掩码（segmentation mask）的出现似乎是自监督方法之间共享的一种性质。然而，仅在结合诸如动量编码器 [26] 和多裁剪增强 [9] 等特定组件时，k-NN 的良好性能才会显现出来。我们研究的另一个发现是使用较小的 patche 与 ViTs 结合，以提高生成特征的质量的重要性。

总的来说，关于这些组件重要性的发现使我们设计了一种简单的自监督方法，可以解释为一种无标签的知识蒸馏 [28] （knowledge distillation with no labels）形式。由此产生的框架 DINO 通过使用标准的交叉熵损失，直接预测具有动量编码器的教师网络的输出，简化了自监督训练。有趣的是，我们的方法可以仅通过对教师输出进行中心化和锐化来避免崩溃，而其他流行的组件，如预测器 [23]、先进的归一化 [9] 或对比损失 [26] 在稳定性或性能方面几乎没有增益。尤其重要的是，我们的框架灵活，可以在卷积网络和 ViTs 上工作，无需修改架构，也无需适应内部规范化 [47]。

我们通过在 ImageNet 线性分类基准上使用 ViT-Base（小块）取得 80.1%的 top-1 准确率，优于先前自监督特征的性能，进一步验证了 DINO 和 ViT 之间的协同作用。我们还通过使用 ResNet-50 架构与当前技术匹配，证实了 DINO 与卷积网络的兼容性。最后，我们讨论了在计算和内存容量有限的情况下在 ViTs 中使用 DINO 的不同场景。特别是，使用 ViT 训练 DINO 仅需要两台 8-GPU 服务器，在 3 天内就能在 ImageNet 线性基准上达到 76.1% 的准确率，这超过了基于具有显著减少计算需求的可比大小卷积网络的自监督系统 [9, 23]。

2. 相关工作

自监督学习。自监督学习的大量工作集中在被称为实例分类 [11, 17, 26, 60] 的判别性方法上，该方法将每个图像视为不同的类别，并通过对它们进行数据增强来训练模型。然而，明确学习一个分类器以区分所有图像 [17] 在图像数量较多时效果不佳。Wu 等人 [60] 建议使用噪声对比估计器（noise contrastive estimator）（NCE）[25] 来比较实例，而不是对它们进行分类。这种方法的一个缺点是它需要同时比较大量图像的特征。在实践中，这需要大批量 [11] 或内存库 [26, 60]。几种变体 [2, 7, 8, 21, 29, 35, 61, 65, 69] 允许以聚类的形式自动对实例进行分组。

最近的研究表明，我们可以在不区分图像的情况下学习无监督的特征。特别有趣的是，Grill 等人[23] 提出了一种度量学习的公式，称为 BYOL，其中通过将特征与动量编码器获得的表示进行匹配来训练特征。已经证明像 BYOL 这样的方法即使没有动量编码器也能工作，但性能会下降 [14, 23]。其他几项工作也呼应了这个方向，显示可以通过将特征匹配到 _2 超球面上的均匀分布 [5] 或通过使用白化 [19, 66] 来进行训练。我们的方法受到 BYOL 的启发，但使用了不同的相似性匹配损失，并且对于学生和教师使用完全相同的架构。这样，我们的工作完善了 BYOL 对自监督学习的解释，将其看作一种无标签的 Mean Teacher 自蒸馏 [52] 形式。

自训练和知识蒸馏。自训练旨在通过将一小部分初始注释传播到大量无标签的实例来改善特征的质量。这种传播可以通过硬标签的分配 [34, 63, 64] 或软标签的分配 [62] 来完成。使用软标签时，该方法通常被称为知识蒸馏 [6, 28]，主要设计用于训练一个小型网络来模仿较大网络的输出以压缩模型。Xie 等人 [62] 最近表明，蒸馏可以用于将软伪标签传播到自训练管道中的无标签数据，建立了自训练和知识蒸馏之间的重要关联。我们的工作基于这种关系，并将知识蒸馏扩展到无标签可用的情况。先前的工作还结合了自监督学习和知识蒸馏，实现了自监督模型压缩 [20] 和性能提升 [12, 38]。然而，这些工作依赖于预训练的固定教师，而我们的教师是在训练过程中动态构建的。这样，知识蒸馏不是用作自监督预训练的后处理步骤，而是直接被构造为一种自监督目标。最后，我们的工作还与 codistillation [1] 有关，在这里学生和老师具有相同的架构，并在训练过程中使用蒸馏。然而，在 codistillation 中，教师还从学生那里蒸馏，而在我们的工作中，教师是通过学生的动量平均进行更新的。

3. 方法

3.1. 自监督学习与知识蒸馏

这项工作使用的框架 DINO 与最近的自监督方法 [9, 14, 11, 23, 26] 具有相同的整体结构。然而，我们的方法也与知识蒸馏 [28] 有相似之处，并以这个角度提出。我们在图 2 中说明了 DINO，并在算法 1 中提出了伪代码实现。

知识蒸馏是一种学习范式，其中我们训练一个学生网络 g_θs，使其匹配给定教师网络 g_θt 的输出，分别由参数 θs 和 θt 参数化。给定输入图像 x，两个网络都输出由 Ps 和 Pt 表示的 K 维概率分布。概率 P 通过使用 softmax 函数对网络 g 的输出进行归一化得到。更确切地说，

使用 τ_s > 0 作为控制输出分布锐度的温度参数，并且对于具有温度 τ_t 的 Pt 也适用类似的公式。给定一个固定的教师网络 g_θt，我们通过最小化相对于学生网络参数 θs 的交叉熵损失来学习匹配这些分布：

其中 H(a, b) = - a log b。

在接下来的内容中，我们详细说明如何将方程（2）中的问题调整为自监督学习。首先，我们使用多裁剪策略 [9] 构建不同的扭曲视图或裁剪。更具体地说，对于给定的图像，我们生成一个包含两个全局视图

以及几个小分辨率的局部视图的视图集 V。所有裁剪都经过学生网络，而只有全局视图经过教师网络，因此鼓励 “局部到全局” 的对应关系。我们最小化损失：

这个损失是通用的，可以用于任意数量的视图，甚至只有 2 个视图。然而，我们遵循多裁剪的标准设置，使用 2 个分辨率为 224^2 的全局视图，覆盖原始图像的大部分区域（例如大于 50%），以及几个分辨率为 96^2 的局部视图，仅覆盖原始图像的小部分区域（例如小于 50%）。我们将这种设置称为 DINO 的基本参数化，除非另有说明。

两个网络共享相同的架构g，具有不同的参数集 θs 和 θt。我们通过随机梯度下降最小化方程（3）来学习参数 θs。

教师网络。与知识蒸馏不同，我们没有预先给定一个教师 θt，因此我们从学生网络的先前迭代中构建它。我们在附录中研究了教师的不同更新规则，并显示在我们的框架中，在整个时期冻结教师网络效果出奇的好，而将学生权重复制给教师却无法收敛。特别值得注意的是，在我们的框架中，对学生权重使用指数移动平均（EMA），即动量编码器 [26]，特别适用。更新规则为

其中 λ 在训练过程中遵循余弦调度从 0.996 到 1。最初，动量编码器被引入作为对比学习中队列的替代物 [26]。然而，在我们的框架中，它的作用不同，因为我们既没有队列也没有对比损失，可能更接近于自我训练中使用的均值教师（mean teacher）的作用 [52]。实际上，我们观察到这个教师执行一种类似于 Polyak-Ruppert 平均的模型集成形式，带有指数衰减 [41, 48]。在模型集成中使用Polyak-Ruppert 平均是一种改进模型性能的标准做法 [31]。我们观察到，这个教师在整个训练过程中的性能优于学生，因此通过提供更高质量的目标特征来引导学生的训练。这种动态在先前的研究中并没有观察到 [23, 47]。

网络架构。神经网络 g 由一个主干网络 f（ViT [16] 或 ResNet [27]）和一个投影头 h 组成：

在下游任务中使用的特征是主干网络 f 的输出。投影头包括一个 3 层的多层感知器（MLP），隐藏维度为 2048，接着是 L2 范数归一化和一个具有 K 维的权重归一化全连接层 [50]，这与 SwAV [9]的设计类似。我们已经测试了其他投影头，而这个特定的设计似乎对 DINO 效果最好（请参阅附录）。我们不使用预测器 [23, 14]，导致学生和教师网络具有完全相同的架构。特别值得注意的是，与标准的卷积神经网络不同，ViT 架构默认不使用批标准化（BN）。因此，当将 DINO 应用于 ViT 时，我们在投影头中也不使用任何 BN，使系统完全不含 BN。

避免崩溃。几种自监督方法通过使用不同的操作来避免崩溃，可以通过对比损失[60]、聚类约束 [7, 9]、预测器 [23] 或批标准化 [23, 47]。虽然我们的框架可以通过多种归一化来稳定 [9]，但它也可以通过对动量教师输出进行居中和锐化（centering and sharpening）来避免模型崩溃。正如在附录中实验证明的那样，居中防止一个维度占主导地位，但鼓励崩溃为均匀分布，而锐化产生相反的效果。应用这两种操作平衡它们的效果，足以在存在动量教师的情况下避免崩溃。选择这种方法以避免崩溃是在稳定性和对批处理的较少依赖性之间进行权衡：居中操作仅依赖于一阶批次统计，并且可以解释为向教师添加偏置项 c：

中心 c 通过指数移动平均进行更新，这使得该方法能够在不同批次大小下表现良好，如附录所示。

其中 m > 0 是一个比率参数，B 是批处理大小。通过在教师 softmax 归一化中使用较低的温度 τ 来获得输出锐化。

3.2. 实现和评估协议

在这一部分，我们提供了使用 DINO 进行训练的实现细节，并介绍了我们实验中使用的评估协议。

视觉 Transformer。我们简要描述了视觉 Transformer（ViT）[16, 57] 的机制，并参考 Vaswani 等人的工作 [57] 以获取有关 Transformers 的详细信息，以及 Dosovitskiy 等人的工作 [16] 以获取其适应图像的信息。我们遵循 DeiT [56] 中使用的实现。我们总结了本文中使用的不同网络的配置，如表 1 所示。ViT 架构以 N x N 分辨率的非重叠连续图像块网格作为输入。在本文中，我们通常使用 N = 16（“/16”）或 N = 8（“/8”）。然后通过线性层将这些块传递以形成一组嵌入。我们向序列中添加一个额外的可学习标记 [15, 16]。这个标记的作用是从整个序列中聚合信息，并在其输出处附加投影头 h。为了与先前的工作 [15, 16, 56] 保持一致，尽管在我们的情况下它没有附加到任何标签或监督，我们将这个标记称为类标记 [CLS]。块标记和 [CLS] 标记被馈送到带有 “pre-norm” 层标准化（layer normalization） [10, 32] 的 Transformer 网络中。Transformer 是一系列具有跳跃连接的自注意力和前馈层，通过自注意机制 [3] 更新标记表示。

实现细节。我们在没有标签的 ImageNet 数据集 [49] 上对模型进行预训练。我们使用 adamw 优化器 [37] 和批处理大小为 1024，当使用 ViT-S/16 时在 16 个 GPU 上分布训练。学习率在前 10 个时期内线性增加到其基础值，其基础值通过以下线性缩放规则确定 [22]：l_r = 0.0005* batchsize / 256。在这个预热后，我们使用余弦调度 [36] 衰减学习率。权重衰减也遵循从 0.04 到 0.4 的余弦调度。温度 τ_s 设置为 0.1，而在前 30 个时期内我们对 τ_t 进行线性预热，从 0.04 增加到 0.07。我们遵循 BYOL [23] 的数据增强（颜色抖动，高斯模糊和太阳化）和多裁剪 [9]，使用双三次插值来适应位置嵌入到尺度 [16, 56]。

评估协议。自监督学习的标准协议通常是要么在冻结的特征上学习线性分类器 [67, 26]，要么在下游任务中微调这些特征。对于线性评估，我们在训练过程中应用随机调整大小的裁剪和水平翻转增强，并在中心裁剪上报告准确性。对于微调评估，我们使用预训练的权重初始化网络，并在训练过程中调整它们。然而，这两种评估都对超参数敏感，当例如学习率变化时，在运行之间的准确性存在较大的方差。因此，我们还使用一个简单的加权最近邻分类器（k-NN）评估特征的质量，如 [60] 所述。我们冻结预训练模型以计算并存储下游任务的训练数据的特征。然后，最近邻分类器将图像的特征与 k 个最近存储的特征进行匹配，这些特征投票给标签。我们在不同数量的最近邻上进行扫描，并发现对于我们的大多数运行，20 个最近邻一直效果最好。这个评估协议不需要任何其他的超参数调整，也不需要数据增强，可以仅通过一次通过下游数据集来运行，大大简化了特征评估的过程。

4. 主要结果

我们首先使用在本研究中使用的 DINO 框架，在 ImageNet 上进行标准的自监督基准验证。然后，我们研究生成的特征在检索、物体发现和迁移学习方面的属性。

4.1. 在 ImageNet 上与 SSL 框架进行比较

我们考虑两种不同的设置：与相同架构的比较和跨架构的比较。与相同架构的比较。在表 2 的顶部面板中，我们将 DINO 与其他具有相同架构的自监督方法进行比较，这些架构是 ResNet-50 [27]或 ViT-small（ViT-S）[56]。选择 ViT-S 的原因是它在几个方面与 ResNet-50 相似：参数数量（21M 与 23M），吞吐量（1237/sec 与 1007 im/sec）以及在 ImageNet 上使用 [56] 的训练过程的监督性能（79.3% 与 79.8%）。我们在附录中探讨了 ViT-S 的变体。首先，我们观察到 DINO 在 ResNet-50 上与最先进的方法相当，验证了 DINO 在标准设置中的有效性。当我们切换到 ViT 架构时，DINO 在线性分类和 k-NN 评估中均优于 BYOL、MoCov2 和 SwAV，分别提高了 +3.5%和 +7.9%。更令人惊讶的是，使用简单的 k-NN 分类器的性能几乎与线性分类器相当（74.5% 与 77.0%）。这种性质只在使用 DINO 与 ViT 架构时出现，并且在其他现有的自监督方法或 ResNet-50 中并未出现。

跨架构比较。在表 2 的底部面板上，我们比较了在不同架构中获得的最佳性能。这种设置的兴趣不是直接比较方法，而是评估使用 DINO 训练的 ViT 在转向更大的架构时的极限。虽然使用 DINO 训练较大的 ViT 可以提高性能，但减小补丁的大小（“/8” 变体）对性能的影响更大。虽然减小补丁大小不会增加参数，但它仍然导致运行时间显著减少，并增加了更大的内存使用。尽管如此，使用DINO 训练的带有 8×8 补丁的基本 ViT 在线性分类中达到 80.1% 的 top-1，使用 k-NN 分类器则为77.4%，具有比先前最先进的方法 [12] 少 10 倍的参数和 1.4 倍更快的运行时间。

4.2. 使用SSL训练的ViT的属性

我们评估DINO特征的性质，包括最近邻搜索、保留有关对象位置的信息以及对下游任务的可迁移性。

4.2.1. 使用 DINO ViT 进行最近邻检索

在 ImageNet 分类方面的结果揭示了我们的特征在依赖最近邻检索任务上的潜力。在这组实验中，我们进一步在地标检索和复制检测任务上巩固了这一发现。

图像检索。我们考虑重新评估的 [43] 牛津和巴黎图像检索数据集 [40]。它们包含 3 个不同的逐渐增加难度的拆分，具有查询/数据库对。我们报告了中等（M）和困难（H）拆分的平均精度均值（Mean Average Precision，mAP）。在表 3 中，我们比较了使用监督或 DINO 训练获得的不同现成特征的性能。我们冻结特征并直接应用 k-NN 进行检索。我们观察到，DINO 特征的性能优于使用 ImageNet 标签训练的特征。SSL 方法的一个优势是它们可以在任何数据集上训练，而无需任何形式的注释。我们在 Google Landmarks v2（GLDv2）[59] 的 1.2M 干净数据集上训练 DINO，这是一个专为检索目的设计的地标数据集。在 GLDv2上训练的 DINO ViT 特征非常出色，优于基于现成描述符的先前发布的方法 [55, 46]。

复制检测。我们还评估了使用 DINO 训练的 ViTs 在复制检测任务上的性能。我们报告了 INRIA Copydays 数据集 [18] 的 “强” 子集上的平均精度均值。该任务是识别被模糊、插入、打印和扫描等方式扭曲的图像。在先前的工作 [4] 的基础上，我们添加了从 YFCC100M 数据集 [53] 中随机抽样的 10k 个分离（distractor）图像。我们直接在从预训练网络获取的特征上使用余弦相似度执行复制检测。特征是通过连接输出的 [CLS] 标记和 GeM 池化 [44] 输出的补丁标记获得的。这导致了一个 1536d 的 ViT-B 描述符。按照 [4] 的方法，我们对特征进行白化。我们在 YFCC100M 的额外20K 张与分离（distractor）图像不同的随机图像上学习了这种变换。表 4 显示，使用 DINO 训练的 ViT 在复制检测上非常有竞争力。

4.2.2. 发现场景的语义布局

正如在图 1 中定性显示的那样，我们的自注意力图包含有关图像分割的信息。在这项研究中，我们在一个标准基准上度量这一特性，同时直接探测从这些注意力图生成的掩模的质量。

视频实例分割。在表 5 中，我们评估了 DAVIS-2017 视频实例分割基准 [42] 上的输出补丁标记。我们按照 Jabri 等人 [30] 的实验协议，在连续帧之间使用最近邻方法对场景进行分割；因此，我们不在特征之上训练任何模型，也不为任务微调任何权重。我们观察到在表 5 中，即使我们的训练目标和架构都不是为密集任务设计的，性能在这个基准上也很有竞争力。由于网络没有进行微调，模型的输出必须保留了一些空间信息。最后，对于这个密集的识别任务，小补丁（“/8”）的变体表现得更好（对于 ViT-B，J&Fm 增加了 +9:1%）。

探测自注意力图。在图 3 中，我们展示了不同头部可以关注图像的不同语义区域，即使它们被遮挡（第三行的灌木）或很小（第二行的旗帜）。可视化是使用 480p 图像获得的，对于 ViT-S/8，结果是 3601 个标记的序列。在图 4 中，我们展示了在混乱环境中，监督的 ViT 在对象上的关注效果不好，定性和定量上都如此。我们报告了真实标签和通过将自注意力图阈值设定为保留 60% 的质量而获得的分割掩模之间的 Jaccard 相似性。请注意，自注意力图是平滑的，并且未经过优化以生成掩模。尽管如此，我们看到监督或 DINO 模型在 Jaccard 相似性方面存在明显差异。请注意，自监督的卷积网络也包含有关分割的信息，但需要专门的方法从它们的权重中提取 [24]。

4.2.3. 在下游任务上的迁移学习

在表 6 中，我们评估了使用 DINO 预训练的特征在不同下游任务上的质量。我们将其与在ImageNet 上使用监督进行训练的相同架构的特征进行比较。我们按照 Touvron 等人 [56] 使用的协议，在每个下游任务上微调特征。我们观察到，对于 ViT 架构，自监督预训练的迁移效果比使用监督训练的特征更好，这与对卷积网络的观察一致 [9, 26, 51]。最后，自监督预训练在 ImageNet 上极大地改善了结果（+1-2%）。

5. DINO 的消融研究

在本节中，我们对应用于 ViT 的 DINO 进行了实证研究。整个研究中考虑的模型是 ViT-S。我们还请读者参阅附录以获取额外的研究。

组件的重要性。我们展示了在使用我们的框架训练的 ViT 上添加不同自监督学习组件的影响。在表 7 中，我们报告了不同的模型变体，当我们添加或删除组件时。首先，我们观察到在没有动量的情况下，我们的框架不起作用（第 2 行），并且需要更高级的操作，例如 SK，以避免崩溃（第 9行）。然而，有了动量，使用 SK 的影响很小（第 3 行）。此外，比较第 3 行和第 9 行突显了动量编码器对性能的重要性。其次，在第 4 行和第 5 行中，我们观察到多裁剪训练和 DINO 中的交叉熵损失是获得良好特征的重要组成部分。我们还观察到将预测器添加到学生网络对性能影响很小（第 6 行），而在 BYOL 中，这对防止崩溃至关重要 [14, 23]。为了完整起见，我们在附录中提出了这个消融研究的扩展版本。

补丁大小的重要性。在图 5 中，我们比较了使用不同补丁大小（16 × 16、8 × 8 和 5 × 5）训练的ViT-S 模型的 k-NN 分类性能。我们还将其与使用 16 × 16 和 8 × 8 补丁的 ViT-B 进行了比较。所有模型均进行了 300 个 epoch 的训练。我们观察到随着补丁大小的减小，性能大大提高。有趣的是，性能可以在不添加额外参数的情况下大幅提高。然而，使用较小的补丁带来的性能增益是以吞吐量为代价的：使用 5×5 补丁时，吞吐量下降到 44 im/s，而使用 8×8 补丁时为 180 im/s。

6. 结论

我们已经展示了自监督地预训练一个标准 ViT 模型的潜力，实现了与专门设计用于此设置的最佳卷积网络相媲美的性能。我们还看到了两个可以在未来应用中利用的属性的出现：k-NN 分类中特征的质量对图像检索具有潜力。特征中有关场景布局的信息也有助于弱监督图像分割。

S. 总结

S.1 主要贡献

与受监督的 Vision Transformer（ViT）和卷积网络不同，自监督 ViT 特征包含有关图像语义分割的显式信息，且这些特征还是出色的 k-NN 分类器。本文提出一种自监督方法：无标签的自蒸馏（self-distillation with no labels，DINO），使用多裁剪训练（multi-crop training），使用标准的交叉熵损失，直接预测具有动量编码器的教师网络的输出，仅通过对教师输出进行中心化和锐化来避免崩溃。

S.2 方法

DINO 架构如图 2 所示，其与最近的自监督方法具有相同的整体结构。然而，该方法也与知识蒸馏有相似之处。

多裁剪策略：对于给定的图像，生成一个包含两个全局视图以及几个小分辨率的局部视图的视图集。所有裁剪都经过学生网络，而只有全局视图经过教师网络，因此鼓励 “局部到全局” 的对应关系。然后，最小化学生网络与教师网络输出分布的交叉熵。

教师网络：与知识蒸馏不同，DINO 没有预先给定一个教师网络，而是从学生网络的先前迭代中构建它。学生权重使用指数移动平均（EMA），即动量编码器。

网络架构。神经网络由一个主干网络（ViT 或 ResNet）和一个投影头组成，在下游任务中使用的特征是主干网络的输出。因为不使用预测器，所以学生和教师网络具有完全相同的架构。

你可能感兴趣的:(论文笔记,transformer,深度学习,人工智能)

【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
LLaMA Factory 微调后，迁移模型激进小猪1002 llama llamafactory 人工智能 python
方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub("your-username/your-model-name")tokenizer.push_to_hub("your-username/your-model-name")
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
大模型笔记10：LoRA微调 errorwarn 笔记
LoRA微调的原理矩阵的秩矩阵的秩代表一个矩阵中所含信息的大小。行秩：矩阵中互相不重复、不依赖（即线性无关）的行的最大数目。列秩：矩阵中互相不重复、不依赖的列的最大数目。事实上，行秩和列秩总是相等的，因此我们通常直接称之为“矩阵的秩”。Transformer中微调哪些参数：LoRA的改进版本
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo