datamonday

【CV】MLP-Mixer：用于CV任务的全 MLP 架构

论文名称：MLP-Mixer: An all-MLP Architecture for Vision

论文下载：https://arxiv.org/abs/2105.01601

论文年份：NeurIPS 2021

论文被引：284（2022/05/03）

论文代码：https://github.com/google-research/vision_transformer（torch）

论文总结

Mixer Layers：

Mixer 使用两种类型的 MLP 层：通道混合 MLP 和标记混合 MLP。

通道混合 MLP 允许不同通道之间的通信；它们独立地对每个标记进行操作，并将表的各个行作为输入。
标记混合 MLP 允许不同空间位置（标记）之间的通信；它们独立地在每个通道上运行，并将表的各个列作为输入。

这两种类型的层是交错的，以实现两个输入维度的交互。

Mix Feature：

现代深度视觉架构由混合特征（i）在给定空间位置，（ii）在不同空间位置之间，或同时混合两种特征的层组成。

在 CNN 中，(ii) 使用 N × N 卷积（对于 N > 1）和池化来实现。更深层的神经元具有更大的感受野 [1, 28]。1×1 卷积也执行 (i)，更大的内核执行 (i) 和 (ii)。
在 Vision Transformers 和其他基于注意力的架构中，自注意力层执行 (i) 和 (ii) 以及 MLP 块执行 (i)。
Mixer 架构背后的想法是明确区分每个位置（通道混合）操作（i）和跨位置（标记混合）操作（ii）。

MLP-Mixer 实现代码

Abstract

Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-Mixer contains two types of layers: one with MLPs applied independently to image patches (i.e. “mixing” the per-location features), and one with MLPs applied across patches (i.e. “mixing” spatial information). When trained on large datasets, or with modern regularization schemes, MLP-Mixer attains competitive scores on image classification benchmarks, with pre-training and inference cost comparable to state-of-the-art models. We hope that these results spark further research beyond the realms of well established CNNs and Transformers.

卷积神经网络 (CNN) 是计算机视觉的首选模型。最近，基于注意力的网络，例如 Vision Transformer，也变得流行起来。在本文中，我们展示了虽然卷积和注意力都足以获得良好的性能，但它们都不是必需的。我们提出了 MLP-Mixer，一种完全基于多层感知器 (MLP) 的架构。 MLP-Mixer 包含两种类型的层：一种是 MLP 独立应用于图像块（即“混合”每个位置特征），另一种是 MLP 跨块应用（即“混合”空间信息）。当在大型数据集上或使用现代正则化方案进行训练时，MLP-Mixer 在图像分类基准上获得有竞争力的分数，其预训练和推理成本可与最先进的模型相媲美。我们希望这些结果能够引发超越成熟的 CNN 和 Transformer 领域的进一步研究。

1 Introduction

正如计算机视觉的历史所表明的那样，更大数据集的可用性以及计算能力的提高通常会导致范式（paradigm）转变。虽然卷积神经网络 (CNN) 已成为计算机视觉的事实标准，但最近Vision Transformers [14] (ViT)，一种基于自注意力层的替代方案，获得了最先进的性能。 ViT 延续了从模型中去除手工制作的视觉特征和归纳偏差的长期趋势，并进一步依赖于从原始数据中学习。

我们提出了 MLP-Mixer 架构（或简称“Mixer”），这是一种具有竞争力但在概念上和技术上简单的替代方案，它不使用卷积或自注意力。相反，Mixer 的架构完全基于在空间位置或特征通道上重复应用的多层感知器 (MLP)。 Mixer 仅依赖于基本的矩阵乘法例程（matrix multiplication routines）、数据布局（data layout）的更改（重塑和转置）以及标量非线性（scalar nonlinearities）。

图 1 描述了 Mixer 的宏观结构。它接受一系列线性投影的图像块（也称为标记(tokens)），形状为**“块×通道”表（“patches × channels” table）作为输入，并保持该维度。 Mixer 使用两种类型的 MLP 层：通道混合 MLP 和标记混合 MLP**。

通道混合 MLP 允许不同通道之间的通信；它们独立地对每个标记进行操作，并将表的各个行作为输入。
标记混合 MLP 允许不同空间位置（标记）之间的通信；它们独立地在每个通道上运行，并将表的各个列作为输入。

这两种类型的层是交错的，以实现两个输入维度的交互。

在极端情况下，我们的架构可以看作是一个非常特殊的 CNN，它使用 1×1 卷积进行通道混合，并使用全感受野的单通道深度卷积和参数共享进行标记混合。反之则不然，因为典型的 CNN 并不是 Mixer 的特例。此外，卷积比 MLP 中的普通矩阵乘法更复杂，因为它需要对矩阵乘法和/或专门的实现进行额外的成本降低。

尽管简单，Mixer 还是获得了具有竞争力的结果。当在大型数据集（即~100M 图像）上进行预训练时，它在精度/成本权衡方面达到了接近于 CNN 和 Transformers 之前声称的最先进的性能。这包括 ILSVRC2012 “ImageNet”[13] 上 87.94% 的 top-1 验证准确率。当对更适度规模的数据（即~1-10M 图像）进行预训练时，再加上现代正则化技术 [49, 54]，Mixer 也取得了强大的性能。然而，与 ViT 类似，它略微缺乏专门的 CNN 架构。

2 Mixer Architecture

现代深度视觉架构由混合特征（i）在给定空间位置，（ii）在不同空间位置之间，或同时混合两种特征的层组成。在 CNN 中，(ii) 使用 N × N 卷积（对于 N > 1）和池化来实现。更深层的神经元具有更大的感受野 [1, 28]。同时，1×1 卷积也执行 (i)，更大的内核执行 (i) 和 (ii)。在 Vision Transformers 和其他基于注意力的架构中，自注意力层执行 (i) 和 (ii) 以及 MLP 块执行 (i)。 Mixer 架构背后的想法是明确区分每个位置（通道混合）操作（i）和跨位置（标记混合）操作（ii）。这两个操作都是用 MLP 实现的。图 1 总结了架构。

Mixer 将一系列 $S$ 个不重叠的图像块作为输入，每个块都投影到所需的隐藏维度 $C$ 。这会产生一个二维实值输入表（real-valued input table）， $X ∈ \R^{S×C}$ 。如果原始输入图像具有分辨率 $(H, W)$ ，并且每个补丁（patch）具有 $(P, P)$ 分辨率，则补丁数量为 $S = HW/P^2$ 。所有补丁都使用相同的投影矩阵进行线性投影。 Mixer 由多个大小相同的层组成，每层由两个 MLP 块组成。

第一个是标记混合 MLP：它作用于 $X$ 的列（即，它应用于转置的输入表 $X^T$ ），映射 $R^S → \R^S$ ，并在所有列之间共享。
第二个是通道混合 MLP：它作用于 $X$ 的行，映射 $R^C → \R^C$ ，并在所有行之间共享。

每个 MLP 块包含两个全连接层和一个独立应用于其输入数据张量的每一行的非线性。混合器层可以写成如下（省略层索引）：

这里 $σ$ 是逐元素非线性（GELU [16]）。 $D_S$ 和 $D_C$ 分别是标记混合和通道混合 MLP 中的可调隐藏宽度。请注意， $D_S$ 的选择与输入补丁的数量无关。因此，网络的计算复杂度与输入块的数量成线性关系，不像 ViT 的复杂度是二次的。由于 $D_C$ 与块大小无关，因此与典型的 CNN 一样，整体复杂度与图像中的像素数量呈线性关系。

如上所述，相同的通道混合 MLP（标记混合 MLP）应用于 X 的每一行（列）。绑定通道混合 MLP 的参数（在每一层内）是一种自然的选择——它提供了位置不变性，卷积的一个显著特征。但是，跨通道绑定参数的情况要少得多。例如，在某些 CNN 中使用的可分离卷积 [9, 40] 将卷积独立于其他通道应用于每个通道。然而，在可分离卷积中，不同的卷积核被应用于每个通道，这与 Mixer 中的标记混合 MLP 不同，后者为所有通道共享相同的内核（具有完整的感受野）。参数绑定（parameter tying）可防止架构在增加隐藏维度 C 或序列长度 S 时增长过快，并显著节省内存。令人惊讶的是，这种选择不会影响经验表现，见补充 A.1。

Mixer 中的每一层（除了最初的补丁投影层）都接受相同大小的输入。这种 “各向同性 (isotropic)” 设计与 Transformer 或其他领域的深度 RNN 最相似，它们也使用固定宽度。这与大多数具有金字塔结构的 CNN 不同：更深层的输入分辨率较低，但通道更多。请注意，虽然这些是典型设计，但也存在其他组合，例如各向同性 ResNets [38] 和金字塔形 ViTs [52]。

除了 MLP 层之外，Mixer 还使用其他标准架构组件：跳过连接 (skip-connections) [15] 和层规范化 (layer normalization) [2]。与 ViT 不同，Mixer 不使用位置嵌入，因为标记混合 MLP 对输入标记的顺序很敏感。最后，Mixer 使用标准分类头和全局平均池化层，然后是线性分类器。总的来说，该架构可以用 JAX/Flax 紧凑地编写，代码在补充 E 中给出。

3 Experiments

我们评估了 MLP-Mixer 模型在一系列中小型下游分类任务上的性能，这些模型使用中到大型数据集进行了预训练。我们对三个主要量感兴趣：

1）下游任务的准确性；

2）预训练的总计算成本，这对于在上游数据集上从头开始训练模型很重要；

3）测试时间吞吐量，这对从业者很重要。

我们的目标不是展示最先进的结果，而是展示一个简单的基于 MLP 的模型与当今最好的基于卷积和注意力的模型具有竞争力。

下游任务

我们使用流行的下游任务，例如 ILSVRC2012 “ImageNet”（1.3M 训练示例，1k 类），带有原始验证标签 [13] 和清理后的 RealL 标签 [5]，CIFAR-10/100（50k 示例，10 /100 个类）[23]、Oxford-IIIT Pets（3.7k 个示例，36 个类）[32]和 Oxford Flowers-102（2k 个示例，102 个类）[31]。我们还使用了视觉任务适应基准（VTAB-1k），它由 19 个不同的数据集组成，每个数据集都有 1k 个训练示例 [58]。

预训练

我们遵循标准的迁移学习设置：预训练，然后对下游任务进行微调。我们在两个公共数据集上预训练我们的模型：ILSVRC2021 ImageNet 和 ImageNet-21k，它是 ILSVRC2012 的超集，包含 21k 类和 14M 图像 [13]。为了在更大范围内评估性能，我们还在 JFT-300M 上进行了训练，这是一个具有 300M 示例和 18k 类的专有数据集 [44]。正如 [14] 和 [22] 所做的那样，我们针对下游任务的测试集对所有预训练数据集进行去重 。我们使用 Adam 以 224 的分辨率对所有模型进行预训练，β1 = 0.9，β2 = 0.999，10k 步的线性学习率预热和线性衰减，批量大小 4096，权重衰减和全局范数 1 的梯度裁剪。对于 JFT- 300M，我们通过应用 [45] 的裁剪技术对图像进行预处理，除了随机水平翻转。对于 ImageNet 和 ImageNet-21k，我们采用了额外的数据增强和正则化技术。特别是，我们使用 RandAugment [12]，mixup [60]，dropout [43] 和随机深度 [19]。这组技术的灵感来自 timm 库 [54] 和 [48]。补充 B 中提供了有关这些超参数的更多详细信息。

指标

我们评估模型的计算成本和质量之间的权衡。对于前者，我们计算两个指标：(1) TPU-v3 加速器的总预训练时间，它结合了三个相关因素：每个训练设置的理论 FLOP、相关训练硬件的计算效率和数据效率。 (2) TPU-v3 上图像/秒/核心的吞吐量。由于不同大小的模型可能会从不同的批量大小中受益，因此我们扫描批量大小并报告每个模型的最高吞吐量。对于模型质量，我们关注微调后的 top-1 下游精度。在两种情况下（图 3，右图和图 4），微调所有模型的成本太高，我们报告了通过解决冻结的学习图像表示之间的 '2-regularized 线性回归问题获得的少样本精度和标签。

模型

我们将表 1 中总结的 Mixer 的各种配置与最新的、最先进的 CNN 和基于注意力的模型进行比较。在所有图表中，基于 MLP 的 Mixer 模型用粉红色 ( ) 标记，基于卷积的模型用黄色 ( ) 标记，基于注意力的模型用蓝色 ( ) 标记。

Vision Transformers (ViTs) 具有类似于 Mixer 的模型比例和补丁分辨率。
HaloNets 是基于注意力的模型，它使用具有局部自注意力层而不是 3×3 卷积 [51] 的类似 ResNet 的结构。我们专注于特别高效的“HaloNet-H4 (base 128, Conv-12)”模型，它是更广泛的 HaloNet-H4 架构的混合变体，其中一些自注意力层被卷积取代。请注意，我们将 HaloNets 标记为注意力和卷积标记为蓝色 ( )。
Big Transfer (BiT) [22] 模型是针对迁移学习优化的 ResNet。
NFNets [7] 是无归一化器的 ResNets，对 ImageNet 分类进行了多项优化。我们考虑 NFNet-F4+ 模型变体。
我们将 MPL [34] 和 ALIGN [21] 用于 EfficientNet 架构。
- MPL 在 JFT-300M 图像上进行了非常大规模的预训练，使用来自 ImageNet 的元伪标签而不是原始标签。我们与 EfficientNetB6-Wide 模型变体进行比较。
- ALIGN 以对比的方式在嘈杂的网络图像文本对上预训练图像编码器和语言编码器。我们比较了他们最好的 EfficientNet-L2 图像编码器。

3.1 Main results

表 2 展示了最大的 Mixer 模型与文献中最先进模型的比较。 “ImNet”和“RealL”列指的是原始 ImageNet 验证 [13] 和清理后的 RealL [5] 标签。“平均5”代表所有五个下游任务（ImageNet、CIFAR-10、CIFAR-100、Pets、Flowers）的平均性能。图 2（左）可视化了准确度计算的边界。当在 ImageNet-21k 上通过额外的正则化进行预训练时，Mixer 实现了整体强大的性能（ImageNet 上 84.15% 的 top-1），尽管略逊于其他模型2。在这种情况下，正则化是必要的，没有它，Mixer 会过拟合，这与 ViT [14] 的类似观察结果一致。在 ImageNet 上从随机初始化训练 Mixer 时也得出同样的结论（参见第 3.2 节）：Mixer-B/16 在分辨率为 224 时达到了 76.4% 的合理分数，但往往过拟合。这个分数类似于普通的 ResNet50，但落后于 ImageNet“从头开始”设置的最先进的 CNN/混合，例如 84.7% BotNet [42] 和 86.5% NFNet [7]。

当上游数据集的大小增加时，Mixer 的性能会显着提高。特别是，Mixer-H/14 在 ImageNet 上实现了 87.94% 的 top-1 准确率，比 BiTResNet152x4 好 0.5%，仅比 ViT-H/14 低 0.5%。值得注意的是，Mixer-H/14 的运行速度比 ViT-H/14 快 2.5 倍，几乎是 BiT 的两倍。总体而言，图 2（左）支持我们的主要主张，即在精度计算权衡方面，Mixer 与更传统的神经网络架构具有竞争力。该图还展示了总预训练成本与下游准确性之间的明显相关性，即使跨架构类也是如此。

表中的 BiT-ResNet152x4 是使用 SGD 进行预训练的，具有动量和较长的时间表。由于 Adam 趋向于更快地收敛，我们使用 Dosovitskiy 等人的 BiT-R200x3 模型完成了图 2（左）中的图片。 [14] 使用 Adam 在 JFT-300M 上进行了预训练。这个 ResNet 的准确率略低，但预训练计算量要低得多。最后，该图中还报告了较小的 ViT-L/16 和 Mixer-L/16 模型的结果。

3.2 The role of the model scale

上一节中概述的结果侧重于计算范围高端的（大型）模型。我们现在将注意力转向更小的 Mixer 模型。

我们可以通过两种独立的方式对模型进行缩放：

1）在预训练时增加模型大小（层数、隐藏维度、MLP 宽度）

2）微调时增加输入图像的分辨率。前者影响预训练计算和测试时的吞吐量，后者只影响吞吐量。除非另有说明，微调的分辨率默认设置为 224。

我们将 Mixer 的各种配置（见表 1）与类似规模的 ViT 模型和用 Adam 预训练的 BiT 模型进行比较。结果总结在表 3 和图 3 中。在 ImageNet 上从头开始训练时，Mixer-B/16 达到了 76.44% 的合理 top-1 准确率。这比 ViT-B/16 型号落后 3%。训练曲线（未报告）表明，两个模型都达到了非常相似的训练损失值。换句话说，Mixer-B/16 比 ViT-B/16 更过拟合。对于 Mixer-L/16 和 ViT-L/16 型号，这种差异更加明显。

表 3：Mixer 和文献中其他模型在各种模型和预训练数据集尺度上的性能。 “Avg. 5”表示五个下游任务的平均性能。 Mixer 和 ViT 模型在三个微调运行中取平均值，标准偏差小于 0.15。 (‡) 从在没有额外正则化的 JFT-300M 上预训练的相同模型报告的数字中推断。 (电话) 符号表示通过个人交流获得的 [14] 的作者提供的数字。行按吞吐量排序。

随着预训练数据集的增长，Mixer 的性能稳步提高。值得注意的是，在 JFT-300M 上预训练并以 224 分辨率微调的 Mixer-H/14 仅比 ImageNet 上的 ViT-H/14 低 0.3%，同时运行速度提高 2.2 倍。图 3 清楚地表明，尽管 Mixer 略低于模型尺度下端的前沿，但它自信地位于高端前沿。

3.3 The role of the pre-training dataset size

迄今为止的结果表明，对较大数据集的预训练显着提高了 Mixer 的性能。在这里，我们更详细地研究了这种影响。

为了研究 Mixer 使用越来越多的训练示例的能力，我们在包含 3%、10% 的 JFT-300M 随机子集上预训练 Mixer-B/32、Mixer-L/32 和 Mixer-L/16 模型、233、70、23 和 7 个 epoch 的所有训练示例的 30% 和 100%。因此，每个模型都针对相同的总步数进行了预训练。我们还在更大的 JFT-3B 数据集 [59] 上预训练 Mixer-L/16 模型，该数据集包含大约 3B 图像和 30k 类，总步数相同。

虽然没有严格的可比性，但这使我们能够进一步推断规模的影响。我们使用 ImageNet 上的线性 5-shot top-1 精度作为传输质量的代理。对于每次预训练运行，我们都会根据最佳上游验证性能执行提前停止。结果如图 2（右）所示，其中我们还包括 ViT-B/32、ViT-L/32、ViT-L/16 和 BiT-R152x2 模型。

图 2：左：表 2 中 SOTA 模型的 ImageNet 精度/训练成本 Pareto frontier（虚线）。模型在 ImageNet-21k 或 JFT（标记为 MPL 或为伪标记）或网络图像上进行了预训练文本对。 Mixer 与这些高性能的 ResNet、ViT 和混合模型一样好，并且与 HaloNet、ViT、NFNet 和 MPL 处于前沿。右图：随着数据大小的增长，Mixer（实线）捕获或超过 BiT（虚线）和 ViT（虚线）。曲线上的每个点都使用相同的预训练计算；它们分别对应于在 3%、10%、30% 和 100% 的 JFT-300M 上进行 233、70、23 和 7 个 epoch 的预训练。 ∼3B 的附加点对应于在更大的 JFT-3B 数据集上进行相同总步数的预训练。与 ResNet 甚至 ViT 相比，Mixer 对数据的改进更快。大型 Mixer 和 ViT 模型之间的差距缩小。

当在 JFT-300M 的最小子集上进行预训练时，所有 Mixer 模型都严重过拟合。 BiT 模型也过拟合，但程度较轻，可能是由于与卷积相关的强归纳偏差。随着数据集的增加，Mixer-L/32 和 Mixer-L/16 的性能增长都快于 BiT； Mixer-L/16 不断改进，而 BiT 模型趋于稳定。

同样的结论也适用于 ViT，与 [14] 一致。然而，更大的 Mixer 模型的相对改进更加明显。 Mixer-L/16 和 ViT-L/16 之间的性能差距随着数据规模的扩大而缩小。看起来，Mixer 从不断增长的数据集大小中受益甚至超过了 ViT。人们可以用归纳偏差的不同来推测和解释它：ViT 中的自注意力层导致学习函数的某些属性与真正的底层分布相比，与 Mixer 架构发现的那些属性不太兼容。

3.4 Invariance to input permutations

在本节中，我们研究了 Mixer 和 CNN 架构的归纳偏差之间的区别。具体来说，我们按照第 3 节中描述的预训练设置并使用两种不同的输入转换之一在 JFT-300M 上训练 Mixer-B/16 和 ResNet50x1 模型：

(1) 打乱 16×16 补丁的顺序并在其中置换像素每个补丁都有一个共享排列；

(2) 对整个图像中的像素进行全局置换。所有图像都使用相同的排列。

图 4（底部）中报告了 ImageNet 上训练模型的线性 5-shot top-1 精度。在图 4 顶部显示了一些原始图像及其两个转换版本。正如所料，Mixer 对补丁的顺序和补丁内的像素是不变的（蓝色和绿色曲线完美匹配）。另一方面，ResNet 的强归纳偏差依赖于图像中特定的像素顺序，当块被置换时其性能显着下降。值得注意的是，当对像素进行全局置换时，与 ResNet 相比，Mixer 的性能下降幅度要小得多（下降 ~ 45%）（下降 ~75%）。

3.5 Visualization

图 5：在 JFT-300M 上训练的 Mixer-B/16 模型的第一个（左）、第二个（中）和第三个（右）标记混合 MLP 中的隐藏单元。每个单元有 196 个权重，每个 14 × 14 个输入补丁一个。我们将这些单元配对，以突出相反相位的内核的出现。对按滤波器频率排序。与卷积滤波器的内核相比，每个权重对应于输入图像中的一个像素，左列的任何图中的一个权重对应于输入图像的特定 16 × 16 块。补充 D 中是完整图。

通常观察到，CNN 的第一层倾向于学习作用于图像局部区域像素的 Gabor 样检测器。相比之下，Mixer 允许在标记混合 MLP 中进行全局信息交换，这就引出了一个问题，它是否以类似的方式处理信息。图 5 显示了在 JFT-300M 上训练的 Mixer 的前三个标记混合 MLP 的隐藏单元。回想一下，标记混合 MLP 允许不同空间位置之间的全局通信。一些学习到的特征作用于整个图像，而另一些则作用于较小的区域。更深层似乎没有清晰可辨的结构。与 CNN 类似，我们观察到许多具有相反相位的特征检测器对 [39]。学习单元的结构取决于超参数。第一个嵌入层的图出现在补充 D 的图 7 中。

4 Related work

MLP-Mixer 是一种新的计算机视觉架构，它不同于以前成功的架构，因为它既没有使用卷积层，也没有使用自注意力层。然而，设计选择可以追溯到 CNN [24，25]和 Transformer [50]的文献。

自从 AlexNet 模型 [24] 超越了基于手工制作图像特征的流行方法 [35] 以来，CNN 一直是计算机视觉的事实标准。许多工作专注于改进 CNN 的设计。

Simonyan 和 Zisserman [41] 证明，可以仅使用具有 3×3 小内核的卷积来训练最先进的模型。

[15] 引入了跳跃连接和批量归一化 [20]，它可以训练非常深的神经网络并进一步提高性能。
一个突出的研究方向已经研究了使用稀疏卷积的好处，例如分组 [57] 或深度 [9, 17] 变体。
[55] 本着与我们的标记混合 MLP 类似的精神，在自然语言处理的深度卷积中共享参数。
[18] 和 [53] 建议使用非局部操作来增强卷积网络，以部分缓解来自 CNN 的局部处理的约束。

Mixer 将使用带有小内核的卷积的想法发挥到了极致：

通过将内核大小减小到 1×1，它将卷积转换为独立应用于每个空间位置的标准密集矩阵乘法（通道混合 MLP）。
因为不允许空间信息的聚合，所以应用了密集矩阵乘法，这些乘法应用于所有空间位置的每个特征（标记混合 MLP）。在 Mixer 中，矩阵乘法是在“patches×features”输入表上按行或按列应用的，这也与稀疏卷积的工作密切相关。 Mixer 使用跳跃连接 [15] 和归一化层 [2, 20]。

在计算机视觉中，基于自注意力的 Transformer 架构最初应用于生成建模 [8, 33]。它们在图像识别方面的价值后来得到了证明，尽管结合了类似卷积的局部偏差 [37] 或低分辨率图像 [10]。[14] 介绍了 ViT，这是一种纯 Transformer 模型，具有较少的局部偏差，但可以很好地扩展到大数据。ViT 在流行的视觉基准上实现了最先进的性能，同时保持了 CNN [6] 的鲁棒性。[49] 使用广泛的正则化在较小的数据集上有效地训练了 ViT。 Mixer 借鉴了最近基于 Transformer 的架构的设计选择。 Mixer 的 MLP 块的设计起源于 [50]。将图像转换为一系列补丁并直接处理这些补丁的嵌入源自 [14]。

最近的许多作品都致力于为视觉设计更有效的架构。

[42] 用自注意力层替换 ResNets 中的 3×3 卷积。
[37]，[47]，[26] 和 [3] 设计了具有新的注意力机制的网络。
Mixer 可以看作是在正交方向上的一个步骤，而不依赖于局部偏差和注意力机制。

本文的工作与 [27] 密切相关。它在 CIFAR-10 上使用全连接网络、大量数据增强和自动编码器预训练获得了合理的性能。 Neyshabur [30] 设计了定制的正则化和优化算法，并训练了一个全连接的网络，在小规模任务上取得了令人印象深刻的性能。相反，我们依赖于标记和通道混合 MLP，使用标准正则化和优化技术，并有效地扩展到大数据。

传统上，在 ImageNet [13] 上评估的网络是使用 Inception 风格的预处理 [46] 从随机初始化中训练出来的。对于较小的数据集，ImageNet 模型的迁移很流行。然而，现代最先进的模型通常使用在较大数据集上预训练的权重，或者使用更新的数据增强和训练策略。例如，

[14]，[22]，[29]，[34]，[56] 都使用大规模预训练推进了图像分类的最新技术。

由于增强或正则化更改而导致的改进示例包括 [11]，他们通过学习数据增强获得了出色的分类性能，以及 [4]，他们表明，如果使用最近的训练和增强策略，规范的 ResNets 仍然接近最先进的技术。

5 Conclusions

我们描述了一个非常简单的视觉架构。我们的实验表明，在训练和推理所需的准确性和计算资源之间的权衡方面，它与现有的最先进方法一样好。我们相信这些结果提出了许多问题。在实践方面，研究模型学习的特征并确定与 CNN 和 Transformer 学习的特征的主要区别（如果有的话）可能很有用。在理论方面，我们想了解隐藏在这些不同特征中的归纳偏差，并最终了解它们在泛化中的作用。最重要的是，我们希望我们的结果能够引发进一步的研究，超越基于卷积和自注意力的已建立模型的领域。看看这样的设计是否适用于 NLP 或其他领域将会特别有趣。

A Things that did not help

A.1 Modifying the token-mixing MLPs

A.2 Fine-tuning

B Pre-training: hyperparameters, data augmentation and regularization

在表 4 中，我们描述了用于预训练 Mixer 模型的最佳超参数设置。对于 ImageNet 和 ImageNet-21k 的预训练，我们使用了额外的增强和正则化。对于 RandAugment [12]，我们总是使用两个增强层并在集合 {0,10,15,20} 中扫描幅度 m 参数。对于 mixup [60]，我们在集合 {0.0, 0.2, 0.5, 0.8} 中扫描混合强度 p。对于 dropout [43]，我们尝试降低 0.0 和 0.1 的速率 d。对于随机深度，与原始论文 [19] 配置相同，将层从 0.0（对于第一个 MLP）下降到 s（对于最后一个 MLP）的概率线性增加，尝试 s ∈ {0.0, 0.1}。最后，分别从 {0.003, 0.001} 和 {0.1, 0.01} 扫描学习率 lr 和权重衰减 wd。

C Fine-tuning: hyperparameters and higher image resolution

D Weight visualizations

E MLP-Mixer code

你可能感兴趣的:(计算机视觉（CV）,论文阅读（Paper）,transformer,计算机视觉,MLP)

鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
YOLOv11: AN OVERVIEW OF THE KEY ARCHITECTURAL ENHANCEMENTS目标检测论文精读（逐段解析）昵称是6硬币 (持续更新)YOLO 深度学习计算机视觉人工智能目标检测图像处理
YOLOv11:ANOVERVIEWOFTHEKEYARCHITECTURALENHANCEMENTS目标检测论文精读（逐段解析）论文地址：https://www.arxiv.org/abs/2410.17725RahimaKhanamandMuhammadHussainUltralytics公司发布CVPR2024论文写的比较简单，比较核心的改进包括：C3K2高效特征提取机制。对C2f模块的改进
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
java复习 06 im_AMBER java 开发语言学习
线程还没学会，然后查漏补缺。再学一下泛型，下一篇博客写。1线程控制方法名说明staticvoidsleep(longmillis)使当前正在执行的线程停留（暂停执行）指定的毫秒数voidjoin()等待这个线程死亡voidsetDaemon(booleanon)将此线程标记为守护线程，当运行的线程都是守护线程时，Java虚拟机将退出sleep方法的应用，这里用trycatch包围packagePT
Java使用documents4j将word和excel转pdf 药岩工作中的那些问题 java word excel
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3<dependency
python + selenium通过滑块验证 weixin_51144854 python selenium 爬虫 opencv
1、介绍使用python进行自动化操作或者爬虫过程中，可能会遇到需要进行验证的情况。本文介绍了两种通过滑块验证的方法：轮廓检测通过OpenCV进行轮廓检测，找到滑块背景中缺口的位置，计算缺口到滑块的距离。模板匹配通过OpenCV分析滑块背景图与滑块的相似度，找到滑块背景图中与滑块最相似的区域就是缺口的位置，然后计算缺口到滑块的距离。2、轮廓检测测试地址：https://accounts.douba
MAX7219数码管+RTC时钟——stm32 嵌入式学徒未来评测学徒 stm32 keil mdk 物联网
rtc.c文件如下：具体请查看原子哥正点原子RTC实时时钟例程，发现BUG,求解决。-OpenEdv-开源电子网#include"sys.h"#include"delay.h"#include"rtc.h"#include"stdio.h"_calendar_objcalendar;//时钟结构体//staticvoidRTC_NVIC_Config(void)//{//NVIC_InitType
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
[插电式混合动力车辆][交替方向乘子法（ADMM）结合CVX]插电式混合动力车辆的能源管理：基于凸优化算法用于模型预测控制MPC研究（Matlab代码实现）程序辅导帮算法 matlab 人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述2运行结果3参考文献4Matlab代码、数据、文章⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时
递归经典问题--老鼠迷宫阿亮爱学代码 Java java 算法开发语言
代码：publicclassMiGong{publicstaticvoidmain(String[]args){//先创建迷宫，二维数组表示int[][]map=newint[8][7];//先规定map数组的元素值0：表示可以走1：表示障碍物int[][]map=newint[8][7];for(inti=0;i<7;i++){map[0][i]=1;map[7][i]=1;}map[3][1]
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError:Using`low_cpu_mem_usage=True`ora`device_map`requiresAccelerate:`pipinstallaccelerate`pipinst
创建线程的常见方式 HansenPole825 java 开发语言
一、继承Thread类继承Thread类重写run（）方法。publicclassmyThreadextendsThread{@Overridepublicvoidrun(){System.out.println("线程启动了");}publicstaticvoidmain(String[]args){myThreadmyThread=newmyThread();myThread.start();
TCP 缓冲区核心机制 FHKHH tcp/ip php 网络
一、TCP缓冲区核心机制1.发送与接收缓冲区发送缓冲区：当应用程序调用send()或write()函数时，数据从应用进程复制到内核的发送缓冲区。TCP协议负责将这些数据分段并发送。例如，Web服务器向客户端发送网页数据时，应用程序将内容传递到发送缓冲区，TCP再将其分割成合适大小的报文段进行传输。接收缓冲区：接收端将收到的数据存入内核的接收缓冲区，应用程序调用recv()或read()函数从中读取
不是只有写稿能用AI！教你用AI“模拟审稿人”帮论文过关学境思源AcademicIdeas AI写作学境思源 ChatGPT 人工智能
在AI辅助写作火遍学术圈之后，学境思源，越来越多作者开始发现：AI的真正威力，并不只是帮你一键生成论文初稿！“写”，而是可以反过来“像审稿人一样看你的论文”。acaids.com。这种“反向应用”，正成为提高论文录用率的关键利器。今天这篇文章就告诉你：如何用AI模拟审稿人视角，检查论文的逻辑漏洞、结构混乱、语言问题，甚至帮助你发现数据论证不足，提前做出修改。我们会重点介绍Paperpal、Writ
opencv —— floodFill 漫水填充法实现证件照换背景老干妈就泡面 opencv 人工智能计算机视觉
漫水填充：floodFill函数简单来说，漫水填充就是自动选中与种子像素相连的区域，利用指定颜色进行区域颜色填充。Windows画图工具中的油漆桶功能和Photoshop的魔法棒选择工具，都是漫水填充的改进和延伸。//第一个版本intfloodFill(InputOutputArrayimage,PointseedPoint,ScalarnewVal,Rect*rect=0,ScalarloDif
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
7-STM32的模拟IIC 水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的模拟IICvoidIIC_Init(){GPIO_InitTypeDefGPIO_InitStructure;RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOB,ENABLE);//使能GPIOA时钟GPIO_InitStructure.GPIO_Pin=GPIO_Pin_10|GPIO_Pin_11;//PA4->SCL;PA5->SDAGPIO_
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
关于 java：7. 多线程与并发编程 shenyan~ java 开发语言
一、Thread类作用：Thread类代表一个线程，用于创建和控制一个新的执行流（即“子线程”）。定义：java.lang.Thread类实现了Runnable接口。1.1使用方式方法一：继承Thread类步骤：自定义类继承Thread。重写run()方法。创建线程对象并调用start()方法。示例代码：classMyThreadextendsThread{@Overridepublicvoidr
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
OpenCV图像噪点消除五大滤波方法慕婉0307 opencv基础 opencv 人工智能计算机视觉
在数字图像处理中，噪点消除是提高图像质量的关键步骤。本文将基于OpenCV库，详细讲解五种经典的图像去噪滤波方法：均值滤波、方框滤波、高斯滤波、中值滤波和双边滤波，并通过丰富的代码示例展示它们的实际应用效果。一、图像噪点与滤波基础1.1常见图像噪声类型高斯噪声：符合正态分布的随机噪声椒盐噪声：随机出现的黑白像素点泊松噪声：光子计数噪声量化噪声：模拟信号数字化过程中产生1.2滤波方法分类滤波类型特点
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla