Y蓝田大海

VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arXiv 2021)

最前面是论文翻译，中间是背景+问题+方法步骤+实验过程，最后是文中的部分专业名词介绍（水平线分开，能力有限，部分翻译可能不太准确）

摘要：

尽管Tansformer结构已经成为自然语言处理的事实标准，但是在计算机视觉上的应用还是非常有限。在视觉领域，注意力机制要么和卷积神经网络共用，要么在保持原有结构不变的情况下替换局部的卷积运算。我们证明对CNN的依赖不是必须的，纯Transformer可以直接应用在一系列小块图片上并在分类任务上取得很好的效果。当在大量数据预训练的模型转移到中小型图片识别测试集(ImageNet, CIFAR-100, VTAB, etc)上, 相对最优秀的卷积神经网络，视觉Transformer (ViT)可以取得非常优秀的结果并且大量较少训练的计算资源。

1.介绍

基于自注意力的架构，尤其是Transformer，已经成为自然语言处理(NLP)中选择的模型。主要的方法是在大型文本语料库上进行预训练，然后在较小的任务特定数据集上进行微调。由于Transformer 的计算效率和可扩展性，训练具有超过100B参数的空前规模的模型成为可能。随着模型和数据集的增长，仍然没有表现出饱和的迹象。

然而，在计算机视觉中，卷积架构仍然占主导地位。受到NLP成功的启发，许多作品尝试将CNN类架构与自注意力结合，一些完全取代卷积全部使用自注意力。后一种模型虽然理论上是有效的，缺点：但由于使用了专门的注意力模式，在现代硬件加速器上还没有得到有效的扩展。因此，在大规模图像识别中，经典的ResNetlike架构仍然是最先进的技术。

受NLP中Transformer缩放成功的启发，我们尝试将标准Transformer直接应用于图像，并尽可能减少修改。为此，我们将图像分割为多个小块，并将这些小块的线性嵌入序列作为Transformer的输入。图像补丁的处理方式与NLP应用程序中的标记(单词)相同。我们以监督的方式训练模型进行图像分类。

当在中等规模的数据集（如ImageNet）上进行训练时，如果没有很强的正则化，这些模型的精度将比同等规模的ResNet低几个百分点。这一看似令人沮丧的结果是可以预料的：Transformer 缺乏CNN固有的一些感应偏差，如平移等变和局部性，因此在数据量不足的情况下，不能很好地进行泛化。

然而，如果模型在更大的数据集(14M-300M图像)上训练，图像就会发生变化。我们发现大规模训练战胜了归纳偏置。我们的视觉Transformer (ViT)在足够规模的预训练和转移到具有更少数据点的任务时取得了优异的结果。当在公共的ImageNet-21k数据集或内部的JFT-300M数据集上进行预训练时，ViT在多个图像识别基准上接近或超过了最先进的水平。其中，最佳模型在ImageNet上达到88.55%，在ImageNet- real上达到90.72%，在CIFAR-100上达到94.55%，在19个任务的VTAB套件上达到77.63%。

2.相关工作

Vaswani等人(2017)提出了用于机器翻译的Transformer ，并已成为许多NLP任务中的最先进方法。大型的基于transformer的模型通常在大型语料库上进行预训练，然后针对手头的任务进行微调：BERT使用去噪的自我监督训练前任务，而GPT工作则使用语言建模作为其训练前任务。

对图像进行单纯的自注意力需要每个像素注意其他像素。由于像素数量为二次元，因此不能按实际输入大小缩放。因此，为了将Transformer 应用于图像处理，过去已经尝试了几种近似方法。Parmar等人(2018)只对每个查询像素的局部邻域应用了自注意力，而不是全局。这种局部多头点积自注意力块可以完全替代卷积。在另一项工作中，稀疏Transformer (采用了可扩展的全局自注意力近似，以便适用于图像。衡量注意力的另一种方法是在不同大小的块上应用注意力，在极端情况下只沿着单个轴。这些专门的注意力架构在计算机视觉任务中展示了很好的结果，但需要复杂的工程在硬件加速器上有效地实现。

与我们最相关的是Cordonnier (2020)的模型，该模型从输入图像中提取大小为2 × 2的patch，并在上面应用完全自注意力。这个模型与ViT非常相似，但我们的工作进一步证明，大规模的预训练可以让vanilla Transformer 与最先进的CNN竞争(甚至更好)。此外，Cordonnier 等人(2020)使用了2 × 2像素的小尺寸patch，这使得该模型仅适用于小分辨率的图像，而我们也适用于中等分辨率的图像。

人们对将卷积神经网络(CNN)与自注意力形式相结合也有很多兴趣，例如通过增强图像分类的特征映射或通过使用自注意力进一步处理CNN的输出，例如用于目标检测，视频处理，图像分类，无监督对象发现，或统一的文本视觉任务。

另一个近期的相关模型是图像GPT (iGPT)，它在降低图像分辨率和颜色空间后，将Transformer 应用于图像像素。该模型以一种无监督的方式作为生成模型进行训练，然后可以对产生的表示进行微调或线性探测，以提高分类性能，在ImageNet上达到72%的最大精度。

我们的工作增加了越来越多的论文集，这些论文在比标准ImageNet数据集更大的范围内探索图像识别。使用额外的数据源可以在标准基准上取得最先进的结果。此外，Sun等人（2017）研究了CNN的性能如何随数据集的大小而变化，Kolesnikov等人（2020）;Djolonga等人（2020）对CNN从ImageNet-21k和JFT-300M等大规模数据集转移学习进行了经验性探索。我们也关注这两个数据集，但训练Transformers而不是之前工作中使用的基于ResNet的模型。

3.方法

在模型设计中，我们尽可能地遵循最初的Transformer (2017)。这种故意简化的设置的一个优点是，可伸缩的NLP Transformer架构——及其高效实现——几乎可以开箱即用。

3.1视觉transformer（VIT）

图1描述了该模型的概述。标准的Transformer接收一个1D符号嵌入序列作为输入。为了处理2D图像，我们将图像x∈RH×W ×C重构为平坦的2D patch xp∈RN ×(p2·C)序列，其中(H, W)为原始图像的分辨率，C为通道数，(P, P)为每个图像patch的分辨率，N = HW/ p2为得到的patch数，这也是Transformer的有效输入序列长度。Transformer在其所有层中使用恒定的潜在向量大小D，因此我们将补丁平铺并使用可训练的线性投影(公式1)映射到D维。我们将这个投影的输出称为补丁嵌入。

图1:模型概览。我们将图像分割成固定大小的小块，线性嵌入每个小块，添加位置嵌入，并将得到的向量序列输入标准的Transformer编码器。为了进行分类，我们使用标准的方法，在序列中添加一个额外的可学习的“分类标记”。Transformer 编码器的插图的灵感来自Vaswani等人(2017)。

类似于BERT的[类]标记，我们在嵌入补丁序列(z0 0 = xclass)前加上一个可学习的嵌入，其在Transformer编码器(z0L)输出处的状态作为图像表示y (式子4)。在预训练和微调期间，分类头都被附加到z0L上。该分类头在训练前由一个隐含层实现，在微调时由一个线性层实现。

在补丁嵌入中加入位置嵌入以保留位置信息。我们使用标准的可学习的一维位置嵌入，因为我们没有观察到使用更先进的2d感知位置嵌入的显著性能提高(附录D.4)。生成的嵌入向量序列作为编码器的输入。

Transformer编码器（Vaswani等人，2017）由多头自注意力（MSA，见附录A）和MLP块的交替层组成（公式2，3）。在每个区块之前应用Layernorm（LN），在每个区块之后应用剩余连接。MLP包含两个具有GELU非线性的层。

归纳偏置。我们注意到，与CNN相比，Vision Transformer具有更少的图像特定归纳偏置。在CNN中，局部性、二维邻域结构和平移等方差性被融入整个模型的每一层。在VIT中，只有MLP层是局部的和翻译等变的，而自注意力层是全局的。二维邻域结构的使用非常少：在模型开始时，通过将图像分割成块，并在微调时调整不同分辨率图像的位置嵌入(如下所述)。除此之外，初始化时的位置嵌入不携带关于面片的2D位置的信息，并且必须从头开始学习面片之间的所有空间关系。

混合架构。作为原始图像补丁的替代方案，输入序列可以由CNN的特征地图形成(1989)。在该混合模型中，将patch embedding投影E (Eq. 1)应用于从CNN特征图中提取的patch。作为一种特殊情况，patch的空间大小可以是1x1，这意味着只需将feature map的空间维度进行扁平化，投影到Transformer维度，就可以得到输入序列。分类输入嵌入和位置嵌入是按照上面的描述添加的。

3.2微调和更高分辨率

通常，我们在大型数据集上预训练ViT，在(较小的)下游任务微调。为此，我们去掉预先训练的预测头，附加一个零初始化的D × K前馈层，其中K为下游类的数量。与训练前相比，在更高的分辨率下进行微调通常是有益的。当输入更高分辨率的图像时，我们保持patch的大小不变，从而得到更大的有效序列长度。Vision Transformer可以处理任意长度的序列(直到内存限制)，然而，预先训练的位置嵌入可能不再有意义。因此，我们根据其在原始图像中的位置，对预训练的位置嵌入进行2D插值。请注意，这种分辨率调整和补丁提取是关于图像2D结构的归纳偏置被手动注入Vision Transformer的唯一点。

4.实验

我们评估了ResNet、Vision Transformer(VIT)和混合模型的表征学习能力。为了了解每个模型的数据需求，我们对不同大小的数据集进行了预训练，并评估了许多基准任务。当考虑到预训练模型的计算成本时，VIT表现得非常好，以较低的预训练成本在大多数识别基准上达到了最先进的水平。最后，我们使用自我监督进行了一个小实验，并展示了自我监督的VIT对未来的前景。

4.1设置

数据集。为了探索模型的可扩展性，我们使用了ILSVRC-2012 ImageNet数据集，其中有1k个类和1.3M张图片(以下我们将其称为ImageNet)，它的超级集合ImageNet-21k有21k个类和14M张图片(2009年)，JFT (2017年)有18k个类和303M张高分辨率图片。在Kolesnikov等人(2020)之后，我们对预训练数据集w.r.t.下游任务的测试集进行重复删除。我们将在这些数据集上训练的模型转移到几个基准任务:原始验证标签上的ImageNet和清理后的ReaL标签(2020年)，cifer -10/100 (2009年)，Oxford- iiit Pets (2012年)，以及Oxford Flowers-102 (2008年)。对于这些数据集，预处理遵循Kolesnikov等人(2020年)。

表1:Vision Transformer模型变量的详细信息

我们还评估了19个任务的VTAB分类套件(2019b)。VTAB评估不同任务的低数据传输，每个任务使用1 000个训练示例。任务分为三组:自然任务(如上述)、宠物任务(Pets)、CIFAR等。专业的-医疗和卫星图像，以及结构化的-需要几何理解的任务，如定位。

模型变体。我们基于BERT (2019年)使用的ViT配置，如表1所示。我们直接采用BERT中的“Base”和“Large”模型，并加入更大的“Huge”模型。下面我们用简单的符号来表示模型的大小和输入补丁的大小:例如，ViT-L /16表示输入补丁大小为16 × 16的“Large”变体。请注意，Transformer的序列长度与补丁大小的平方成反比，因此补丁大小较小的模型在计算上更昂贵。

对于基线CNN，我们使用ResNet，但将批归一化层替换为组归一化，并使用标准化卷积。这些改进改进了传输，我们将改进的模型命名为“ResNet (BiT)”。对于混合特征，我们将中间特征映射以一个“像素”的patch大小输入到ViT中。为了实验不同的序列长度，我们要么(i)取常规ResNet50的阶段4的输出，要么(ii)删除阶段4，在阶段3放置相同的层数(保持总层数)，并取这个扩展阶段3的输出。选项(ii)导致4倍长的序列长度，和一个更昂贵的ViT模型。

训练和微调。我们使用Adam训练所有模型，包括ResNets， β1 = 0.9， β2 = 0.999，批量大小为4096，并应用0.1的高权重衰减，我们发现这对所有模型的转移是有用的(附录D.1显示，与常见做法相比，在我们的设置中，Adam对ResNets的工作比SGD略好)。我们使用线性学习率预热和衰减，详见附录B.1。对于所有型号，我们使用带动量的SGD进行微调，批大小为512，见附录B.1.1。对于表2中的ImageNet结果，我们微调了更高的分辨率:vitl /16的分辨率为512,vith /14的分辨率为518，还使用了Polyak & Juditsky(1992)平均系数为0.9999。

指标。我们通过少镜头或微调精度报告下游数据集的结果。微调精确性可以在各自的数据集上微调每个模型后捕获其性能。通过解决正则化的最小二乘回归问题，将训练图像子集的(冻结)表示映射到{−1,1}K目标向量，从而获得少量镜头精度。这个公式使我们能够以封闭的形式得到精确的解。虽然我们主要关注微调性能，但我们有时会使用线性的少镜头精度来快速实时评估，在这种情况下，微调的成本太高。

4.2与最先进技术的比较

我们首先将我们最大的型号—— ViT-H/14和ViT-L/16与文献中最先进的CNN进行比较。第一个比较点是大转移(BiT)，它使用大型ResNets执行有监督的转移学习。第二个是嘈杂的学生，它是一个大型的有效网络，使用ImageNet和JFT300M上的半监督学习进行训练，去除标签。目前，嘈杂的学生是ImageNet和BiT-L在这里报告的其他数据集上的艺术状态。所有模型在TPUv3硬件上训练，我们报告每个模型预训练的TPUv3核天数，即用于训练的TPUv3核数(每个芯片2个)乘以以天为单位的训练时间。

表2显示了结果。在JFT-300M上预训练的较小的ViT-L/16模型在所有任务上都优于BiT-L（在同一数据集上预训练），同时需要大量的计算资源来训练。较大的模型，ViT-H/14，进一步提高了性能，特别是在更具挑战性的数据集——ImageNet、CIFAR-100和VTAB套件。有趣的是，这个模型的预训练花费的计算量仍然大大低于之前的技术水平。然而，我们注意到，预训练的效率不仅会受到架构选择的影响，而且还会受到其他参数的影响，如训练计划、优化器、权重衰减等。我们在第4.4节中对不同架构的性能与计算量进行了对照研究。最后，在公共的ImageNet-21k数据集上预训练的ViT-L/16模型在大多数数据集上也表现良好，同时预训练所需的资源较少：它可以在大约30天内使用8个内核的标准云TPUv3进行训练。

表2:与目前流行的图像分类基准的比较。我们报告了精度的平均值和标准偏差，平均在三次微调运行。在JFT-300M数据集上预训练的Vision Transformer模型在所有数据集上都优于基于resnet的基线，同时大大减少了预训练所需的计算资源。在较小的公共ImageNet-21k数据集上预先训练的ViT表现也很好。∗Touvron等人报告的结果略有改善88.5%(2020年)。

图2:自然、专门化和结构化任务组中VTAB性能的分解。

图2将VTAB任务分解为各自的组，并在此基准上与之前的SOTA方法进行比较:BiT、VIVI -在ImageNet和Youtube上共同训练的ResNet (Tschannen等人，2020年)，以及S4L -在ImageNet上监督加半监督学习(Zhai等人，2019a)。vith /14在自然和结构化任务方面优于BiT-R152x4和其他方法。在专门化方面，前两款车型的性能相似。

4.3训练前数据要求

Vision Transformer在大型JFT-300M数据集上进行预训练时表现良好。由于对视觉的诱导偏差比ResNets更少，那么数据集的大小有多重要呢?我们进行了两个系列的实验。

首先，我们在越来越大的数据集上对ViT模型进行预训练。ImageNet、ImageNet-21k和JFT300M。为了提高在小数据集上的性能，我们优化了三个基本的正则化参数——权重衰减、剔除和标签平滑。图3显示了对ImageNet进行微调后的结果（其他数据集的结果见表5）。当在最小的数据集ImageNet上进行预训练时，尽管有（适度的）正则化，ViT-Large模型与ViT-Base模型相比表现不佳。在对ImageNet-21k进行预训练时，它们的表现相似。只有在JFT-300M中，我们才看到大型模型的全部优势。图3还显示了不同规模的BiT模型所跨越的性能区域。BiT CNN在ImageNet上的表现优于ViT，但在更大的数据集上，ViT超越了。

其次，我们在9M、30M和90M的随机子集以及完整的JFT300M数据集上训练我们的模型。我们不对较小的子集进行额外的正则化，并对所有设置使用相同的超参数。这样，我们评估的是模型的内在性质，而不是正则化的影响。然而，我们确实使用了早期停止，并报告了在训练中获得的最佳验证准确性。为了节省计算时间，我们报告了少镜头线性精度，而不是完整的微调精度。图4包含结果。在较小的数据集上，Vision transformer的过拟合比ResNets多，计算成本相当。例如，ViT-B /32比ResNet50略快；它在9M子集上表现得更差，但在90M+子集上表现得更好。ResNet152x2和ViT-L/16也是如此。这个结果强化了卷积归纳偏置对于较小的数据集有用的直觉，但对于较大的数据集，直接从数据中学习相关模式就足够了，甚至是有益的。

总的来说，ImageNet上的少拍摄结果(图4)以及VTAB上的低数据结果(表2)似乎很适合低数据传输。进一步分析ViT的少射性能是今后研究的一个重要方向。

图3:传输到ImageNet当在小数据集上进行预训练时，大型ViT模型的表现比BiT ResNets(阴影区域)更差，但当在更大的数据集上进行预训练时，它们会闪闪发光。同样，随着数据集的增长，较大的ViT变体超过较小的ViT变体。

图4:与训练前的大小相比，ImageNet上的线性少镜头评估。ResNets在较小的预训练数据集上表现更好，但与ViT相比，它在较大的预训练数据集上表现更好。ViT-b是所有隐藏维度减半的ViT-B。

图5:不同架构的性能对比:Vision transformer, ResNets和混合架构。在相同的计算预算下，Vision transformer的性能通常优于ResNets。对于小型模型来说，混合动力Transformer 优于纯Transformer ，但对于大型模型来说，这种差距消失了。

4.4扩展研究

通过评估JFT-300M的传输性能，我们对不同的模型进行了控制缩放研究。在这种设置下，数据大小不会成为模型性能的瓶颈，我们对每个模型的性能和训练前的成本进行评估。模型集包括:ResNets、R50x1、R50x2、R101x1、R152x1、R152x2 7个预训练7个epoch，加上R152x2、R200x3 14个epoch预训练;6 Vision transformer, ViT-B/32, B/16, L/32, L/16，预训练7个epoch，加上L/16和H/14预训练14个epoch;5个混合模式，R50+ ViT-B/32, B/16, L/32, L/16预训练7个epoch，加上R50+ ViT-L/16预训练14个epoch(对于混合模式，模型名称末尾的数字不代表补丁大小，而是ResNet骨干中的总下采样比)。

图5包含了传输性能与总训练前计算的对比(参见附录D.5了解计算成本的详细信息)。各型号的详细结果见附录表6。可以观察到一些模式。首先，Vision transformer在性能/计算权衡上主宰ResNets。ViT使用大约2 - 4倍的计算量来获得相同的性能(平均超过5个数据集)。其次，在较小的计算预算下，混合动力的性能略优于ViT，但对于较大的模型，这种差异消失了。这个结果有些令人惊讶，因为人们可能会期望卷积局部特征处理在任何大小上都能辅助ViT。第三，Vision transformer似乎没有在尝试的范围内饱和，这激励了未来的扩展努力。

4.5视觉Transformer 检测

为了开始理解Vision Transformer如何处理图像数据，我们分析它的内部表示。Vision Transformer的第一层线性地将平坦的补丁投影到一个低维空间(Eq. 1)。图7(左)显示了学习到的嵌入过滤器的顶部主要组件。这些组件类似于合理的基函数，以低维表示每个补丁内的精细结构。

投影之后，将学习到的位置嵌入加入到补丁表示中。从图7(中)可以看出，模型学习了在位置嵌入相似度上对图像内部的距离进行编码，即越近的patch，其位置嵌入的相似度越高。此外，还会出现行-列结构;同一行/列中的补丁具有相似的嵌入。最后，对于较大的网格，正弦结构有时是明显的(附录D)。位置嵌入学会表示2D图像拓扑解释了为什么手工制作的2D感知嵌入变量不能产生改进(附录D.4)。

自注意力允许ViT在整个图像中集成信息，即使是在最低层中。我们研究了网络在多大程度上利用了这种能力。具体来说，我们根据注意力权重计算信息集成在图像空间中的平均距离(图7，右)。这种“注意距离”类似于CNN感受野大小。我们发现，一些头部关注的大部分图像已经在最底层，这表明该模型确实使用了全局集成信息的能力。其他注意力头在低层次的注意力距离一直很小。在Transformer之前应用ResNet的混合模型中，这种高度局部化的注意不太明显(图7，右)，这表明它可能作为早期卷积层在CNN中发挥类似的功能。注意距离随着网络深度的增加而增加。在全局上，我们发现该模型关注与分类在语义上相关的图像区域(图6)。

图6:从输出标记到输入空间的典型注意示例。详见附录D.7。

图7：左：VIT-L/32的RGB值的初始线性嵌入的过滤器。中心：VIT-L/32的位置嵌入相似度。平铺显示具有所指示的行和列的面片的位置嵌入与所有其他面片的位置嵌入之间的余弦相似性。右图：按头数和网络深度计算的出席区域大小。每个点显示了一层中16个头中的一个在图像上的平均注意距离。详情见附录D.7。

4.6自我监督

Transformer 在NLP任务上表现出令人印象深刻的性能。然而，它们的大部分成功不仅源于其出色的可扩展性，还源于大规模的自监督预训练。我们还对自监督的屏蔽补丁预测进行了初步探索，模仿BERT中使用的屏蔽语言建模任务。通过自我监督的预训练，我们较小的ViT-B/16模型在ImageNet上取得了79.9%的准确率，与从头开始训练相比，有2%的明显改善，但仍比监督的预训练落后4%。附录B.1.2包含进一步的细节。我们将对比性预训练的探索留给未来的工作。

5.结论

我们探索了Transformer 在图像识别中的直接应用。与之前在计算机视觉中使用自注意力的作品不同，我们没有在架构中引入特定于图像的归纳偏置，除了初始的补丁提取步骤。相反，我们将图像解释为一组补丁，并使用NLP中使用的标准Transformer编码器进行处理。当与大型数据集的预训练相结合时，这种简单但可扩展的策略出奇地有效。因此，Vision Transformer在许多图像分类数据集上匹配或超越了最先进的技术，同时相对于预训练来说成本较低。

虽然这些初步结果令人鼓舞，但仍存在许多挑战。一是将ViT应用于其他计算机视觉任务，如检测和分割。我们的结果，加上卡里恩等人(2020)的研究结果，表明了这种方法的前景。另一个挑战是继续探索自我监督的训练前方法。我们最初的实验表明，自我监督训练前的效果有所改善，但与大规模监督训练前相比，自我监督训练前的效果还存在较大差距。最后，ViT的进一步扩展可能会提高性能。

背景:

尽管Tansformer结构已经成为自然语言处理的事实标准，但是在计算机视觉上的应用还是非常有限。在视觉领域，卷积架构仍然占主导地位，①注意力机制和卷积神经网络结合，②保持原有结构不变的情况下替换局部的卷积运算，全部使用自注意力。（都或多或少依赖CNN，我们想使用纯Transformer用于分类任务，不依赖卷积。）

问题1:

完全取代卷积而全部使用自注意力在理论上是有效的，但由于使用了专门的注意力模式，在现代硬件加速器上还没有得到有效的扩展。因此，在大规模图像识别中，效果还是不如ResNetlike。

想法：

受NLP中Transformer缩放成功的启发，我们尝试将Transformer直接应用于图像，并尽可能减少修改。

问题2:

对图像进行单纯的自注意力需要每个像素注意其他像素。由于像素数量为二次元，因此不能按实际输入大小缩放。

前人将Transformer 用于图像处理做过的几种工作：

1. Parmar等人只对每个查询像素的局部邻域(而是不是全局)应用了自注意力。这种局部多头点积自注意力块可以完全替代卷积。

2. 稀疏Transformer (采用了可扩展的全局自注意力近似，以便适用于图像。衡量注意力的另一种方法是在不同大小的块上应用注意力，在极端情况下只沿着单个轴。

它俩缺点：这些专门的注意力架构在计算机视觉任务中展示了很好的结果，但需要复杂的工程在硬件加速器上有效地实现。

3. Cordonnier 的模型（与我们的最像）从输入图像中提取大小为2 × 2的patch（这使得该模型仅适用于小分辨率的图像）并在上面应用完全自注意力。

卷积神经网络(CNN)与自注意力形式相结合：

4. 图像GPT (iGPT)，它在降低图像分辨率和颜色空间后，将Transformer 应用于图像像素。该模型以一种无监督的方式作为生成模型进行训练，然后可以对产生的表示进行微调或线性探测，以提高分类性能。

方法与步骤：

方法：

我们将图像分割为多个小块，并将这些小块的线性嵌入序列作为Transformer的输入。图像补丁的处理方式与NLP应用程序中的标记(单词)相同。我们以监督的方式训练模型进行图像分类。

框架：

模型：将图像分割成固定大小的小块，线性嵌入每个小块，添加位置嵌入（预处理），并将得到的向量序列输入标准的Transformer编码器（特征提取）。为了进行分类，我们使用标准的方法，在序列中添加一个额外的可学习的“分类标记”（分类）

步骤：

1. Transformer接收一个1维符号嵌入序列作为输入。为了处理2维图像，我们将图像x∈RH×W ×C重构为平坦的2D patch xp∈RN ×(p2·C)序列，其中(H, W)为原始图像的分辨率，C为通道数，(P, P)为每个图像patch的分辨率，N = HW/ p2为得到的patch数，这也是Transformer的有效输入序列长度。

Transformer在其所有层中使用恒定的潜在向量大小D，因此我们将补丁平铺并使用可训练的线性投影(公式1)映射到D维。我们将这个投影的输出称为patch embeddings

2.可学习嵌入：类似于BERT的[类]标记，我们在嵌入补丁序列前加上一个可学习的嵌入。在预训练和微调期间，分类头都被附加到z0L上。该分类头在训练前由一个隐含层实现，在微调时由一个线性层实现。

3.位置嵌入：在补丁嵌入中加入位置嵌入以保留位置信息。我们使用标准的可学习的一维位置嵌入（我们发现2维并没有太多提高），生成的嵌入向量序列作为编码器的输入。

4.Transformer编码器由多头自注意力和MLP块的交替层组成（公式2，3）。在每个区块之前应用Layernorm（LN），在每个区块之后应用剩余连接。MLP包含两个具有GELU非线性的层。

提取分类结果

实验结果

小型数据集上效果可能不如其他模型，但在大型数据集上差距就消失了

你可能感兴趣的:(读论文,图像分类,transformer,transformer,计算机视觉)

OpenCV直线段检测算法类cv::line_descriptor::LSDDetector 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该类用于实现LSD(LineSegmentDetector)直线段检测算法。LSD是一种快速、准确的直线检测方法，能够在不依赖边缘检测的前提下直接从图像中提取出直线段。它是OpenCV的line_descriptor模块的一部分，常用于计算机视觉任务如图像拼接、S
OpenCV-光流估计
文章目录一、光流估计介绍1.光流估计的基本概念2.光流估计的原理3.光流估计的前提4.OpenCV中的光流估计算法5.参数设置与调整二、代码实现三、注意事项OpenCV中的光流估计是计算机视觉领域中的一项重要技术，它通过分析图像序列中像素点的运动，来估计物体的运动信息。以下是对OpenCV中光流估计的详细解析：一、光流估计介绍1.光流估计的基本概念光流是空间运动物体在观测成像平面上的像素运动的“瞬
2018-11-30 小邢麻麻
图片发自App图片发自App图片发自App明天又休息了，所以作业有点多。今晚没做完，明天上午完成的今天下午的时候，王老师拿了四张表，分给了几个写字比较好看的人，期中就有我，而且还是第一个给我的。王老师说，邢佳怡，我看你写字挺好的，你就把这张表填一下吧。我一听，很高兴，这是一个光荣的任务，我一定要认真完成。这也是对我认真写字的一种认可。加油今晚读的是，哪吒闹海。主人公哪吒是他母亲怀了他三年才生下来的
20210515成长日记 samantha
1.呼吸法。2.柠檬水，西芹汁，果汁。3.小米粥午餐。4.拆书法学习1）本周的学习,我的目标是什么?了解拆书法,学会拆读一本书。2)整个听课和作业完成的过程中发生了什么?a.听着老师的讲课和完成作业,一层层升级了自己的拆书思维。打开了新的思维,不正确的学习方式让我产生焦虑,追逐干货。大量的听课追逐干货,如果能把这些学到的用到极致就是最大的成长和收获。听课的过程中有陷入知识为中心的思维而去记录老师说
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
arXiv.org
arXiv的发展历程与目标解析一、发展历程：从邮件列表到学术基础设施（1991年至今）萌芽期（1989-1991）起源：1989年，物理学家PaulGinsparg基于弦理论专家的邮件列表，尝试自动化预印本分发。1991年8月，洛斯阿拉莫斯国家实验室上线xxx.lanl.gov，最初仅服务高能物理领域，通过电子邮件接收投稿，半年内收录400篇论文。技术突破：1993年接入万维网，成为首个使用“摘要
修改文章《写作的意义》小结读写缘
昨天，读周老师的文章《找到写作意义》，我反思自己对写作的认识，写了一篇文章《写作的意义》。全文一千两百多字，自信满满。初稿形成时，感觉梳理的不是很清楚，对直接引用周老师的原话是否合适有疑问，便把文章发给燕老师，请教修改意见。得到燕老师的点拨，思路逐渐明晰，提笔重写。这次换了说法，把周老师文章中的原话全部删减，理解找出关键语句作为小标题，展开分层描述。修改后的文章九百多字，有些小惋惜，但很值得。文章
爆改YOLOv8 | 利用AFPN增加小目标检测层(替换小目标检测头）
1，本文介绍这篇文章的改进机制是利用新推出的渐近特征金字塔网络（AFPN）来优化yolov8的检测头，AFPN的核心是引入一种渐近的特征融合策略，将底层和高层的特征逐渐整合到目标检测过程中。这种方式有助于减小不同层次特征之间的语义差距，提高特征融合效果，使得检测模型能更好地适应不同层次的语义信息。关于AFPN的详细介绍可以看论文：https://arxiv.org/pdf/2306.15988.p
黄河，我的母亲——教读《黄河颂》有感山城居士
黄河，你是巍巍昆仑孕育的女儿是生我，养我的母亲你如同黄沙般普通又朴实每天重复着同样的事——哺育我成长你伸出千万条柔弱的手臂，揽着我给我温暖与安全你是摇篮，我就是你摇篮里的婴孩你经历无数的狂风暴雨始终不变奔向黄海的志向把坚强融进了血脉这是你赋予我的期盼——博大胸怀这是你教会我的人生——坚强勇敢
【每日精进】少了读书和运动，不是美好的一天金台望道
6月25日星期六天气：晴好早晨：5点多起来，就整理发布“读毛年谱（176）”，顺便整理各个平台这个栏目的材料，均声明专栏是读书笔记，并非原创。以后这个栏目都不要放在宝贵的早上来做，完全放在晚上加工。早上做原创工作。以后每天还要安排读书和运动。少了这两样，这一天也不是美好的一天了！上午：到图书馆去，继续写小说第48章。下午：本想去图书馆，中午饭后，就在家里睡大觉了，一下午没做事。呜呼！晚上：完成“读
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
喜欢打球的人… 老贼
2017-10-2123:13:48推杆正反都要看线，读明白上下坡很关键，少上多送的目的是为了使方向和力道可控。第一洞四杆洞，第一轮一木开球球落球道正中；第二杆120码九铁打厚落短，仅低飞60、70码，落右侧沙坑沿；第三杆56度站位不佳，打高落短，落入果岭前沙坑；第四杆60度切上果岭；第五推离洞杯8、9码，仅从落球位观察了果岭，没有发现果岭左高右低的巨大幅度，用力过猛，球滚落下坡，又距洞杯7码左右
《生有热烈，藏与俗常》：在琐碎的日子里，“扒出”温柔，细细观赏～知粥
最近读了这本《生有热烈，藏与俗常》，之所以读这本书，他有趣的封面，是其中一个原因，另一个原因就是他的书名了。先说封面，整个封面以浅蓝色打底，很注重细节，可以看出封面周围有一些水泡，对于其中大片的浅红色图案，我个人感觉是金鱼或者是鱼类。对于书名的话，我之前看过这句话的意思，至于它的具体含义，可以看一下图的解释：整本书，和我之前看过的散文基本框架相同，总共有五个章节，每个章节有一个大体的主题，但每一篇
单片机智能衣柜论文，仅供参考 Believe Y python
大连东软信息学院毕业设计（论文）论文题目：单片机智能衣柜学院：智能与电子工程学院专业：智能科学与技术学生姓名：周成彬学生学号：19003170203指导教师：王宏波韩媞导师职称：讲师副教授完成日期：2023年4月22日大连东软信息学院DalianNeusoftUniversityofInformation基于单片机的智能衣柜摘要尽管传统的衣橱能够很好地满足储藏衣物的需求，但是因为衣橱的作用很简单，
初识opencv
文章目录1.什么opencv，它的优势点2.opencv安装和环境配置3.了解数字图像的基本概念：像素、彩色图像、灰度图像、二值图像、图像算数操作4.练习numpy中array的基本操作5.练习图像的加载、保存、以及算术操作参考文献1.什么opencv，它的优势点OpenCV是Intel®开源计算机视觉库。它由一系列C函数和少量C++类构成，实现了图像处理和计算机视觉方面的很多通用算法。OpenC
我的超雄霸总老公小说全文免费阅读(厉司寒许蔓蔓)全文免费厉司寒许蔓蔓读无弹窗大结局_ 厉司寒许蔓蔓免费厉司寒许蔓蔓读最新章节列表_笔趣阁（我的超雄霸总老公小说）细雨文库
我的超雄霸总老公小说全文免费阅读(厉司寒许蔓蔓)全文免费厉司寒许蔓蔓读无弹窗大结局_厉司寒许蔓蔓免费厉司寒许蔓蔓读最新章节列表_笔趣阁（我的超雄霸总老公小说）主角配角：厉司寒许蔓蔓小说别名：我的超雄霸总老公简介：爸，妈，我同意出国留学了。”听见女儿终于松口答应了，远在重洋的父母声音里满是欣慰。一声令下，许蔓蔓身后的一个保镖，立刻手持匕首走向我。见状，其中一个胆小的闺蜜有些惶恐地开口：“蔓蔓姐，这毕
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
2023-05-16 莫忘小寒
当你发泄的方式再也不是换头像，改签名，发朋友圈，找朋友倾诉，而是静一静，吹吹风，发发呆，那么恭喜你，你成长了，只是成长的过程有点艰难甚至有点痛苦。2、读那么多书干什么呢?就是为了在要紧关头，我们有选择的自由和底气，对于我们不喜欢的人和事，我们站起来就走，无谓纠缠。3、总有一天你会明白:任何关系到最后只是相识一场，大家也都是阶段性的陪伴，那些你放不下的人和事到最后岁月都会替你去轻描淡写。这个世界上从
女子善怀，亦各有行 ——读《诗经·鄘风·载驰》静默如迷
女子善怀，亦各有行《诗经·鄘风·载驰》茯芝苓每每读到《载驰》，我仿若看到心急如焚的许穆夫人左手执缰绳，右手拿长鞭，侧身驱马前行，一袭黑披随之飘扬，紧随其后的是同行姐妹的轻车。再后面，是追赶而来的许国大夫，各个策马奔腾，扬起一路尘与土……原文如下：载驰载驱，归唁卫侯。驱马悠悠，言至于漕。大夫跋涉，我心则忧。既不我嘉，不能旋反。视尔不臧，我思不远。既不我嘉，不能旋济。视尔不臧，我思不閟。陟彼阿丘，言采
好词句文学鉴赏一夏天的阳光001
蜜蜂忘了带油纸伞，也没顾上拿竹斗笠，偏偏芍药家又晴耕雨读，闭门谢客，所有的花朵都关好了花瓣。俊朗的蜜蜂只好忙乱地在层层叠叠的绿叶间翻来翻去，是想找一朵重重花门虚掩的花墅，还是想找到一片肯满怀柔情地收留自己的叶子？那蜜蜂……马上就掸掸翅膀上的雨水，安静地席叶而坐，守在一朵芍药的花窗下，听花、铺纸、研墨，听火、烹水、煮茶，听风、翻书、填词……不知道那雨是什么时候停的，也不知道那蜜蜂是什么时候离开的，只
记录快乐的读书时光林姐_健康生活
“魔法人生·悦读俱乐部”第21天打卡（《业力管理》第97页~第112页）：生命终究是脆弱的，十几岁的少年骑电动车和三轮车发生车祸，人当场没了，可以想象到父母撕心裂肺的痛…到底是谁的错？孩子的胆大？父母的放纵？车主的粗心大意？揪谁的错没有意义，流逝的生命已无法挽回，安全警钟必须长鸣！一、今天阅读的有哪些重点内容，对我有哪些启发今天读了业力管理法则五：停止做决定1.“极简主义”设计，只有礼盒图片，没有
2022-08-05日学录当年观棋
月的最后一天，睡了很长的时间。外面的天气是燥热的，在宿舍的房间里有一丝微凉。实验说到底来说还是想法的验证，但在远远超出自己知识和能力范围的假设，自己也奈何估算不出来。对一些高级仪器的使用还在处于一个基本的阶段。后续在研二的这个阶段，要全身心投入到毕业论文的内容撰写之中去。其实想法有很多，但是真正估计出来可以做的其实也就一两个。这就最终决定了自己毕业论文的宽度。哈哈哈哈哈哈哈哈哈哈
读《小学教师与民主运动》有感红领巾旳小辫子
本周拜读的是陶行知文集中的《小学教师与民主运动》一文，真的是令我感慨万千。其中令我印象深刻的是先生在文中提到的六大解放：一、解放他的头脑，使他能想；二、解放他的双手，使他能干；三、解放他的眼睛，使他能看；四、解放他的嘴，使他能谈；五、解放他的空间，使他能到大自然大社会里去取得更丰富的学问；六、解放他的时间，不把他的功课表填满，不逼迫他赶考，不和家长联合起来在功课上夹攻。即使是放在现在课堂教学中，也
不可多得的风味小吃——读杨勇的《家园四书》（笔记4）潜2023
身为亳州人，谁不喜欢了解亳州事？读杨勇先生（雅不知）的《家园四书》，相当于走进了亳州，了解她的过去和现在。《家园四书》总共有四部分组成，每一部分都是一道亳州风味的小吃，让你了解亳州的同时，更能咀嚼出她的美。《历史书：明月前身》写了亳州诸多历史人物。写得厚重大气，篇篇有铮铮铁骨，文笔刚劲有力，也不乏诙谐，偶有文白相间之处，读来很有韵味，像作者的书法，需得细细地品。它是亳州的肉夹馍，咔吱一口咬下去，满
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
快乐一生重要牛得芳草
3天前·故事领域创作者一个人，生活在现实社会中，吃亏啦，受委屈啦，想不通啦，常有的事。倘若整天围着自己那点儿小九九打转转，时时算计自个儿的利害得失，怎么能在生活中与别人处得融洽。人生永远在不停地做选择：选择读什么科系、做什么工作，结婚或不结婚、要不要有孩子，不同的选择造就出完全不一样的人生。有时候还常常后悔，如果当初自己如何如何，现在就不会怎样怎样......只要把人生看成是自己独一无二的创作，就
紫女李天元(心甘情愿)全章节在线阅读_(心甘情愿)全本在线阅读热门小说_
紫女李天元(心甘情愿)全章节在线阅读_(心甘情愿)全本在线阅读书名：心甘情愿主角：紫女李天元简介：普通人李天元穿越到了诸天无限的世界,成为了墨家弟子。虽然他的资质平平,但他意外绑定了"日记系统"。只要他坚持每天写日记,系统就会给予各种强大的奖励,包括仙武体质、天生武脉、天人武学等。有了这些独特的力量加持,李天元开始在这个危机四伏的江湖世界里崛起,最终成为一代奇才。可以关注微信公众号【随缘读】去回个
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
YOLO 目标检测的改进方法
YOLO目标检测的改进方法可以从模型架构、训练策略、损失函数等多个方面入手，以下是一些常见的改进方法方向及参考文献：模型架构改进骨干网络替换：使用更轻量或更强大的网络替换原始骨干网络。轻量级网络如MobileNetV3、ShuffleNetV2等适合移动端部署，可提高推理速度；高性能网络如ConvNeXt、SwinTransformer等能提取更丰富的语义特征，提升检测精度。还可添加CBAM、SE
蒋勋《人生十讲》叶小静Stamy
每次读蒋勋，都有收获。上一次大规模地读是大三大四，蒋老师的声音陪我走过那段迷茫浮躁的时间。这一次偶然在书店又遇到这本书，内心又被其中的观点给震撼。原来很多问题，我还是缺少深入思考。比如教育。工作两年，虽对教书感兴趣，但育人一直投入不够。很多时候看学生懒，总觉得孺子不可教。却忘了这个年纪正是学生迷茫的年纪，需要关心和爱。爱这个字谈起来好像总觉得空洞，让人有种难以启齿的感觉，但这可能正是我们不懂如何爱
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后