羞儿

【读点论文】DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learn

DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learning

Abstract

虽然自监督表示学习(Self-Supervised representation Learning, SSL)受到了社会各界的广泛关注，但最近的研究认为，当模型大小减小时，其性能会急剧下降。由于目前的SSL方法主要依靠对比学习来训练网络，在这项工作中，我们提出了一种简单而有效的方法，称为蒸馏对比学习(DisCo)来缓解这个问题。
具体来说，我们发现主流SSL方法的最终固有嵌入包含了最丰富的信息，并提出通过约束学生的最后嵌入与教师的最后嵌入一致来提取最终嵌入，从而最大限度地将教师的知识传递给轻量级模型。
此外，我们还发现存在“蒸馏瓶颈”现象，并提出通过扩大嵌入维数来缓解这一问题。由于MLP仅在SSL阶段存在，因此我们的方法不会在下游任务部署期间向轻量级模型引入任何额外参数。实验结果表明，我们的方法在所有轻量化模型上都大大超过了最先进的方法。
特别是，当分别使用ResNet-101/ResNet-50作为老师来教授EfficientNet-B0时，EfficientNet b0在ImageNet上的线性结果分别提高了22.1%和19.7%，与参数少得多的ResNet-101/ResNet-50非常接近。代码可从 https://github.com/Yuting-Gao/DisCo-pytorch 获得。
论文地址：[2104.09124v7] DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learning (arxiv.org)
该论文已被 ECCV 2022 录用！

Introduction

深度学习在计算机视觉任务中取得了巨大的成功，包括图像分类、目标检测和语义分割。这种成功在很大程度上依赖于人工标记的数据集，而人工标记的数据集既耗时又昂贵。因此，越来越多的研究者开始探索如何更好地利用现成的未标记数据。其中，自监督学习(Self-supervised Learning, SSL)是一种利用代理信号作为监督，探索数据本身所包含信息的有效方法。通常，在大量未标记数据上使用自监督方法对网络进行预训练，并对下游任务进行微调后，下游任务的性能将得到显著提高。因此，SSL受到了社会各界的广泛关注，并提出了许多方法。
其中，基于对比学习的方法以其优越的效果正在成为主流。这些方法在相对较大的网络上不断刷新SOTA结果，但同时在一些轻量级模型上却不尽人意。例如，MobileNet-v3-Large/ResNet-152的参数个数为5.2M/ 574M，使用MoCo-V2在ImageNet上相应的线性评价top-1精度为36.2%/74.1%。与完全监督的同行75.2%/78.57%相比，MobileNet-v3Large的结果远不能令人满意。同时，在实际场景中，由于硬件资源有限，有时只能部署轻量级模型。因此，提高小模型的自监督表示学习能力具有重要意义。
知识蒸馏是将大模型(教师)所学到的知识转移到小模型(学生)的有效方法。近年来，一些自监督表示学习方法利用知识蒸馏来提高小模型的有效性。SimCLR-V2在微调阶段使用logits以特定于任务的方式传递知识。CompRess和SEED在动态维护的队列上模拟教师和学生模型之间的相似性得分分布。虽然蒸馏是有效的，但有两个因素显著影响结果，即学生最需要哪些知识以及如何传递这些知识。在这项工作中，我们对这两个方面提出了新的见解。
在目前主流的基于对比学习的SSL方法中，在编码器后加入多层感知器(MLP)以获得低维嵌入。对该嵌入进行了训练损失和精度评估。因此，我们假设这个最终嵌入包含最有成果的知识，应该被视为知识迁移的首选。
为了实现这一点，我们提出了一个简单而有效的蒸馏对比学习(DisCo)框架，在预训练阶段将这些知识从大型模型转移到轻量级模型。DisCo将教师获得的MLP嵌入作为知识，通过MSE loss约束学生的相应嵌入与教师的嵌入一致，将其注入到学生中。
此外，我们发现学生的MLP中隐含层的预算维度可能会导致知识传播瓶颈。我们将这种现象称为“蒸馏瓶颈”，并提出通过扩大嵌入维数来缓解这一问题。从信息瓶颈的角度来看，这种简单而有效的操作涉及到自监督学习设置下的模型泛化能力。值得注意的是，我们的方法只在预训练阶段引入了少量额外的参数，但在微调和部署阶段，由于去掉了MLP层，因此没有额外的计算负担。
实验结果表明，DisCo可以有效地将教师的知识传递给学生，使学生提取的表征更具泛化性。我们的方法很简单，将其合并到现有的基于对比的SSL方法中可以带来显著的收益。我们的贡献总结如下:
- 我们提出了一种简单而有效的自监督蒸馏方法来提高轻量级模型的表示能力。
- 我们发现在自监督蒸馏阶段存在蒸馏瓶颈现象，并提出通过扩大嵌入维数来缓解这一问题。
- 我们在轻量级模型上实现了最先进的SSL结果。特别是，EfficientNet- b0在ImageNet上的线性评价结果非常接近ResNet-101/ResNet-50，而EfficientNet- b0的参数数量仅为ResNet101/ResNet-50的9.4%/16.3%。
- 不同网络架构下ImageNet top-1线性评价精度。我们的方法大大超过了直接使用MoCo-V2的结果，也大大超过了最先进的SEED。特别是，效率netb0的结果与ResNet-50非常接近，而效率netb0的参数数量仅为ResNet-50的16.3%。DisCo带来的改善与MoCo-V2基线进行比较。
自监督学习通常指的模型在大规模无标注数据上学习通用的表征，迁移到下游相关任务。因为学习到的通用表征能显著提升下游任务的性能，自监督学习被广泛用于各种场景。通常来讲，模型容量越大，自监督学习的效果越好 。反之，轻量化的模型（EfficientNet-B0, MobileNet-V3, EfficientNet-B1) 在自监督学习上效果就远不如容量相对大的模型 (ResNet50/101/152/50*2)。
目前提升轻量化模型在自监督学习上性能的做法主要是通过蒸馏的方式，将容量更大的模型的知识迁移给学生模型。SEED基于MoCo-V2框架，容量大的模型作为Teacher，轻量化模型作为Student，共享MoCo-V2框架中负样本空间（Queue），通过交叉熵迫使正样本与相同的负样本在Student与Teacher空间中的分布尽可能相同。CompRess还尝试了Teacher和Student维护各自的负样本空间，同时使用KL散度来拉近分布。以上方法可以有效的将Teacher的知识迁移给Student，从而提升轻量化模型Student的效果（本文会交替使用Student与轻量化模型）。
本文提出了 Distilled Contrastive Learning (DisCo)，一种简单有效的基于蒸馏的轻量化模型的自监督学习方法，该方法可以显著提升Student的效果并且部分轻量化模型可以非常接近Teacher的性能。该方法有以下几个观察：
- 1. 基于自监督的蒸馏学习，因为最后一层的表征包含了不同样本的在整个表征空间中的全局的绝对位置和局部的相对位置信息，而Teacher中的这类信息比Student更加的好，所以直接拉近Teacher与Student最后一层的表征可能是效果最好。
  2. 在CompRess中，Teacher 与 Student 模型共享负样本队列(1q) 与拥有各自负样本队列(2q) 差距在1%内。该方法迁移到下游任务数据集CUB200, Car192，该方法拥有各自的负样本队列甚至可以显著超过共享负样本队列。这说明，Student并没有从Teacher共享的负样本空间学习中获得足够有效的知识。Student不需要依赖来自Teacher的负样本空间。
  3. 放弃共享队列的好处之一，是整个框架不依赖于MoCo-V2，整个框架更加简洁。Teacher/Student 模型可以与其他比MoCo-V2更加有效的自监督/无监督表征学习方法结合，进一步提升轻量化模型蒸馏完的最终性能。
  4. 目前的自监督方法中，MLP的隐藏层维度较低可能是蒸馏性能的瓶颈。在自监督学习与蒸馏阶段增加这个结构的隐藏层的维度可以进一步提升蒸馏之后最终轻量化模型的效果，而部署阶段不会有任何额外的开销。将隐藏层维度从512->2048，ResNet-18可以显著提升3.5%。

Related Work

Self-supervised Learning

自监督学习(Self-supervised learning, SSL)是一种通用框架，它从数据本身学习高语义模式，而不需要任何来自人类的标记。目前的方法主要依赖于三种范式，即pretext tasks、基于对比和基于聚类。
pretext tasks：基于pretext paradigm的方法侧重于设计更有效的替代任务，包括识别patch是否从同一图像中裁剪的example - cnn，预测输入图像旋转程度的Rotation，将打乱后的patch放回到原始位置的Jigsaw，以及恢复输入图像中受周围条件影响的缺失部分的Context encoder。
基于对比。基于对比的方法在自监督表示学习上表现出了令人印象深刻的性能，它强制相同输入的不同视图在特征空间中更接近。SimCLR表明，可以通过应用强数据增强、使用更大批量的负样本进行训练以及在全局平均池化后加入投影头(MLP)来增强自监督学习。然而，SimCLR依赖于非常大的批处理大小来实现相当的性能，并且不能广泛应用于许多实际场景。MoCo认为对比学习是一个查找字典，使用记忆库来保持负样本的一致表示。因此，MoCo可以在不需要大规模批量的情况下获得更优的性能，实现起来更可行。BYOL在网络的一个分支中引入了一个预测器来打破对称性并避免平凡解。DINO将对比学习应用于视觉transformer。
基于聚类。聚类是无监督表示学习中最有前途的方法之一。DeepCluster使用k-means赋值生成伪标签，迭代地对特征进行分组并更新网络的权值。DeeperCluster扩展到大型未经整理的数据集，以捕获互补统计。与以往工作不同的是，为了最大限度地提高伪标签与输入数据之间的互信息，SeLa将伪标签分配作为最优传输的一个实例。SwAV表示将表示映射到原型向量，原型向量是在线分配的，能够扩展到更大的数据集。
虽然主流方法SimCLR-V2、MoCoV2、BYOL和SwAV属于不同的自监督分类，但它们有四个共同点:
- 1)一幅图像有两个视图，
- 2)两个特征提取编码器，
- 3)两个投影头将表示映射到较低维空间，
- 4)两个低维嵌入被视为一对正样本，可以认为是一个对比过程。
然而，所有这些方法在轻量级模型上都会遭受性能的急剧下降，这是我们在这项工作中试图补救的。

Knowledge Distillation

知识蒸馏(Knowledge distillation, KD)试图将知识从一个较大的教师模型转移到一个较小的学生模型。根据知识的形式，可以将其分为基于逻辑的、基于特征的和基于关系的三类。
Logits-based。Logits是指网络分类器的输出。KD提出通过最小化类别分布的kl -散度，让学生模仿老师的逻辑。
基于特征的。基于特征的方法直接将知识从教师的中间层传递给学生。FitNets将教师学习到的中间表征作为提示，通过最小化表征之间的均方误差，将知识传递给更瘦、更深的学生。AT提出将教师的空间注意力作为知识，让学生将注意力集中在教师所关注的区域。SemCKD自适应地选择更合适的师生表示对。
Relation-based：基于关系的方法探索数据之间的关系，而不是单个实例的输出。RKD将一个批次内具有距离和角度蒸馏损失的输入数据的相互关系从教师传递给学生。IRG提出使用关系图来进一步表达关系知识。

SSL meets KD

最近，一些研究将自我监督学习和知识蒸馏结合起来。CRD在不同模态之间引入了传输成对关系的对比损失。SSKD让学生模拟转换后的数据和自我监督任务，从而转移更丰富的知识。
上述工作将自我监督作为辅助任务，进一步推动全监督设置下的知识升华过程。CompRess和SEED尝试采用知识蒸馏的方法来提高小模型的自监督视觉表示学习能力，利用MoCo中的负样本队列来约束学生的正样本与负样本的分布，使其与教师的分布一致。
然而，CompRess和SEED严重依赖于MoCo框架，这意味着在蒸馏过程中必须始终保留内存库。我们的方法还旨在通过提取来提高轻量级模型的自监督表示学习能力，然而，我们没有限制自监督框架，因此更加灵活。此外，在相同设置下，我们的方法在所有轻量级模型上都大大超过SEED。

Method

在本节中，我们将介绍轻量级模型上的蒸馏对比学习(DisCo)框架。我们首先对基于对比的SSL进行了一些初步的介绍，然后介绍了DisCo的总体架构以及DisCo如何将知识从教师传递给学生。最后，我们介绍了DisCo如何与现有的基于对比的SSL方法相结合。

Preliminary on Contrastive Learning Based SSL

主流的基于对比学习的SSL方法有四个共同的特点。
- 两个视图:一个输入图像x通过两个剧烈的数据增强操作转换成两个视图 $v$ 和 $v^{'}$ 。
- 两个编码器:两个增强视图输入到两个相同结构的编码器，一个是可学习的基编码器s(·)，另一个m(·)根据基编码器更新，共享或动量更新。这里的编码器可以使用任何网络架构，比如常用的ResNet。给定一幅输入图像，编码器最后一次全局平均池化得到的提取表示记为Z，其维数为D.
- 投影头:两个编码器后面都有一个小的投影头 $p (\cdot)$ ，它将表示Z映射到包含几个线性层的低维嵌入E。可表示为 $E = p(Z) = W_{(n)}···(σ(W_{(1)}Z))$ ，其中W为线性层的权重参数，n为大于等于1的层数，σ为非线性函数ReLU。SimCLR-V2和MoCo-V2解决了投影头的重要性。在MoCo-V2之后，投影头的默认配置是两个线性层，其中第一层保持原始特征维数D，第二层将特征维数降为128。
- 损失函数:在得到这两个视图的最终嵌入后，将它们作为一对正样本来计算损失。

Overall Architecture

DisCo的框架如下图所示，由三个编码器和投影头组成。中间的学生s(·)是我们想要改进的编码器，平均学生m(·)根据s(·)更新，教师t(·)是自监督预训练的大型编码器，用作蒸馏中的教师。
- 提出的方法的框架是DisCo。首先通过两次激烈的数据增强操作将一张图像转换为两个视图。在原有的约束性SSL部分之外，引入了一个自我监督的预训练教师，并要求可学习的学生和冻结的教师得到的最终嵌入在每个视图中都是一致的。
- 对于每个输入图像x，首先通过两次剧烈的数据增强操作将其转换为两个视图v和v0。一方面，将v输入到s(·)和t(·)，生成两个表示 $Z_s = s(v)， Z_t = t(v)$ ，然后在投影头之后，将这两个表示分别映射到低维嵌入， $E_s = p_s(Z_s)， E_t = p_t(Z_t)$ 。另一方面，将 $v^{'}$ 同时输入到s(·)、m(·)和t(·)，经过编码和投影，得到三个低维向量 $E'_s = p_s(s(v'))、E'_ m = p_m(m(v'))$ 和 $E'_t = p_t(t(v'))$ 。
- $E'_m$ 和 $E_s$ 是两个不同视图的嵌入，它们被视为一对正样本，在现有的SSL方法中被拉到一起。 $E_s$ 和 $E_t$ , $E'_s$ 和 $E'_t$ 是同一视图的学生和教师的两对嵌入，在提取过程中，每对嵌入都被约束为一致。
- 如上图所示，通过数据增广 (Data Augmentation) 操作将图像生成为两个视图 (View)。除了自监督学习，还引入一个自监督学习获得的Teacher模型。要求相同样本的相同视图，经过Student和固定参数的Teacehr的最终表征保持一致。在本文的主要实验中，自监督学习基于MoCo-V2 (Contrastive Learning)，而保持相同样本通过Teacher与Student的输出表征的表征相似是通过一致性正则化(Consistency Regularization)。本文采用均方误差来使Student学习到样本在对应Teacher空间中的分布。

Distilling Procedure

在大多数基于对比的SSL方法中，损失函数的计算和精度的评估都是在最后的嵌入向量E上进行的。因此，我们假设最后的嵌入向量E包含了最丰富的知识，在提取时应该首先考虑。
对于自监督预训练的教师模型，我们将上次嵌入中的知识提取到学生中，即对于视图v和视图 $v^{'}$ ，冻结的教师和可学习的学生输出的嵌入向量应该是一致的。具体来说，我们使用一致性正则化项将嵌入向量 $E_s$ 拉得更接近 $E_t$ ，将 $E'_s$ 拉得更接近 $E'_t$ 。
- $L_dis=||E_s-E_t||^2+||E'_s-E'_t||^2,(1)$
- 为了验证嵌入E包含最有意义的知识，我们在下表中实验了其他几种常用的蒸馏方案。结果证明，我们传递的知识和传递的方式确实是最有效的。
- 在ImageNet上对不同蒸馏方法的top-1精度(%)进行线性评价。
蒸馏的瓶颈。在我们的蒸馏实验中，我们发现了一个有趣的现象。当该学生的编码器为ResNet-18/34时，采用默认的MLP配置，即编码器输出的嵌入维数从D投影到D再投影到128时，DisCo的结果并不令人满意。我们假设这种退化是由于MLP中隐藏层的维度太小造成的，并将这种现象称为蒸馏瓶颈。
在下图中，我们展示了ResNet-18/34、EfficientNet-B0/B1、MobileNet-v3Large和ResNet-50/101/152的投影头的默认配置。可以看出，与其他网络相比，ResNet-18/34的隐藏层维度太小。
- Default MLP of multiple networks.
为了缓解蒸馏瓶颈问题，我们扩展了MLP中隐藏层的维度。值得注意的是，该操作仅在自监督蒸馏阶段引入少量参数，并且在微调和部署过程中直接丢弃MLP，这意味着不会带来额外的计算负担。我们在下表中通过实验验证了这样一个简单的操作可以带来显著的收益。
- 在ImageNet上线性评价前1的精度(%)。MLPd表示MLP的隐藏维数，-表示直接移除MLP的隐藏层。
这种操作可以从信息瓶颈(Information Bottleneck, IB)的角度来解释。[Opening the black box of deep neural networks via information,Evaluating capability of deep neural networks for image classification via information plane]利用IB通过可视化互信息 $(I (X; T) an d I (T; Y))$ ，其中I(X;T)为输入与输出之间的互信息，I(T;Y)为输出与标签之间的互信息。深度网络的训练可以用两个阶段来描述:第一个拟合阶段，网络记忆输入的信息，导致I(X)的增长和I(T;Y)在随后的压缩阶段，网络去除输入的不相关信息以更好地泛化，导致I(X)减小。
通常，在压缩阶段，I(X;T)可以表示模型的泛化能力，而I(T;Y)表示模型拟合标签的能力。在一个下游传递分类任务的信息平面上，我们用预训练蒸馏阶段的隐藏层的不同维数来可视化模型的压缩阶段。下图的结果显示了两个有趣的现象:
- 训练压缩阶段从过渡点到收敛点的互信息路径。T表示过渡点，C(X%)表示Cifar10上top-1精度为X%的收敛点。I(T;Y)相似但I(X;T)较小的点可以更好地推广。
- 1.隐藏层不同维数的模型i (T，Y)非常相似，表明模型具有几乎相等的拟合标签的能力。
- 2.隐藏层中维数越大的模型I(X;T)越小，表明有较强的泛化能力。
这些现象表明，在自监督迁移学习环境下，MLP确实与模型泛化能力有关。

Overall Objective Function

总体目标函数定义如下:
- $L=L_{dis}+\lambda L_{co},(2)$
- 其中 $L_{dis}$ 来自蒸馏部分， $L_{co}$ 可以是任何SSL方法的对比损失， $λ$ 是控制蒸馏损失和对比损失权重的超参数。在我们的实验中， $λ$ 被设为1。由于实现简单，我们在实验中使用MoCo-V2作为测试平台，没有额外的说明。

Experiments

Settings

数据集。所有的自监督预训练实验都在ImageNet上进行。下游分类任务则在Cifar10和Cifar100上进行实验。下游检测任务在PASCAL VOC和MSCOCO上进行实验，分别使用train+val/test和train2017/val2017进行训练/测试。对于下游的分割任务，提出的方法在MS-COCO上进行了验证。
Teacher Encoders. 使用四个大型编码器作为教师，ResNet-50(22.4M)， ResNet-101(40.5M)， ResNet152(55.4M)， ResNet-50*2(55.5M)，其中X(Y)表示编码器X有Y百万参数，Y不考虑线性层。
Student Encoders. 五个广泛使用的小型有效网络分别是student、EfficientNet-B0(4.0M)、MobileNet-v3-Large(4.2M)、EfficientNet-B1(6.4M)、ResNet-18(10.7M)和ResNet-34(20.4M)。
Teacher Pre-training Setting. ResNet-50/101/152使用带有默认超参数的MoCo-V2进行预训练。在SEED之后，ResNet-50和ResNet-101训练了200个epoch, ResNet-152训练了400个epoch。ResNet-50*2由SwAV预训练，SwAV是一个开源模型，训练了800个epoch。
Student Fine-tuning Setting. 为了在ImageNet上进行线性评估，学生被微调为100个epoch。EfficientNet- b0 /EfficientNet b1 /MobileNet-v3-Large的初始学习率为3,ResNet-18/34的初始学习率为30。对于Cifar10和Cifar100的线性评估，初始学习率为3，所有模型都微调了100个epoch。采用SGD作为优化器，在60次和80次时学习率分别降低10%进行线性评估。对于下游的检测和分割任务，遵循SEED，对所有参数进行微调。对于VOC的检测任务，初始学习率为0.1，预热迭代200次，在18k, 222k步时衰减10。检测器训练48k步，批大小为32。在SEED之后，图像的尺度在训练期间随机从[400,800]中采样，在推理时为800。对于COCO上的检测和实例分割，模型被训练了180k次迭代，初始学习率为0.11，在训练过程中随机从[600,800]中抽取图像的尺度。

Linear Evaluation

我们在ImageNet上进行了线性评估来验证我们方法的有效性。如下表所示，DisCo提取的学生模型比MoCo-V2 (Baseline)预训练的模型要好得多。
- ImageNet在不同的学生架构上使用线性分类测试准确率(%)。♦表示教师/学生模型是用MoCo-V2预训练的，这是我们的实现;†表示教师是用SwAV预训练的，这是一个开源模型。当使用R50*2作为教师时，SEED提取800个epoch, DisCo提取200个epoch。绿色下标表示与MoCo-V2基线相比的改善。
此外，在相同设置下，DisCo超过了最先进的SEED，超过了教师ResNet-50/101/152的各种学生模型，特别是在ResNet-50蒸馏的MobileNet-v3-Large上，在top-1精度下差异为9.2%。当使用R50*2作为教师时，SEED提取了800个epoch, DisCo仍然提取了200个epoch，但使用DisCo的EfficientNet-B0、ResNet-18和ResNet-34的结果也超过了SEED。
在EfficientNet-B1和MobileNet-v3-Large上的性能与蒸馏时代密切相关。例如，当对EfficientNet-B1进行290个epoch的蒸馏时，top-1准确率达到70.4%，超过了SEED;当对MobileNet-v3-Large进行340个epoch的蒸馏时，top-1准确率达到64%。
我们相信，当DisCo蒸馏800个epoch时，结果会进一步改善。此外，由于CompRess使用的老师比SEED和我们训练的时间长600个epoch，提炼的时间长400个epoch，因此进行比较是不公平的，因此我们没有在表中报告结果。此外，当DisCo使用更大的模型作为老师时，学生会得到进一步的提高。
例如，使用ResNet-152代替ResNet-50作为教师，ResNet-34从62.5%提高到68.1%。值得注意的是，当使用ResNet101/ResNet-50作为教师时，EfficientNet- b0的线性评价结果与教师非常接近，而EfficientNet- b0的参数数量仅为ResNet101/ResNet-50的9.4%/16.3%。

Semi-supervised Linear Evaluation

在SEED之后，我们在半监督设置下评估了我们的方法。ImageNet训练数据的两个1%和10%采样子集(每个类分别为~ 12.8和~ 128张图像)用于微调学生模型。如下图所示，DisCo提炼的学生模型在任何数量的标记数据下都优于基线。此外，DisCo还显示了不同分数注释下的一致性，即学生作为教师总是受益于更大的模型。更多的标签将有助于提高学生模型的最终性能，这是预期的。
- 1%、10%和100%训练数据下半监督线性评价的ImageNet top-1准确率(%)。教师网络参数个数为0的点为MoCo-V2未蒸馏的结果。

Transfer to Cifar10/Cifar100

为了分析DisCo获得的表征的泛化，我们进一步以ResNet-18/EfficientNet-B0为学生，ResNet-50/ResNet101/ResNet152为教师，对Cifar10和Cifar100进行了线性评价。由于Cifar数据集的图像分辨率为32 × 32，因此在输入模型之前，所有图像都通过双三次重采样调整为224 × 224，如下[Seed: Self-supervised distillation for visual representation]。
结果如下图所示，可以看到，在不同的学生和教师架构上和Cifar100上，所提出的DisCo大大超过了MoCo-V2基线。此外，与目前最先进的SEED方法相比，我们的方法也有显著的改进。值得注意的是，随着教师水平的提高，DisCo带来的提升也更加明显。Cifar10和Cifar100的性能趋势一致。
- Top-1 accuracy of students transferred to Cifar100 without and with distillation from different teachers.

Transfer to Detection and Segmentation

我们还对检测和分割任务进行了实验，以进行泛化分析。基于C4的Faster R-CNN用于VOC上的目标检测，Mask R-CNN用于COCO上的目标检测和实例分割。结果如下表所示。在目标检测方面，我们的方法对VOC和COCO数据集都有明显的改进。此外，正如SEED所言，相比于VOC, COCO的改进相对较小，因为COCO训练数据集有118k张图像，而VOC只有16.5k张训练图像，因此权值初始化带来的增益相对较小。在实例分割任务上，DisCo也显示出优越性。
- 以ResNet-34为骨干的VOC07测试和COCO val2017的目标检测和实例分割结果。‡表示我们的实施。绿色下标表示与MoCo-V2基线相比的改善。

Distilling BottleNeck Phenomenon

在自监督蒸馏阶段，我们首先使用ResNet-50作为教师，尝试在MoCo-V2的默认MLP配置下对小模型进行蒸馏，结果如下表所示，用DisCo *表示。
- 在ImageNet上线性评价前1的精度(%)。
值得注意的是，DisCo*中隐藏层的维度与SEED完全相同。可以看出，与SEED相比，DisCo*在EfficientNet-B0和MobileNet-v3-Large上显示出优越的结果，并且在ResNet-18上具有相当的结果。然后我们将学生的MLP中隐含层的维度展开，使其与老师的MLP一致，即2048D，可以看出结果可以进一步提高，记录在第三行。特别是，这次扩展操作分别为ResNet-18和ResNet-34带来了3.5%和3.6%的收益。
IB视角下的理论分析。在下图中，在下游Cifar10分类任务上，我们将同一位老师在信息平面上提炼的具有不同隐藏维度的ResNet-18/34的压缩阶段可视化。我们使用分箱策略来估计互信息。可以看出，当我们将ResNet-18和ResNet-34的MLP中的隐藏维数从512D调整到2048D时，I(X;T)变小，而I(T;Y)基本不变，这说明在自监督迁移学习环境下，扩大隐维可以使学生模型更加一般化。

Ablation Study

在本节中，我们验证了DisCo中两个重要模块的有效性，即蒸馏损失和MLP隐藏维数的扩展，结果如下表所示。由此可见，蒸馏损失会带来本质的变化，结果会有很大的改善。即使只有蒸馏损失，也能取得良好的效果。此外，随着隐藏维数的增加，top-1的准确率也会增加，但当隐藏维数已经很大时，增长趋势会放缓。
- 在ImageNet上线性评价前1的精度(%)。MLPd表示MLP的隐藏维数，- 表示直接移除MLP的隐藏层。

Comparison against other Distillation

为了验证该方法的有效性，我们将其与三种广泛使用的蒸馏方案进行了比较，即:
- 1)以AT表示的注意力转移，
- 2)以RKD表示的关系知识蒸馏，
- 3)以KD表示的知识蒸馏。
A - T和RKD分别是基于特征和基于关系的，可以在自监督预训练阶段使用。KD是一种基于逻辑的方法，只能在监督微调阶段使用。对比结果如下表所示。单知识是指单独使用这些方法中的一种，可以看出，所有的蒸馏方法都可以改善基线，但DisCo的增益最显著，这表明DisCo选择转移的知识和传输方式确实更有效。
- 在ImageNet上对不同蒸馏方法的top-1精度(%)进行线性评价。
然后，我们还尝试将DisCo与其他方案相结合，将教师的多种知识传递给学生。可以看出，将DisCo与AT/RKD/KD相结合可以大大提高性能，这进一步证明了DisCo的有效性。

More SSL Methods

为了演示我们方法的多功能性，我们进一步试验了两种SSL方法，它们与我们在前几节中使用的MoCo-V2基线完全不同。
- i) SwAV用于证明对学习范式的兼容性，其中差异是在集群而不是实例之间测量的;
- ii)使用DINO来证明对骨干类型的兼容性，其中编码器是视觉transformer，而不是常用的CNN，如下表所示。
- 以DINO为试验台，在ImageNet上线性评价top-1精度(%)。vitc -small和XCiT-small用DINO预训练100 epoch。可以看出DisCo并不局限于特定的SSL方法，在大多数流行的SSL框架下都能带来显著的改进。
本文还可视化了相同样本在经过MoCo-2得到的EfficientNet-B0, 经过MoCo-V2得到的ResNet-50，以及本文的方法得到的EfficientNet-B0的表征。可以观察到ResNet-50形成比EfficientNet-B0更多的分离簇，单独使用MoCo-V2，本文的方法得到的EfficientNet-B0有更清晰的分离簇，也与ResNet-50更接近。

Conclusion

在本文中，我们提出了蒸馏对比学习(DisCo)来弥补轻量级模型上的自监督学习。该方法约束轻量化学生的最终嵌入与教师的最终嵌入一致，以最大限度地传递教师的知识。DisCo不局限于特定的对比学习方法，可以在很大程度上纠正学生的表现。
B0的表征。可以观察到ResNet-50形成比EfficientNet-B0更多的分离簇，单独使用MoCo-V2，本文的方法得到的EfficientNet-B0有更清晰的分离簇，也与ResNet-50更接近。

你可能感兴趣的:(论文笔记,深度学习,计算机视觉,神经网络)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio