人工智能学家

OpenAI 研究员：数据不足时，如何实现监督学习

来源：AI科技评论

作者：Lilian Weng

编译：丛末

编辑：陈彩娴

现实应用中，数据易得，而有标签的数据少有。

一般而言，当监督学习任务面临标签数据不足问题时，可以考虑以下四种解决办法：

1.预训练+微调：首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练（例如通过自监督学习在自由文本上对语言模型进行预训练，或者在无标签图像上对视觉模型进行预训练），之后再使用一小组标签样本在下游任务上对该模型进行微调。

2.半监督学习：同时从标签样本和无标签样本中学习，研究者使用该方法在视觉任务上进行了大量研究。

3.主动学习：标注成本高，即便成本预算有限，也希望尽可能收集更多的标签数据。主动学习学习选择最有价值的无标签样本，并在接下来的收集过程中收集此类数据，在预算有限的情况下，帮助模型尽可能达到预期效果。

4.预训练+数据集自动生成：给定一个功能强大的预训练模型，可以利用该模型来自动生成更多得多的标签样本。受小样本学习大获成功的驱动，该方法在语言领域的应用尤其普遍。

本文全面介绍半监督学习这一方法，作者为OpenAI研究员Lilian Weng，博客地址：https://lilianweng.github.io/

什么是半监督学习？

半监督学习同时使用标签数据和无标签数据来训练模型。

有趣的是，现有关于半监督学习的文献大多集中在视觉任务上。而预训练+微调方法才是语言任务中更常见的范式。

本文所提到的所有方法的损失，都由两部分构成：。其中监督损失

在样本全部为标签样本的情况下非常容易计算出来。我们需要重点关注如何设计无监督损失。加权项通常选择使用斜坡函数，其中t是训练步数，随着训练次数的增加，的占比提升。

声明：此文并不覆盖所有半监督方法，仅聚焦于模型架构调优方面的。关于在半监督学习中，如何使用生成模型和基于图的方法，可以参考《深度半监督学习全览》（An Overview of Deep Semi-Supervised Learning）这篇论文。

符号说明表

符号	含义
	唯一标签的数量。
	标签数据集，其中是真实标签的独热表示。
	无标签数据集。
	整个数据集，包括标签样本和无标签样本。
	可以表示无标签样本，也可以表示标签样本。
	经过增强处理的无标签样本或标签样本。
	第i个样本。
	分别表示损失，监督损失，无监督损失
	无监督损失权重，随着训练步数增加而增加。
	给定输入情况下，标签数据集的条件概率。
	使用加权θ生成的神经网络，即期望训练出的模型。
	逻辑函数f的输出值的向量。
	预测的标签分布。
	两个分布间的距离函数，例如均方误差、交叉熵、KL散度等。
	Teacher 模型权重的移动平均线加权超参数。
	α为混合样本的系数 ,
	锐化预测分布的温度。
	选择合格的预测结果的置信度阈值。

假设

在已有研究文献中，讨论了以下几种假设来支撑对半监督学习方法中的某些设计进行决策。

假设1：平滑度假设（Smoothness Assumptions）

如果两个数据样本在特征空间的高密度区域接近，它们的标签应该会相同或非常相似。

假设2：聚类假设（Cluster Assumptions）

特征空间既有密集区域，也有稀疏区域。密集分组的数据点很自然地形成聚类。同一聚类中的样本应具有相同的标签。这是对假设1的一个小扩展。

假设3：低密度分离假设（Low-density Separation Assumptions）

类之间的决策边界往往位于稀疏的低密度区域，因为如果不这样的话，决策边界就会将高密度聚类分割为分别对应两个聚类的两个类，这就会导致假设1和假设2都失效。

假设4：流形假设（Manifold Assumptions）

高维数据往往位于低维流形上。尽管现实世界的数据可能是在非常高的维度上被观察到的（例如，真实世界的物体/场景的图像），但它们实际上可以被更低维的流形捕获，这种低维流形上会捕获数据的某些属性，并将一些相似的数据点进行紧密组合（例如真实世界的物体/场景的图像，并不是源自于所有像素组合的均匀分布）。这就使得模型能够学习一种更有效的表征方法去发现和评估无标签数据点之间的相似性。这也是表征学习的基础。关于此假设，更详细的阐述可参考《如何理解半监督学习中的流行假设》这篇文章。

链接：https://stats.stackexchange.com/questions/66939/what-is-the-manifold-assumption-in-semi-supervised-learning

一致性正则化（Consistency Regularization）

一致性正则化，也叫一致性训练，假设给定相同输入，神经网络中的随机性（例如使用 Dropout算法）或数据增强转换不会更改模型预测。本节中的每个方法都有一个一致性正则化损失：。

SimCLR、BYOL、SimCSE 等多个自监督学习方法都采用了这一思想。相同样本的不同增强版本，产生的表征都相同。语言建模中的交叉视图训练（Cross-view training ）和自监督学习中的多视图学习（Multi-view learning）的研究动机相同。

1.Π模型

图1：Π-模型概览。同一个输入经过不同的随机增强和 dropout掩膜的扰动产生两个版本，通过网络得到两个输出，Π-模型预测这两个输出是一致的。（图片来源：Laine 、 Aila 2017发表的论文《半监督学习的时序集成》）

Sajjadi 等人在2016年发表的论文《深度半监督学习的随机变换和扰动正则化》（Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning）中，提出了一种无监督学习损失，它能够将同一数据点经过随机变换（例如dropout、随机最大池化）产生两个版本，并在通过网络后输出的两个结果之间的差异最小化。由于其标签没有被明确使用，所以该损失可以应用到无标签数据集。Laine 、Aila 后来在2017年发表的论文《半监督学习的时序集成》（Temporal Ensembling for Semi-Supervised Learning）中，为这种处理方式取了一个名字，叫做 Π模型。

其中，指同一个神经网络应用不同的随机增强或dropout掩膜的取值。该损失使用整个数据集。

2.时序集成（Temporal ensembling）

图2：时序集成概览。其学习目标是对每个样本的指数移动平均值（ EMA）做出标签预测。（图片来源：Laine 、 Aila 2017发表的论文《半监督学习的时序集成》）

Π模型需要每个样本通过神经网络两次，这就使得计算成本增加一倍。为了减少成本，时序集成模型持续将每个训练样本的实时模型预测的指数移动平均值（EMA）作为学习目标，EMA 在每轮迭代中仅需计算和更新一次。由于时序集成模型的输出被初始化为0，因而除以进行归一化来纠正这一启动偏差。出于同一原因，Adam 优化器也有这样的偏差纠正项。

其中是在第t轮迭代中的集成预测，是在当前回合的模型预测。需要注意的是，由于=0，进行偏差纠正后，就完全等于在第1轮迭代中的模型预测值。

3.均值教师（Mean teachers）

图3：Mean Teacher 框架概览（图片来源：Tarvaninen、 Valpola在2017年发表的论文《均值教师模型是表现更好的模范模型：加权平均一致性目标优化半监督深度学习结果》）

时序集成模型将追踪每一个训练样本的标签预测的指数移动平均值作为学习目标。然而，这种标签预测仅在每一次迭代中发生变化，当训练数据集很大时，这种方法就显得冗杂。

为了克服目标更新速度慢的问题，Tarvaninen、 Valpola在2017年发表的论文《均值教师模型是表现更好的模范模型：加权平均一致性目标优化半监督深度学习结果》（Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results）中，提出了Mean Teacher算法，该算法通过跟踪模型权值的移动平均值而不是模型输出来更新目标。权重为θ的原始模型叫做Student模型，将权重为连续多个Student模型的移动平均权重θ′的模型，称为Mean Teacher模型：

一致性正则化损失是Student模型和Teacher 模型的预测之间的距离，并且该差距应该最小化。Mean Teacher 模型能够提供比Student模型更准确的预测。该结论在实证实验中得到了证实，如图 4 所示。

图4：Π 模型和 Mean Teacher模型在 SVHN 数据集上的分类误差。Mean Teacher模型（用橙线表示）比Student模型（用蓝线表示）的表现更好。（图片来源：Tarvaninen、 Valpola在2017年发表的论文《均值教师模型是表现更好的模范模型：加权平均一致性目标优化半监督深度学习结果》）

根据其消融研究：

输入增强方法（例如，输入图像的随机翻转、高斯噪声）或对Student模型进行dropout处理对于模型实现良好的性能是必要的。Teacher模式不需要进行dropout处理。
性能对指数移动平均值的衰减超参数β敏感。一个比较好的策略是在增长阶段使用较小的β=0.99，在后期Student模型改进放缓时使用较大的β=0.999。
结果发现，一致性成本函数的均方误差（MSE）比KL发散等其他成本函数的表现更好。

4.将噪声样本作为学习目标

最近的几种一致性训练方法学习将原始的无标签样本与其相应的增强版本之间的预测差异最小化。这种思路与 Π 模型非常相似，但其一致性正则化损失仅适用于无标签数据。

图5：使用噪声样本的一致性训练

在Goodfellow等人于2014年发表的论文《解释和利用对抗性样本》（Explaining and Harnessing Adversarial Examples）中，对抗性训练（Adversarial Training）将对抗性噪声应用到输入上，并训练模型使其对此类对抗性攻击具有鲁棒性。该方法在监督学习的应用公式如下：

其中是真实分布，近似于真值标签的独热编码，是模型预测，是计算两个分布之间差异的距离函数。

Miyato 等人在2018年发表的论文《虚拟对抗性训练：对监督和半监督方法都适用的正则化方法》（Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning）中提出虚拟对抗性训练（Virtual Adversarial Training，VAT），该方法是对抗性训练思想在半监督学习领域的一个延伸。由于是未知的，VAT 将该未知项替换为当前权重设定为时，当前模型对原始输入的预测。需要注意的是，是模型权重的的固定值，因而在上不会进行梯度更新。

VAT 损失既适用于标签样本，也适用于无标签样本。它计算的是当前模型在每个数据点的预测流形的负平滑度。对这种损失进行优化能够让预测流形更加平滑。

Verma等人在2019年论文《半监督学习的插值一致性训练》（Interpolation Consistency Training for Semi-Supervised Learning）中提出插值一致性训练（Interpolation Consistency Training，ICT），通过添加更多数据点的插值来强化数据集，让模型预测和对应标签的插值尽可能一致。Hongyi Zhang等人在2018年的论文《Mixup：超越经验风险最小化》（Mixup: Beyond Empirical Risk Minimization）中提出MixUp方法，即通过简单的加权和来将两个图像进行混合处理。插值一致性训练即根据这一思路，让预测模型为一个混合样本生成标签，来匹配对应输入的预测插值：

其中表示Mean Teacher 模型的θ的移动平均值。

图6：插值一致性训练概览。使用MixUp方法生成更多以插值标签作为学习目标的插值样本。(图片来源：Verma等人在2019年论文《半监督学习的插值一致性训练》)

由于两个随机选择的无标签样本属于不同类别的概率很高（例如ImageNet中就有1000个目标类别），因此在两个随机无标签样本之间应用Mixup方法，就很可能生成在决策边界附近的插值。根据低密度分离（Low-density Separation）假设，决策边界往往位于低密度区域。

其中表示θ的移动平均值。

与VAT类似，Xie 等人在2020年的论文《一致性训练的无监督数据增强》（Unsupervised Data Augmentation for Consistency Training）中提出的无监督数据增强（Unsupervised Data Augmentation，UDA），学习给无标签样本和增强样本预测相同的输出。UDA特别聚焦于研究噪声的“质量”如何通过一致性训练来影响半监督学习的性能。要想生成有意义和有效的噪声样本，使用先进的数据增强方法至关重要。良好的数据增强方法应该能够产生有效的（即不改变标签）和多样的噪声，并带有有针对性的归纳偏置（Inductive Biases）。

针对图像领域，UDA 采用的是RandAugment方法，该方法由Cubuk 等人在2019年的论文《RandAugment: 减少搜索空间的实用型自动数据增强方法》（RandAugment: Practical automated data augmentation with a reduced search space）中提出。它对Python图像处理库PIL中可用的增强操作进行统一采样，无需学习或优化，因此比使用AutoAugment方法，成本要便宜得多。

图7：CIFAR-10分类中各种半监督学习方法的比较。在未经过RandAugment处理的50000个样本进行训练时，Wide-ResNet-28-2和PyramidNet+ShakeDrop 在完全监督下，错误率分别为**5.4**和**2.7**。

针对语言领域，UDA结合使用回译（ back-translation）和基于TF-IDF的词替换（word replacement）两种方法。回译保留了高层次意义，但是不保留某些词本身，而基于TF-IDF的词替换则去掉TF-IDF分数较低的无信息性词。在语言任务的实验中，研究者发现发现UDA与迁移学习和表征学习是互补的；例如，在域内无标签数据上对BERT模型进行微调（即图8中的），能进一步提升性能。

图8：不同文本分类任务上，无监督数据增强方法采用不同初始化设置的比较。（图片来源：Xie 等人在2020年的论文《一致性训练的无监督数据增强》）

在计算时，UDA可以通过使用以下三种训练技巧来优化结果：

低置信度掩膜（Low confidence masking）：如果样本的预测置信度低于阈值，则对其进行掩膜处理。
锐化预测分布(Sharpening Prediction Distribution)：在Softmax中使用低温来对预测概率分布进行锐化。
域内数据过滤(In-Domain Data Filtration)：为了从大的域外数据集中提取更多的域内数据，研究人员训练一个分类器来预测域内标签，然后保留具有高置信度预测的样本作为域内候选样本。

其中，是模型权重的固定值，与VAT中的一样，因而没有梯度更新，是经过增强的数据点，是预测置信度阈值，是分布锐化温度。

伪标签（Pseudo Labeling）

Lee等人在2013年的论文《伪标签：深度神经网络的简单而高效的半监督学习方法》（Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks）中提出伪标签，它基于当前模型预测的最大的softmax概率，将伪标签分配给无标签样本，然后在完全监督设置下，同时在标签样本和无标签样本上训练模型。

为什么伪标签能起作用？伪标签实际上相当于熵正则化，它将无标签数据的类概率的条件熵（ conditional entropy ）最小化，从而实现类之间的低密度分离。换句话说，预测的类概率实际上是计算类重叠，最小化熵相当于减少类重叠，从而降低密度分离。

图9：(a )表示仅使用600 个标签数据对模型训练后，在MINIST 测试集上进行测试输出的t-SNE可视化结果，(b)表示使用600 个标签数据以及60000 个无标签数据的伪标签对模型进行训练后，在MINIST 测试集上进行测试输出的t-SNE可视化结果。伪标签能够使学到的嵌入空间实现更好的分离效果。(图片来源：Lee等人在2013年的论文《伪标签：深度神经网络的简单而高效的半监督学习方法》)

使用伪标签进行训练自然是一个迭代过程。这里将生成伪标签的模型叫做Teacher 模型，将使用伪标签学习的模型称作Student 模型。

1.标签传播（Label propagation）

Iscen等人在2019年发表的论文《深度半监督学习的标签传播》（Label Propagation for Deep Semi-supervised Learning）中提出标签传播概念，是一种基于特征嵌入在样本之间构建相似图的思想。接着将伪标签从已知样本“扩散”到传播权重与图中成对相似性得分成正比的无标签样本。从概念上来看，它类似于k-NN分类器，两者都存在无法很好地扩展到大型数据集上的问题。

图10：标签传播工作原理示意图。（图片来源：Iscen等人在2019年发表的论文《深度半监督学习的标签传播》）

2.自训练（Self-Training）

自训练不是一个新概念，Scudder等人在1965年发表的论文《自适应模式识别机器的错误概率》（Probability of error of some adaptive pattern-recognition machines）、 Nigram & Ghani等人在CIKM 2000 上发表的论文《分析协同训练的有效性和适用性》（Analyzing the Effectiveness and Applicability of Co-trainin）都涉及到这个概念。它是一种迭代算法，轮番进行以下两步操作，直到每个无标签样本都匹配到一个标签：

首先，它在标签数据上构建分类器。
接着，它使用该分类器预测无标签数据的标签，并将置信度最高的标签转换为标签样本。

Xie 等人在2020年发表的论文《使用噪声学生进行自训练来优化 ImageNet 分类》（Self-training with Noisy Student improves ImageNet classification）中，将自训练应用于深度学习，并取得了巨大成果。在ImageNet分类任务中，研究者首先训练了一个EfficientNet模型作为Teacher模型，为3亿张无标签图像生成伪标签，然后训练了一个更大的EfficientNet模型作为Student 模型，以学习真实标签图像和伪标签图像。在他们的实验设置中，一个关键的元素是在Student模型训练期间加入噪声，而Teacher模型生成伪标签过程则不加入噪声来。因此，他们的方法被称为“噪声学生（Noisy Student ）”，即使用随机深度、dropout和RandAugment方法给Student 模型加入噪声。Student 模型表现得比Teacher 模型更好，很大程度上就是加入噪声带来的好处。添加的噪声具有复合效应，可以促使模型在标签数据和无标签数据上产生的决策边界变得平滑。

Student 模型自训练还有其他几个重要的技术设置，包括：

Student 模型加应该足够大（即比Teacher 模型大），以适用于更多数据。
加入噪声的Student 模型应该结合数据平衡方法，这对于平衡每个类重的伪标签图像的数量尤其重要。
软伪标签比硬标签效果更好。

加入噪声的Student 模型还提高了防御 FGSM（快速梯度符号攻击，其使用输入数据的损失梯度，并调整输入数据从而最大化损失）的对抗鲁棒性，即便该模型未针对对抗鲁棒性进行优化。

Du 等人在2020年的论文《自训练优化自然语言理解的预训练》（Self-training Improves Pre-training for Natural Language Understanding）中提出SentAugment 方法，旨在解决语言领域进行自训练时，域内无标签数据不足的问题。它依靠句向量从大型语料库中找到无标签的域内样本，并使用检索到的句子进行自训练。

3.减小确认偏误（Confirmation Bias）

确认偏误是由于Teacher模型还不够成熟导致提供错误的伪标签的问题。对错误标签进行过拟合可能并不会产生更好的Student模型。

为了减小确认偏误，Eric Arazo等人在论文《深度半监督学习中的伪标签和确认偏误》（Pseudo-Labeling and Confirmation Bias in Deep Semi-Supervised Learning）中提出了两种新方法。

一种是采用软标签的Mixup方法，给定两个样本和它们对应的真标签和伪标签，插值标签方程可以转化为softmax输出的交叉熵损失：

如果标签样本太少，使用Mixup方法还不够。因此论文作者通过对标签样本进行过采样，从而对每个小批量中的标签样本设置最小数量。这比对标签样本进行权重补偿效果更好，因为它会更频繁地更新，而不是频次少的更大幅度的更新——这种更新其实更不稳定。

与一致性正则化一样，数据增强和dropout方法对于发挥伪标签的作用，也很重要。

Hieu Pham等人在2021年论文《元伪标签》（Meta Pseudo Labels）中提出元伪标签，根据Student模型对在标签数据集上表现的反馈，不断调整Teacher模型。Teacher模型和Student模型同步进行训练，Teacher模型学习生成更好的伪标签，Student模型从伪标签中学习。

将Teacher模型和Student模型的权重分别设为和，Student模型在标签样本上的损失定义为的函数，并倾向于通过优化Teacher模型来相应地最小化这一损失。

然而，优化上述方程并非易事。借用MAML （模型无关的元学习， Model-Agnostic Meta-Learnin）的思路，它近似于在进行多步计算的同时，对进行一步梯度更新。

由于使用的是软伪标签，上述目标函数是可微函数。但是如果使用硬伪标签，则是不可微函数，因此需要用到REINFORCE等强化学习方法。

优化过程是在两个模型之间的交替进行的：

Student模型更新：给定一批无标签样本，我们可以通过函数生成伪标签，并使用一步随机梯度下降优化：。
Teacher模型更新：给定一批标签样本，我们重复使用Student模型的更新来优化：。此外，还将UDA对象应用于Teacher模型以兼并一致性正则化。

图11：元伪标签与其他半监督或自监督学习方法在图像分类任务中的性能比较。（图片来源：Hieu Pham等人在2021年论文《元伪标签》）

一致性正则化+伪标签

可以将一致性正则化、伪标签两种方法结合起来，应用到半监督学习。

1.MixMatch

Berthelot等人在2019年的论文《MixMatch: 一种面向半监督学习的整体性方法》（MixMatch: A Holistic Approach to Semi-Supervised Learning）中提出的MixMatch 方法，是一种应用于半监督学习的整体性方法，它通过整合以下方法来使用无标签数据：

一致性正则化（Consistency regularization）：让模型对受到扰动的无标签样本输出相同的预测。
熵最小化（Entropy minimization）：让模型对无标签数据输出置信预测。
MixUp 增强：让模型在样本之间进行线性行为。

给定一批标签数据和无标签数据，通过运算得到其增强版本，和分别表示增强样本和给无标签样本预测到的标签。

其中是锐化温度，用来减少猜测到的标签重叠；K 是每一个无标签样本生成的增强版本个数；是MixMatch 函数中的参数。

对于每一个，MixMatch都会生成K个增强版本，等于k分别为1，....，K的的增强版本，模型基于平均值来猜测伪标签。

图12：MixMatch中的“标签猜测”过程：K 个增强无标签样本的平均值，修正预测的边际分布，最终使分布锐化锐。（图片来源：Berthelot等人在2019年的论文《MixMatch: 一种面向半监督学习的整体性方法》）

根据该论文的消融研究，对无标签数据进行 MixUp增强尤其重要。去除伪标签分布上的温度锐化会严重影响性能。对于标签猜测，计算无标签数据多个增强版本的平均值也是必不可少的。

Berthelot等人在2020年的论文《ReMixMatch:使用分布对齐和增强锚定进行半监督学习》（ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring）中，进一步提出ReMixMatch方法，通过引入以下两种新机制来改进MixMatch方法：

图13：ReMixMatch 方法对MixMatch方法的两项改进的图示。（图片来源：

Berthelot等人在2020年的论文《ReMixMatch:使用分布对齐和增强锚定进行半监督学习》）

1.分布对齐（Distribution alignment）。该方法让边缘分布与真值标签的边缘分布相近。设定为真值标签的类分布，是无标签数据上的预测类分布的移动平均。模型对无标签样本的预测经过归一化处理为以匹配真实边缘分布。

需要注意的是，如果边际分布不一致，熵最小化则不是一个有用的目标。并且，有标签和无标签数据上的类分布相互匹配的假设确实太绝对了，在现实环境中不一定是正确的。

2.增强锚定(Augmentation Anchoring)。给定一个无标签样本，首先会生成一个弱增强的“锚定”版本，接着使用 CTAugment (控制理论增强，Control Theory Augment)方法对K个强增强版本计算平均值。CTAugment仅仅对讲模型预测保持在网络容差范围内的增强版本进行采样。

ReMixMatch损失由以下几个项组成：

应用了数据增强和Mixup方法的监督损失
应用了数据增强和Mixup方法却使用伪标签作为目标的无监督损失
不使用Mixup方法情况下，单个强增强的无标签图像的交叉熵损失
自监督学习中的旋转损失（ rotation loss）。

2.DivideMix

Junnan Li 等人在2020年论文《DivideMix:使用噪声标签学习来实现半监督学习》（DivideMix: Learning with Noisy Labels as Semi-supervised Learning）中提出DivideMix方法，它将半监督学习与使用噪声标签的学习（Learning with noisy labels，LNL）相结合。它通过高斯混合模型（GMM）对每个样本损失分布进行建模，将训练数据动态划分为含有干净样本的标签数据集和含有噪声样本的无标签数据集。

按照Arazo等人在2019年论文《无监督标签噪声建模和损失修正》（Unsupervised Label Noise Modeling and Loss Correction）中提出的想法，他们在每个样本交叉熵损失上拟合了一个二元高斯混合模型。干净样本期望比噪声样本更快得到更低的损失。更小均值的高斯混合模型对应干净标签的聚类，这里将其表示为c。如果高斯混合模型的后验概率（即样本属于干净样本集的概率）大于阈值，则该样本被视为干净样本，否则被视为噪声样本。

数据进行聚类的过程叫做协同划分（co-divide）。为了避免确认偏误，DividImax方法同时训练两个交叉的网络，其中每个网络都使用来自另一个网络的数据集分离出来的部分，类似于双 Q 学习 (Double Q-Learning) 的工作原理。

‎图14：DivideMix独立训练两个网络，以减少确认偏误。两个网络同时运行‎协同划分,、协同细化和协同猜测。（图片来源：Junnan Li 等人在2020年论文《DivideMix:使用噪声标签学习来实现半监督学习》）

与MixMatch相比，DivideMix有一个额外的用于处理噪音样本的‎co-divide步骤，并在训练期间做了如下改进：

标签协同细化（Label co-refinement:）：它将真值标签与网络预测进行线性组合，其中是另一个网络产生干净数据集概率条件下，多个增强版本的平均值。

标签协同猜测（Label co-guessing）：它对两个模型对无标签数据样本的预测进行平均。

图15：DivideMix算法。（图片来源：Junnan Li 等人在2020年论文《DivideMix:使用噪声标签学习来实现半监督学习》）

3.FixMatch

Sohn等人在2020年的论文《FixMatch: 使用一致性和置信度简化半监督学习》（FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence）中提出的FixMatch方法，通过弱增强方法在无标签样本上生成伪标签，并且只保持高置信度的预测。在这里，弱增强和高置信度过滤都有助于生成高质量的可信伪标签目标。然后，FixMatch在给定一个经过大幅增强的样本情况下，预测这些伪标签。

图16：FixMatch方法的工作原理图示。(图片来源：Sohn等人在2020年的论文《FixMatch: 使用一致性和置信度简化半监督学习》）

其中是无标签样本的伪标签；是决定和的相对大小的超参数。

弱增强：标准的平移和变换增强。

强增强：AutoAugment、 Cutout、 RandAugment和 CTAugment等数据增强方法。

图17：FixMatch和其他几种半监督学习方法在图像分类任务上的性能。(图片来源：Sohn等人在2020年的论文《FixMatch: 使用一致性和置信度简化半监督学习》）

根据FixMatch的消融研究，

当使用阈值τ时，使用温度参数T对锐化预测分布不会产生显著影响。
Cutout和CTAugment是强增强方法，对模型达到良好的性能“功不可没”。
当标签猜测使用强增强来取代弱增强时，模型在训练早期就发散了。如果舍弃弱增强，模型就会过度拟合猜测的标签。
使用弱增强而不是强增强进行伪标签预测，会导致模型性能不稳定。强数据增强，对于模型性能的稳定性而言，至关重要。

结合强大的预训练

该方法通过自监督学习在大型无监督数据语料库上对与任务无关的模型进行预训练，然后使用小型标签数据集在下游任务上对该模型进行微调，这是一种常见的范式，尤其是在语言任务中。研究表明，如果将半监督学习与预训练相结合，模型可以获得额外的收益。

Zoph 等人在2020年的论文《重新思考预训练和自训练》（Rethinking Pre-training and Self-training），研究了自训练比预训练更有效多少。他们的实验设置是使用ImageNet 进行预训练或自训练，从而改进 COCO结果。需要注意的是，在使用 ImageNet 进行自训练时，它会丢弃标签，仅将 ImageNet 样本用作无标签的数据点。何恺明等人在2018年的论文《重新思考ImageNet 预训练》（Rethinking ImageNet Pre-training）中已经证明，如果下游任务（例如目标检测）非常不同，ImageNet 分类预训练的效果就不是很好。

图18：(a) 数据增强（从弱到强）的结果和 (b) 标签数据集大小对目标检测性能的影响。在图例中：“Rand Init”表示经过随机权重初始化的模型；`ImageNet` 使用在ImageNet数据集上Top-1准确率为84.5%的预训练模型进行初始化；`ImageNet++`使用在 ImageNet数据集上Top-1准确率为86.9%的预训练模型进行初始化。(图片来源：Zoph 等人在2020年的论文《重新思考预训练和自训练》)

该实验获得了一系列有趣的发现：

可用于下游任务的标签样本越多，预训练的有效性就越低。预训练在低数据模式（20%）下是有帮助的，但在高数据情况下是中性的或起反作用的。
在高数据/强增强模式下，即便预训练会起反作用，自训练也是有帮助的。
即使使用相同的数据源，自训练也可以在预训练的基础上带来额外的改进。
自监督预训练（例如通过 SimCLR进行预训练）会损害模型在高数据模式下的性能，跟监督预训练差不多。
联合训练监督和自监督学习目标有助于解决预训练和下游任务之间的不匹配问题。预训练、联合训练和自训练都是加性的。
噪声标签或非目标标签（即预训练标签未与下游任务标签对齐）比目标的伪标签更差。
自训练在计算上比在预训练模型上进行微调，更昂贵。

Ting Chen等人在2020年的论文《大型自监督模型是强大的半监督学习者》（Big Self-Supervised Models are Strong Semi-Supervised Learners）中，提出了一个三步程序（three-step procedure）方法，将自监督预训练、有监督微调以及自训练的优势都结合在一起：

1.使用无监督或子监督方法对一个大模型进行训练；

2.在一些标签示例上对该模型进行有监督微调，其中使用大型（深且宽）的神经网络至关重要，因为使用更少的标签样本下，模型越大，性能更佳。

3.在自训练中采用伪标签，对无标签示例进行蒸馏。

a.可以将一个大模型的知识蒸馏到一个小模型中，因为这种特定任务的用法并不需要学到的表示的额外容量。

b.蒸馏损失公式如下，其中Teacher网络是固定的，权重为。

图19：半监督学习框架通过与任务无关的无监督预训练（左）和特定任务的自训练和蒸馏（右）来使用无标签的数据语料库。(图片来源：Ting Chen等人在2020年的论文《大型自监督模型是强大的半监督学习者》）

论文作者在 ImageNet 分类任务上进行了实验。自监督预训练使用 SimCLRv2，SimCLR 的直接改进版本。他们在实证研究中的观察结果，证实了Zoph 等人在2020年提出的一些成果：

更大模型的标签学习更加高效；
SimCLR 中更大/更深的project heads可以改善表征学习；
使用无标签数据进行蒸馏，能优化半监督学习。

图20：SimCLRv2 + 半监督蒸馏在 ImageNet 分类上的性能对比。（图片来源：Ting Chen等人在2020年的论文《大型自监督模型是强大的半监督学习者》）

通过对最近半监督学习方法的总结，我们可以发现不少方法都旨在减少确认偏误：

通过先进的数据增强方法将有效且多样化的噪声应用于样本。
在处理图像时，MixUp 是一种有效的数据增强方法。该方法同样可用于语言任务，实现较小的增量优化（(Guo et al. 2019)。
设置阈值，并去掉置信度低的伪标签。
设置每个小批量中的标签样本的最少数量。
锐化伪标签分布来减少类重叠。

如需引用，请注明：

注明：

@article{weng2021semi,  title   = "Learning with not Enough Data Part 1: Semi-Supervised Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2021",
  url     = "https://lilianweng.github.io/posts/2021-12-05-semi-supervised/"
}

参考文献：

[1] Ouali, Hudelot & Tami. “An Overview of Deep Semi-Supervised Learning” arXiv preprint arXiv:2006.05278 (2020).

[2] Sajjadi, Javanmardi & Tasdizen “Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning.” arXiv preprint arXiv:1606.04586 (2016).

[3] Pham et al. “Meta Pseudo Labels.” CVPR 2021.

[4] Laine & Aila. “Temporal Ensembling for Semi-Supervised Learning” ICLR 2017.

[5] Tarvaninen & Valpola. “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results.” NeuriPS 2017

[6] Xie et al. “Unsupervised Data Augmentation for Consistency Training.” NeuriPS 2020.

[7] Miyato et al. “Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning.” IEEE transactions on pattern analysis and machine intelligence 41.8 (2018).

[8]Ian J. Goodfellow et al.”Explaining and Harnessing Adversarial Examples“，2014

[9] Verma et al. “Interpolation consistency training for semi-supervised learning.” IJCAI 2019

[10] Lee. “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks.” ICML 2013 Workshop: Challenges in Representation Learning.

[11] Iscen et al. “Label propagation for deep semi-supervised learning.” CVPR 2019.

[12] Xie et al. “Self-training with Noisy Student improves ImageNet classification” CVPR 2020.

[13] Jingfei Du et al. “Self-training Improves Pre-training for Natural Language Understanding.” 2020

[14 Iscen et al. “Label propagation for deep semi-supervised learning.” CVPR 2019

[15] Arazo et al. “Pseudo-labeling and confirmation bias in deep semi-supervised learning.” IJCNN 2020.

[16] Berthelot et al. “MixMatch: A holistic approach to semi-supervised learning.” NeuriPS 2019

[17] Berthelot et al. “ReMixMatch: Semi-supervised learning with distribution alignment and augmentation anchoring.” ICLR 2020

[18] Eric Arazo et al. Unsupervised Label Noise Modeling and Loss Correction,2019

[19] Sohn et al. “FixMatch: Simplifying semi-supervised learning with consistency and confidence.” CVPR 2020

[20] Junnan Li et al. “DivideMix: Learning with Noisy Labels as Semi-supervised Learning.” 2020 [code]

[21] Zoph et al. “Rethinking pre-training and self-training.” 2020.

[22] Chen et al. “Big Self-Supervised Models are Strong Semi-Supervised Learners” 2020

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

你可能感兴趣的:(大数据,算法,python,计算机视觉,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S