calvinpaean

Supervised Contrastive Learning 论文学习

Abstract

在近几年，将对比学习应用在自监督表征学习上越来越受到关注，在深度图像非监督训练任务上取得了 SOTA 的性能。现在的批对比方法大幅度领先传统的对比损失，如 triplet、max-margin 和 N-pairs 损失。本文中作者将自监督批对比方法扩展至全监督任务上，使我们可以充分利用标签信息。在 embedding 空间中，属于同一个类别的点应该拉近，而不同类别的点应该推的远远的。作者分析了两种监督对比损失（SupCon），找到了最佳的损失形式。在 ImageNet 上，基于 ResNet-200，作者取得了 $81.4\%$ 的 top-1 准确率，这要比该网络能取得的最高分还要高 $0.8\%$ 。在其它数据集和模型上，作者也取得了优异的表现。该损失函数展现了极强的鲁棒性，对于不同的超参设定（优化器和数据增广）要更加稳定。该损失函数的实现代码在：https://t.ly/supcon。

1. Introduction

交叉熵损失是监督学习下深度分类模型应用最广泛的一个损失函数。一大堆的论文都探讨了该损失的缺点，泛化性能较差。但实际上，大多数的替代方案对于较大规模的数据集都表现一般，如 ImageNet。

图1. SupCon 损失函数持续地领先于使用了标准数据增广的交叉熵损失。在 ImageNet 数据集上，作者列出了 ResNet-50, ResNet-101 和 ResNet-200 的 top-1 准确率，和 AutoAugment, RandAugment 和 CutMix 比较。

图2. 监督 vs. 自监督对比损失函数：对于每个 anchor，自监督对比损失（左边，等式1）会将一个正样本（即同一图片的增广版本）和有一组负样本（同一个batch里的其余样本）进行比较。而监督对比损失（右边）即等式2中的表达式，会将同类别的所有样本和该 batch 内的其余的负样本进行对比。如图片中那条黑白狗所示，在 embedding 空间中我们考虑的是同类别的标签，相同类别的元素要比自监督情形下靠的更近。

近些年，对比学习得到了重新重视，促进了自监督表征学习的发展。这些工作的一般思路就是：在 embedding 空间内，拉近 anchor 和正样本的距离，而推远 anchor 和负样本的距离。因为没有标签可用，一对正样本通常来自于对样本做数据增广，然后随机从 minibatch 中选择样本与 anchor 形成负样本对。这在图2左有描述。

本文作者基于对比全监督学习，利用标签信息，提出了一个用于监督学习的损失函数。同一类别归一化后的 embeddings 会拉近距离，而不同类别的 embeddings 会推开距离。本文技术上的创新点就是，对于每个 anchor 我们除了有许多的负样本，也会有许多的正样本（自监督对比学习中只会有一个正样本）。我们选择与 anchor 类别相同的样本作为正样本，而不是像自监督学习那样对 anchor 做数据增广。尽管我们只简单地扩展了自监督学习，但如何正确地设置损失函数并不显而易见，作者分析了两个替代方案。图2右和图1（补充）展示了该损失的内涵。该损失可以看作为 triplet 和 N-pair 损失的归纳；前者只利用了 anchor 的一个正样本和一个负样本，而后者使用了一个正样本和多个负样本。对于每个 anchor，我们通过使用多个正负样本就可达到 SOTA 的表现，无需难例挖掘。要想把难例挖掘利用好有点困难。这是对比损失第一次在大规模分类问题上持续地领先交叉熵损失。另外，它也为自监督或监督学习提供了一个统一的损失函数。

实验显示，该损失 SupCon 实现起来很容易，训练起来比较稳定。它在 ImageNet 上取得了优异的 top-1 精度。利用 ResNet-200，它取得了 $81.4\%$ 的 top-1 准确率，领先最高的交叉熵损失 $0.8\%$ 。它不仅准确率增加了，鲁棒性也增加了。本文贡献如下：

提出了对比损失函数的扩展版，对于每个 anchor 使用多个正样本，将对比学习适配到全监督学习任务。
该损失在多个数据集上可持续提高 top-1 准确率，鲁棒性也更好。
分析证明该损失函数的梯度擅长从难例正负样本中学习。
实验证明，对于超参数的取值范围，该损失没有交叉熵损失那么敏感。

2. Related Works

本文吸收利用了自监督表征学习、度量学习和监督学习的内容。这里作者只关注在最相关的几篇论文上。交叉熵损失是一个强大的损失函数，用于训练深度网络。其核心思想简洁明了：每个类别都会有一个目标向量（1-hot）。但是人们不清楚这些目标标签为什么就应是最优的，一些论文尝试找到更优的目标标签向量。多篇论文研究了交叉熵损失的缺陷，如对错误标签、对抗样本过于敏感。人们提出了一些替代的损失函数，但它们最有效的办法就是调整标签的分布，如 label smoothing、数据增广和知识蒸馏。

基于深度学习的自监督表征学习最近在 NLP 领域取得了一些进展。在图像领域，人们利用像素预测的方法来学习 embeddings。这些方法尝试预测输入信号中缺失的部分。基于一个低维表征空间的损失，有人提出了更有效的办法来代替原先的密集、逐像素的预测损失函数。这类自监督表征学习模型都使用了对比学习方法。这些论文的损失都受到噪声对比学习或 N-pair 损失函数启发。测试时，主干网络的 embeddings 会直接用于后续的迁移任务、微调或特征提取。[15] 介绍的方法只对部分损失做反向传播，并且用 memory bank 中的表征来近似。

与对比学习相近的损失一般都基于度量距离学习或 triplets 损失函数。这些损失通常在自监督任务上进行表征学习，标签用于指导正负样本对的选取。Triplet 损失和对比损失的核心差异就是每个数据的正负样本对的数量。在每个 anchor 上，Triplet 损失只使用一个正样本和负样本。在监督度量学习任务上，我们从同类别样本中选取一对正样本，从其它类别的样本中选择一对负样本，通常需要难例挖掘来取得不错的表现。对于每个 anchor，自监督对比损失函数同样只使用一个正样本，通过 co-occurrence 或数据增广来得到。区别是对于每个 anchor 会有多对负样本。这些负样本一般是通过一些 weak knowledge 来随机选取的，比如其它图像，或随机选取视频中的某几帧，但都基于一个假设就是这些方法产生 false negatives 的概率比较低。

与本文监督对比方法相似的有 soft-nearest neighbors 损失。与[54]相似，作者通过归一化 embeddings ，以及用内积替换欧式距离的方式对[41]做了改进。作者通过数据增广、一次性对比 head 和双阶段训练（对比后进行交叉熵）的方法对[54]进一步做了优化，此外修改了损失函数的形式，显著提升了效果。[12] 使用了一个与本文损失密切相关的损失函数，通过最大化损失来纠缠中间层的表征。与本文方法最接近的是 Compact Clustering via Label Propagation(CCLP) 正则器。尽管 CCLP 主要解决半监督任务，在全监督任务上，该正则器几乎近似本文的损失形式。二者的主要区别包括作者将对比 embedding 归一到单位球面上，tuning 对比目标函数的调节参数，以及使用了更强的数据增广。此外，CCLP 将对比 embedding 作为分类head的输入，与 CCLP 正则器一起训练，而SupCon只使用了双阶段训练方式，抛弃了对比head。最后，CCLP 所进行的实验规模要远小于本文作者所进行的。对于半监督学习而言，将 CCLP 和本文的发现结合起来应该值得未来去探索。

3. Method

本文方法在结构上和自监督对比学习任务的[48,3]相近，不过是用于监督分类任务。给定一个batch的输入数据，我们首先进行两次的数据增广，得到该 batch 的两份拷贝数据。这两份拷贝数据会前向传递入一个编码器网络，得到一个 2048-维的归一化 embeddings。训练时，该表征会进一步传递入一个映射网络，推理时没有这一步。然后计算映射网络输出的监督对比损失。为了将训练好的模型用于分类，在冻结了的表征之上，作者通过交叉熵损失函数训练了一个线性分类器。

3.1 Representation Learning Framework

该框架的主要结构有：

数据增广模块， $Aug(\cdot)$ 。对于每个输入样本 $x$ ，我们生成两个随机增广样本， $\tilde x=Aug(x)$ ，每个都代表了该数据的不同角度，包含原数据的一些子信息。第4部分会给出增广的详细内容。
编码器网络， $Enc(\cdot)$ ，将 $x$ 映射为一个表征向量 $r=Enc(x)\in \mathbb{R}^{D_E}$ 。增广后的两个样本会分别输入进该编码器，得到一对表征向量。 $r$ 归一化到 $\mathbb{R}^{D_E}$ 的单位球面上（本文所有实验都是 $D_E=2048$ ）。与[42,52]的发现一致，本文分析和实验证明该归一化操作能够提升 top-1 准确率。
映射网络， $Proj(\cdot)$ ，将 $r$ 映射为一个向量 $z=Proj(r)\in \mathbb{R}^{D_P}$ 。作者将 $Proj(\cdot)$ 初始化为一个多层感知机（只有单个隐藏层，维度是 2048，输出向量大小是 $D_P=128$ ），或只有一个大小是 $D_P=128$ 的线性层。作者将网络的输出归一化到单位超球面上，这样就可以用内积来计算映射空间内的距离。在自监督对比学习任务[48,3]上，作者摒弃了对比训练最后的 $Proj(\cdot)$ 。结果就是，使用相同的编码器 $Enc(\cdot)$ ，本文的推理模型和交叉熵模型的参数量是一样的。

3.2 Contrastive Loss Functions

给定该框架，我们首先回顾下对比损失家族，从自监督领域开始，并分析如何将其应用到监督领域。给定由 $N$ 对随机样本/标签组成的集合， ${x_k,y_k\}_{k=1,...,N}$ ，对应的训练 batch 就有 $2 N$ 对， $\{\tilde x_l, \tilde y_l\}_{l=1,...,2N}$ ，其中 $\tilde x_{2k}$ 和 $\tilde x_{2k-1}$ 是 $x_k(k=1,...,N)$ 的2个随机增广样本，并且 $\tilde y_{2k-1}=\tilde y_{2k}=y_k$ 。本文其余部分中，batch 指一个由 $N$ 个样本组成的集合， $2 N$ 个增广样本组成的集合称为 multiviewed batch。

3.2.1 Self-supervised Contrastive Loss

在一个 multiviewed batch 内， $i\in I \equiv \{1,...,2N\}$ 表示一个随机被增广样本的索引， $j (i)$ 是产生的增广样本的索引。在自监督对比学习中，该损失表达式为：

$\mathcal{L}^{self}=\sum_{i\in I}\mathcal{L}_i^{self}=-\sum_{i\in I}\log \frac{\exp(z_i\cdot z_{j(i)}/\tau)}{\sum_{a\in A(i)}\exp (z_i \cdot z_a / \tau)}$

这里， $z_l = Proj(Enc(\tilde x_l))\in \mathcal{R}^{D_P}$ ， $\cdot$ 符号表示内积， $\tau \in \mathcal{R}^+$ 是一个标量调节参数， $\ { i } A(i)\equiv I\backslash \{i\}$ 。索引 $i$ 叫做 anchor，索引 $j (i)$ 叫做正样本，其它的 $2 (N - 1)$ 索引（ $\ { j ( i ) } } \{k\in A(i)\backslash \{j(i)\}\}$ ）叫做负样本。

注意对于每个 anchor $i$ ，都有一对正样本和 $2 N - 2$ 对负样本。分母总共有 $2 N - 1$ 项（正样本和负样本）。

3.2.2 Supervised Contrastive Loss

对于监督学习来说，因为我们知道标签信息，等式1的对比损失就能处理同类别多于一个样本的情况。但是面对任意个数的正样本的情况，我们得在多个备选函数之间做出抉择。

$\mathcal{L}^{sup}_{out} = \sum_{i\in I} \mathcal{L}_{out,i}^{sup} = \sum_{i\in I} \frac{-1}{|P(i)|} \sum_{p\in P(i)} \log \frac{\exp(z_i \cdot z_p / \tau)}{\sum_{a\in A(i)} \exp(z_i \cdot z_a / \tau)}$

$\mathcal{L}^{sup}_{in} = \sum_{i\in I} \mathcal{L}_{in,i}^{sup} = \sum_{i\in I}-\log \lbrace \frac{1}{|P(i)|}\sum_{p\in P(i)} \frac{\exp(z_i \cdot z_p / \tau)}{\sum_{a\in A(i)} \exp(z_i \cdot z_a / \tau)} \rbrace$

这里， $P(i)\equiv \{p\in A(i): \tilde y_p = \tilde y_i\}$ 是 multiviewed batch 中与 $i$ 不同所有正样本集合的索引， $∣ P (i) ∣$ 是该集合元素的个数。等式2中，对所有正样本的求和操作位于 $\log(\mathcal{L}_{out}^{sup})$ 之外，而在等式3中，求和操作位于 $\log(\mathcal{L}_{in}^{sup})$ 之内。这两个损失函数都具有下面的特性：

一般化至任意个数的正样本。等式2和3的主要结构调整就是，对于任一个 anchor，multiviewed batch 中所有的正样本（即增广样本和相同标签的其余样本）都作用于分子。对于样本数大于类别数的随机产生的 batches，会出现多个额外的项（平均是 $N / C$ ， $C$ 是类别个数）。对于同一类别下的样本，监督损失促使编码器生成距离近的表征，得到一个比等式1更加鲁棒的表征空间 clusters。
负样本越多，对比力度越强。等式2和3都保留了等式1中的分母，对负样本求和。这受到噪声对比估计和 N-pair 损失启迪，通过增加更多的负样本来提高信噪分离的能力。通过自监督对比学习，该特性对于表征学习很重要，许多论文都证明了负样本越多，性能越好。
正负样本难例挖掘的天赋。当我们用归一化的表征时，等式1的损失函数能得到一个梯度结构，具备隐式的正负样本难例挖掘的能力。从正负样本难例中得到的梯度贡献（持续地与 anchor 做对比，对编码器帮助很大）要大一些，而从容易样本中得到的梯度贡献（持续地与 anchor 做对比，对编码器帮助很弱）要小一些。此外，难例正样本的作用会增长得极快。等式2和3都保留了这个有用的特性，可以一般化到所有的正样本上。这个特性使我们不再需要显式的难例挖掘。作者发现，这个特性可以用到监督和自监督对比损失，但本文是第一个清楚地展示该特性的工作。作者在补充材料中提供了该特性损失梯度的完备推导。

表1. 对于监督对比损失，ImageNet top-1 分类准确率，主干网络是 ResNet-50，batch size 是6144。

但是这两个损失并不等价。因为 $\log$ 是一个凹函数，根据 Jensen 不等式可得到 $\mathcal{L}^{sup}_{in} \leq \mathcal{L}^{sup}_{out}$ 。因此我们可以认为 $\mathcal{L}^{sup}_{out}$ 更适合（因为它是 $\mathcal{L}^{sup}_{in}$ 的上界）。分析数据也支持该论断。表1比较了 ImageNet top-1 分类准确率。 $\mathcal{L}^{sup}_{out}$ 监督损失的效果要比 $\mathcal{L}^{sup}_{in}$ 高不少。作者推测这是因为 $\mathcal{L}^{sup}_{in}$ 的组成差于 $\mathcal{L}^{sup}_{out}$ 的结构。对于 $\mathcal{L}^{sup}_{out}$ ，正样本归一化因子（即 $1 / ∣ P (i) ∣$ ）用于去除 multiviewed batch 中正样本对损失贡献的偏差。但是，尽管 $\mathcal{L}^{sup}_{in}$ 也包含了同样的归一化因子，它位于 $\log$ 的里面。因此它相当于只给整体损失加了一个常数，不会影响整体的梯度。没有了归一化的影响后， $\mathcal{L}^{sup}_{in}$ 的梯度就更容易受正样本中偏差的影响，造成训练模型不是最优的。

对梯度自身的分析支持这个结论。在补充材料中有说明，关于 embedding $z_i$ 的 $\mathcal{L}^{sup}_{out,i}$ 或 $\mathcal{L}^{sup}_{in,i}$ 的梯度有着如下的形式。

$\frac{\partial \mathcal{L}_i^{sup}}{\partial z_i} = \frac{1}{\tau} \lbrace \sum_{p\in P(i)} z_p(P_{ip}-X_{ip}) + \sum_{n\in N(i)} z_n P_{in} \rbrace$

这里， $N(i)\equiv \{n\in A(i):\tilde y_n \neq \tilde y_i\}$ 是 multiviewed batch 中所有负样本组成的集合的索引， $P_{ix}\equiv \exp(z_i \cdot z_x /\tau) / \sum_{a\in A(i)} \exp (z_i \cdot z_a / \tau)$ 。两个损失函数的梯度区别在于 $X_{ip}$ 。

如果每个 $z_p$ 都设为正样本表征向量的平均值 $\overline z$ ， $X_{ip}^{in}$ 就变成了 $X_{ip}^{out}$ 。

$X_{ip}^{in} |_{z_p=\overline z} = \frac{\exp (z_i \cdot \overline z / \tau)}{\sum_{p'\in P(i)} \exp(z_i \cdot \overline z/\tau)} = \frac{\exp (z_i \cdot \overline z / \tau)}{|P(i)| \cdot \exp (z_i \cdot \overline z / \tau)} = \frac{1}{|P(i)|} = X_{ip}^{out}$

从 $\partial \mathcal{L}_i^{sup} / \partial z_i$ ，作者发现了其稳定的原因，使用正样本的均值有助于训练。论文的余下部分，我们只考虑 $\mathcal{L}_{out}^{sup}$ 。

4. Experiments

作者在常用的图像分类基准（Cifar10、Cifar100 和 ImageNet）上计算了 SupCon ( $\mathcal{L}_{out}^{sup}$ )损失的分类准确率。作者也在问题图像上测试了模型的鲁棒性，展示模型的性能如何随着超参数和数据的变化而变化。编码器使用了三个常用的网络结构：ResNet-50, ResNet-101 和 ResNet-200。最后一个池化层的归一化了的激活值（ $D_E=2048$ ）作为表征向量使用。对于 $Aug(\cdot)$ 作者尝试了四种数据增广方法：AutoAugment, RandAugment, SimAugment 和 Stacked RandAugment（补充材料中有详细介绍）。主干网络为 ResNet-50，在 SupCon 和交叉熵损失上，AutoAugment 的表现要优于其它的增广策略。Stacked RandAugment 在 ResNet-200 上的表现最好。补充材料中给出了详细说明。

4.1 Classification Accuracy

表2展示了在 CIFAR-10、CIFAR-100 和 ImageNet 上，SupCon 的泛化性要好于交叉熵、margin 分类器（使用了标签信息）和非监督对比学习技术。表3展示了 ImageNet 上 ResNet-50 和 ResNet-101 的结果。在 ResNet-50 上使用 AutoAugment，作者取得了 $78.7\%$ 的 SOTA 准确率。注意，相较于 CutMix，也实现了一些提升，CutMix 是目前 SOTA 的增广策略。将数据增广策略（CutMix 或 MixUp）加入对比学习可能会进一步提高表现。

表2：在各种数据集上，ResNet-50 的 Top-1分类准确率。作者比较了交叉熵训练、非监督表征学习（SimCLR）、max-margin 分类器和SupCon。作者重新实现并调参了所有基线模型，除了 margin 分类器。注意 CIFAR-10 和 CIFAR-100 的结果是用 PyTorch 实现的，ImageNet 是用 TensorFlow 实现的。

表3：对 ResNet-50 使用 AutoAugment，对 ResNet-101、ResNet-200 使用 Stacked RandAugment 的 Top-1/Top-5 的准确率结果。基线模型的数据来自于引用的论文，作者也重新实现了交叉熵损失。

在 ImageNet 上，主干网络是 ResNet-50，当内存大小是 8192（只用存储 128 维向量），batch size 是256，使用 SGD 优化器，在8张特斯拉 V100 GPUs 上训练，SupCon 取得了 $79.1\%$ 的 top-1 准确率。这比 6144 的 batch size 取得的 $78.7\%$ 的准确率只高一点；却极大地降低了计算和内存消耗。

因为对于每个样本，SupCon 会用到两个增广样本，它的 batch size 就是交叉熵损失的2倍。因此作者也试验了 ResNet-50 交叉熵基线模型，batch size 是12288。但只得到了 $77.5\%$ 的 top-1 准确率。此外，作者也尝试增加训练的 epoch 数到1400，但降低了准确率（ $77.0\%$ ）。

作者测试了 N-pairs 损失函数，batch size 为6144。N-pairs 在 ImageNet 上只取得了 $57.4\%$ 的 top-1 准确率。作者认为，这是因为 N-pairs 损失不具备监督对比学习的一些条件：使用多个增广样本；较弱的参数调节；更多正样本。在补充材料中，作者展示了每个 anchor 的正样本个数的影响。作者也注意到 N-pairs 原论文证明了 N-pairs 损失要优于 triplet 损失。

4.2 Robustness to Image Corruptions and Reduced Training data

DNN 对于异常数据或缺陷图像（如噪点、模糊或JPEG压缩）的鲁棒性较差。ImageNet-C 基准就是用于评价训练模型对于这些问题的表现。图3左，作者使用 Mean Corruption Error(mCE) 和 Relative Mean Corruption Error 指标比较了监督对比模型和交叉熵损失。这两个指标都评估模型的平均退化程度，对所有可能的异常问题和问题的严重级别求均值。当我们比较各模型不同的 Top-1 准确率时，Relative mCE 要更好一些，而mCE更适合评价模型面对异常情形时的绝对鲁棒性。SupCon 模型对于不同的异常问题，mCE 要更低一些，鲁棒性要更好。从图3右可以看到，当异常程度递增时，SupCon 模型的退化要更少。

图3：使用监督对比损失训练，让模型更加鲁棒。左边：在ImageNet-C上，通过 mCE 和 Relative mCE 来评估鲁棒性（越低越好）。右边：对于不同程度的异常，平均准确率的变化（越高越好）。

4.3 Hyperparameter Stability

通过依次地改变增广策略、优化器和学习率，作者对超参数的稳定性做了试验。图4a 中，作者比较了 SupCon 损失和交叉熵损失的 top-1 准确率随着增广策略（RandAugment [6], AutoAugment [5], SimAugment [3], Stacked RandAugment [49]）、优化器(LARS, SGD with Momentum and RMSProp)和学习率的改变而改变的程度。作者观察到对比损失输出具有较低的方差。注意交叉熵损失的 batch size 和监督对比学习是一样的，因此排除了 batch size 的影响。在图4b中，只有 batch size 变动，而保留所有其它的超参数不变，监督对比损失会产生更高的 top-1 准确率。

图4：交叉熵损失和监督对比损失关于超参数和训练数据大小的准确率，都是在 ImageNet 上通过 ResNet-50 编码器计算得到。（从左到右）a: 标准的盒形图展示 Top-1 准确率 vs. 增广策略、优化器和学习率变动。(b) Batch size 变动下的 Top-1 准确率，显示 batch size 越大越好，而且监督对比的 Top-1 准确率要更高，哪怕当 batch size 较小的时候。c: 不同训练 epochs 下 SupCon 的 Top-1 准确率。(d): 不同 temperature 值下 SupCon 的 Top-1 准确率。

表4：迁移学习结果。这些值分别是在 VOC2007 上计算得来的 mAP、Aircraft, Pets, Caltech 和 Flowers 数据集上得到的类别平均准确率，以及其它数据集上的 top-1 准确率。

4.4 Transfer Learning

在12个自然图像数据集上，作者对微调得到的表征进行了评价。当使用相同的网络结构时，SupCon 能取得与交叉熵和自监督对比损失相同的迁移学习表现（见表4）。

4.5 Traning Details

针对 ResNet-200，SupCon 损失训练了700个 epochs 进行预训练，而对于其它小一些的模型训练了350个 epochs。图4c 就是对于 ResNet-50 来说，其准确率和训练 epochs 的关系，显示 200个 epochs 通常就足够了。

一个可选的步骤就是训练一个线性分类器，计算 top-1 准确率。如果我们的目的是将表征用于迁移学习或特征提取，这一步就不是必须的。第二阶段只需要10个 epochs 的额外训练。实际操作中，该线性分类器能和编码器、映射网络一起训练，将线性分类器的梯度冻结，不回传给编码器，效果是差不多的。作者为了剥离对 SupCon 损失的影响，没有用这一步。

作者使用的 batch size 是6144,尽管 2048 对于 SupCon 和交叉熵损失都足够用了（如图4b所介绍的）。作者认为一部分的性能提升得益于 batch size 对梯度的影响，因为负样本增多，难例正样本就会增多。作者在实验中报告了ResNet-50 中 batch size 为6144的情况，以及 ResNet-200 中 batch size 为4096的情况（对于较大的网络，较小的 batch size 就够用了）。作者发现，对于相同的batch size，SupCon 使用的学习率可以比交叉熵大一些，但效果是差不多的。

所有的实验中，temperature $\tau=0.1$ 。Temperature 越小，越有利于模型训练结果，但是太小了也不利于训练，因为数值不稳定。图4d 展示了它的影响。如等式4中所见，梯度的大小和 $\tau$ 的值呈反比，因此出于稳定训练的目的，用 $\tau$ 来缩放损失。

在初始的预训练和后面的训练过程中，作者用标准的优化器做实验，比如 LARS, RMSProp, SGD with momentum。SGD with momentum 对于使用交叉熵的 ResNets 来说效果最好，而在 ImageNet 上，对于 SupCon，作者使用了 LARS 进行预训练，RMSProp 来训练线性层。对于 CIFAR10 和 CIFAR100，SGD with momentum 最好。补充材料中提供了各优化器组合的效果。

5. Training Setup

在图5中，作者比较了交叉熵损失、自监督对比和 SupCon 损失的设定。注意推理模型中的参数个数保持不变。作者也注意到，没必要在第二阶段中训练一个线性分类器，而之前的工作会用到 k-Nearest Neighbor 分类等方法来计算表征，进行分类任务。线性分类器可与编码器一同训练，只是它的梯度不会反向传播回编码器。

图5. 交叉熵损失、自监督对比损失和监督对比损失：交叉熵损失（左边）使用了标签和 softmax 损失来训练一个分类器；自监督对比损失（中间）使用一个对比损失和数据增广来学习表征。监督对比损失（右边）通过一个对比损失来学习表征，但除了增广图片之外，也使用了标签信息来采样正样本。这两个对比方法都有一个可选的第二阶段，即对学到的表征训练一个模型。

你可能感兴趣的:(Supervised Contrastive Learning 论文学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
使用3DUNet训练自己的数据集（pytorch）— 医疗影像分割编程日记✧ 智能医疗 pytorch 人工智能 python 计算机视觉图像处理深度学习健康医疗
代码：lee-zq/3DUNet-Pytorch:3DUNetimplementedwithpytorch(github.com)文章<cicek16miccai.pdf(uni-freiburg.de)3DU-Net:LearningDenseVolumetricSegmentation
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
linux查看jupyter运行,在Linux服务器上运行Jupyter notebook server教程天启大烁哥
在Linux服务器上运行Jupyternotebookserver教程很多deeplearning教程都推荐在jupyternotebook运行python代码，方便及时交互。但只在本地运行没有GPU环境，虽然googlecolab是个好办法，但发现保存模型后在云端找不到模型文件，且需要合理上网才能访问。于是想给实验室的服务器配置jupyternotebook，供本机远程访问。踩了不少坑，码一下教
如何在DPDK中实现协议解析？编码小哥 dpdk 架构
在DPDK中实现协议解析涉及几个步骤，包括初始化环境、配置网卡、接收数据包、解析数据包并处理数据包。下面将详细介绍这些步骤以及如何在DPDK中实现基本的协议解析。初始化DPDK环境首先，你需要初始化DPDK环境，加载EAL(EthernetAddressLearning)库，并设置好内存池、环形缓冲区等。#include#include#includeintmain(intargc,char**a
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
使用matlab的热门问题七十二五值得关注 matlab 开发语言青少年编程算法经验分享
MATLAB广泛应用于科学计算、数据分析、信号处理、图像处理、机器学习等多个领域，因此热门问题也涵盖了这些方面。以下是一些可能被认为当前最热门的MATLAB问题：深度学习与神经网络：如何使用MATLAB的深度学习工具箱（DeepLearningToolbox）来构建和训练神经网络？如何利用MATLAB进行图像识别、语音识别或自然语言处理等深度学习应用？数据分析与可视化：如何使用MATLAB进行大数
COI实验室技能：图像到图像的深度学习开发框架（pytorch版）山颠海涯深度学习 pytorch 人工智能
Basicdeeplearningframeworkforimage-to-image这个开发框架旨在帮助科研人员快速地实现图像到图像之间的模型开发。github连接：https://github.com/SituLab/Basic-deep-learning-framework-for-image-to-image目录1模型开发1-1克隆项目到本地1-2深度学习开发2环境配置2-1安装conda
2021-03-31 每日打卡来多喜
昨日完成情况：1.6k散步，❌帕梅拉（我好懒）2.思维导图，statistical和machinelearning,先快速看一遍中文版，然后细看英文版.太多了，感觉在面试前看不完。决定集中精力讲清楚简历的内容。3.工作kki+myhabeats+handover。kki可以制作dataflow了，有了ga和publihser数据。myhabeatsremarketingaudience遇到困难。感
强化学习分类 0penuel0
Model-free:Qlearning,Sarsa,PolicyGradientsModel-based:能通过想象来预判断接下来将要发生的所有情况.然后选择这些想象情况中最好的那种基于概率：PolicyGradients基于价值：Qlearning,Sarsa两者融合：Actor-Critic回合更新：Monte-carlolearning，基础版的policygradients单步更新：Ql
机器学习100天-Day2503 Tensorboard 训练数据可视化（线性回归）我的昵称违规了
首页.jpg源代码来自莫烦python(https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/4-1-tensorboard1/)今日重点读懂教程中代码，手动重写一遍，在浏览器中获取到训练数据Tensorboard是一个神经网络可视化工具，通过使用本地服务器在浏览器上查看神经网络训练日志，生成相应的可是画图，帮助炼丹师
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round