friedrichor

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）

文章目录

前言
0 摘要
1 Introduction and Motivating Work
2 Approach
- 2.0 模型整体结构
- 2.1 数据集
- 2.2 选择一种高效的预训练方法
- 2.3 模型选择与缩放
- 2.4 训练
3 实验
- 3.1 zero-shot 迁移
- - 3.1.1 与 Visual N-grams 对比
  - 3.1.2 Prompt Engineering and Ensembling
  - 3.1.3 zero-shot CLIP 性能分析
- 3.2 特征学习
4 Comparison to Human Performance
5 数据重叠分析
6 Limitations
7 结论

前言

多模态模型：CLIP
论文标题：Learning Transferable Visual Models From Natural Language Supervision
论文网址：https://arxiv.org/abs/2103.00020
源码网址：https://github.com/OpenAI/CLIP

备注：本文内容顺序与原论文并不完全一致，是对于该论文的精读与总结，如需更多细节请参考原论文。

CLIP 的方法很简单，但效果却意外的好。CLIP 的迁移能力是非常强的，预训练好的模型能够在任意一个视觉分类的数据集上取得不错的效果，而且最重要的是它是 zero-shot 的，即完全没有在这些数据集上做训练就能得到这么高的性能。作者做了很多实验，在30多个数据集上做了测试，涵盖的面也很广，包括 OCR、视频动作检测、坐标定位、多种类型的细分类任务。CLIP 在不使用 ImageNet 训练集的情况下，也就是不使用 ImageNet 中128万张图片中的任意一张进行训练的情况下，直接 zero-shot 推理，就能获得和之前有监督训练好的 ResNet50 取得同样的效果。

CLIP 最大的贡献就是打破了之前固定种类标签的范式，无论是在收集数据集时，还是在训练模型时，都不需要像 ImageNet 那样做 1000 个类，直接搜集图片和文本的配对就行，然后去预测相似性。在收集数据、训练、推理时都更方便了，甚至可以 zero-shot 去做各种各样的分类任务。

CLIP 打破了之前固定种类标签的方法彻底解除了视觉模型的固有训练过程，引发了一大批后续工作。作者做了大量实验，在许多数据集上 CLIP 的效果都很好，泛化能力也很强，甚至在一些领域比人类的 zero-shot 性能还好。CLIP 用一个模型就能解决大部分的分类任务，而且是 zero-shot 的方式，更何况只要利用好 CLIP 训练好的模型，再在其他领域里稍微适配一下，就能也很好的完成其他领域的任务。CLIP 的灵活性和高效性令人瞩目。

0 摘要

SOTA计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和适用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从有关图像的原始文本中学习是一个很有希望的替代方案，它利用了更广泛的监督来源。

作者证明了用一个非常简单的预训练任务就可以非常高效的且可扩展的去学习一些最好的图像表征，其中这个任务就是给定一些图片和一些句子，模型需要去判断哪一个句子（标题）与哪一个图像是配对的。使用的数据集是从网上收集的4亿个图像-文本对儿，有了这么大的数据集之后就可以选择一种自监督的训练方式去预训练一个大模型出来了（CLIP 使用的是对比学习，对比学习有的文章称为自监督，有的文章称为无监督）。

预训练之后，自然语言就被用来去引导视觉模型去做物体的分类（CLIP 用的是 prompt，下文有讲），分类也不局限于已经学过的视觉概念（即类别），也可以扩展到新的视觉概念，从而使预训练好的模型能够直接在下游任务上做 zero-shot 推理。

为了证明模型的有效性，作者在30多个不同的计算机视觉任务和数据集上做了测试，包含了诸如 OCR、视频动作检测、坐标定位和许多类型的细粒度目标分类等任务。 CLIP 对于大多数任务都是非常好的，在不需要任何数据集的专门训练的情况下，能与完全用有监督方式训练出来的模型取得同样效果，甚至还会更高。例如，CLIP 在不使用 ImageNet 那128万个训练集的情况下，就跟一个有监督训练好的 ResNet50 打成平手。

1 Introduction and Motivating Work

在过去的几年里，直接从原始文本中去预训练模型，在 NLP 领域中产生了革命性的成功（如BERT，GPT，T5 等）。无论是使用自回归预测的方式，还是使用掩码”完形填空“的方式，都是一种自监督的训练方式，所以它们的目标函数都是与下游任务无关的，只是想通过预训练得到一个比较好的、泛化能力强的特征，随着计算资源的增多、模型的变大、数据变得更多，模型的能力也会得到稳健的提升。这种其实都是 “text-to-text”（文字进文字出），并不是再做分类任务，它的这种模型架构也是与下游任务无关的。所以直接用在这种下游任务上时，就不需要专门去研究一个针对那个任务或数据集的输出头和一些特殊处理。像 GPT-3 这样的模型现在在许多任务中具有竞争力，在大多数任务上，它几乎不需要特定领域的训练数据就可以和之前精心设计过的那些网络取得差不多的结果。

这些结果表明，在这种 “text-to-text” 利用自监督的方法去训练整个模型的框架下，大规模的没有标注的数据要比那些手工标注的、质量非常高的数据集反而要更有效。然而，在 CV 等其它领域，一般的做法还是在 ImageNet 这种数据集上去训练一个模型，这样会使训练好的模型有诸多限制。那么 NLP 里的这套框架是否能用在 CV 里呢？从先前的工作看起来是可以的。

本文主要是与 Learning Visual N-Grams from Web Data （2017年）的工作比较相似，他们都做了 zero-shot 的迁移学习，但当时 Transformer 还未提出，也没有大规模的且质量较好的数据集，因此17年的这篇论文的效果并不是很好。有了 Transformer、对比学习、”完形填空“ 等强大的自监督训练方式后，最近也有一些工作尝试把图片和文本结合起来，去学得更好的特征，如 VirTex，ICMLM，ConVIRT，这些工作与 CLIP 很相似，但也有所区别，VirTex使用自回归的预测方式做模型的预训练；ICMLM使用 ”完形填空“ 的方法做预训练；ConVIRT 与 CLIP 很相似，但只在医学影像上做了实验。这三种方法都没有在模型或数据集上使用很大的规模。

VirTex：VirTex: Learning Visual Representations from Textual Annotations
ICMLM：Learning Visual Representations with Caption Annotations
ConVIRT：Contrastive Learning of Medical Visual Representations from Paired Images and Text

模型方面，作者在视觉方面尝试了8个模型，从 ResNet 到 ViT，其中最小的模型和最大的模型的计算量相差了大概100倍。作者发现迁移学习的效果跟模型的大小基本上成正相关。

为了证明 CLIP 的泛化性能，作者测试了30多个数据集，在这些数据集上，CLIP 一般都能和之前精心设计的那些有监督训练好的模型取得同样的效果，甚至更好。作者为了进一步验证 CLIP 学到的模型特征的有效性，暂时先不做 zero-shot，而是去做 linear-probe，即预训练模型训练好之后就把参数冻住，整个 backbone 就不变了，只是从模型里面去抽特征，然后训练最后一层的分类头去做分类任务，在这种情况下，CLIP 也比之前在 ImageNet 训练出来的最好的模型效果要好，而且计算也更加高效。zero-shot CLIP 模型也更加的稳健，当 CLIP 的模型效果与有监督训练好的模型在 ImageNet 上的性能效果持平时，CLIP 的泛化性能也更好。

2 Approach

CLIP 方法的核心就是利用自然语言的监督信号来训练一个比较好的视觉模型。

为什么要用自然语言的监督信号来训练视觉模型？

不需要再去标注这些数据了。像 ImageNet 需要先定好 1000 个类，而这 1000 各类也需要之前筛选选好，根据这些类去下载图片，再清理数据集，然后标注，这个过程比较复杂。如果只需要下载图片-文本对儿，别的标注都不需要做，那么数据的规模很容易就变大，而且现在的监督信号是一个文本，而不是这种 N 选 1 的标签，模型的输入输出自由度就大了很多。
因为训练时把图片和文本绑定到一起，那么训练的特征就不再仅是一个视觉特征了，而是一个多模态的特征，也就很容易去做 zero-shot 的迁移学习。如果只是做单模态的自监督学习，无论是单模态的对比学习（如MOCO），还是单模态的掩码学习（如MAE），都只能学到视觉特征，而无法与自然语言联系到一起，这样还是很难做 zero-shot 迁移。

总之，用自然语言的监督信号来训练视觉模型是非常有潜力的。

2.0 模型整体结构

(1) Contrastive pre-training

模型的输入是若干个图像-文本对儿（如图最上面的数据中图像是一个小狗，文本是 ”Pepper the aussie pup”）。
图像部分：图像通过一个 Image Encoder 得到一些特征，这个 encoder 既可以是 ResNet，也可以是 Vision Transformer。假设每个 training batch 都有 N 个图像-文本对儿，那么就会得到 N 个图像的特征（如图 $I_1,I_2,…,I_N$ ）。
文本部分：文本通过一个 Text Encoder 得到一些文本的特征。同样假设每个 training batch 都有 N 个图像-文本对儿，那么就会得到N 个文本的特征（如图 $T_1,T_2,…,T_N$ ）。

CLIP 就是在以上这些特征上去做对比学习，对比学习非常灵活，只需要正样本和负样本的定义，其它都是正常套路。这里配对的图像-文本对儿就是正样本（即下图中对角线（蓝色）部分， $I_1·T_1,I_2·T2,…, I_N·T_N$ ），配对的图像和文本所描述的是同一个东西，那么矩阵中剩下的所有不是对角线上的元素（图中白色部分）就是负样本了。因此，有 $N$ 个正样本， $N^2-N$ 个负样本。有了正、负样本后，模型就可以通过对比学习的方式去训练，不需要任何手工的标注。对于这种无监督的预训练方式，如对比学习，是需要大量数据的，OpenAI专门去收集了这么一个数据集，其中有4亿个图像-文本对儿，且数据清理的比较好，质量比较高，这也是CLIP如此强大的主要原因之一。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第4张图片

(2) Create dataset classiﬁer from label text

CLIP 经过预训练后只能得到视觉上和文本上的特征，并没有在任何分类的任务上去做继续的训练或微调，所以它没有分类头，那么 CLIP 是如何做推理的呢？

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第5张图片

作者提出 prompt template：以 ImageNet 为例，CLIP 先把 ImageNet 这1000个类（如图中"plane", “car”, “dog”, …, “brid”）变成一个句子，也就是将这些类别去替代 “A photo of a {object}” 中的 “{object}” ，以 “plane” 类为例，它就变成"A photo of a plane"，那么 ImageNet 里的1000个类别就都在这里生成了1000个句子，然后通过先前预训练好的 Text Encoder 就会得到1000个文本的特征。

其实如果直接用单词（“plane”, “car”, “dog”, …, “brid”）直接去抽取文本特征也是可以的，但是因为在模型预训练时，与图像对应的都是句子，如果在推理的时候，把所有的文本都变成了单词，那这样就跟训练时看到的文本不太一样了，所以效果就会有所下降。此外，在推理时如何将单词变成句子也是有讲究的，作者也提出了 prompt engineering 和 prompt ensemble，而且不需要重新训练模型。

(3) Use for zero-shot prediction

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第6张图片

在推理时，无论来了任何一张图片，只要把这张图片扔给 Image Encoder，得到图像特征（绿色框， $I_1$ ）后，就拿这个图片特征去跟所有的文本特征（紫色框， $T_1,T_2,…,T_N$ ）去做 cosine similarity（余弦相似度）计算相似度（ $I_1·T_1,I_1·T2, I_1·T3,…, I_1·T_N$ ），来看这张图片与哪个文本最相似，就把这个文本特征所对应的句子挑出来，从而完成这个分类任务。

在实际应用中，这个类别的标签也是可以改的，不必非得是 ImageNet 中的1000个类，可以换成任何的单词；这个图片也不需要是 ImageNet 的图片，也可以是任何的图片，依旧可以通过算相似度来判断这图中含有哪些物体。即使这个类别标签是没有经过训练的，只要图片中有某个物体也是有很大概率判断出来的，这就是 zero-shot。但如果像之前的那些方法，严格按照1000个类去训练分类头，那么模型就只能判断出这1000个类，这1000个类之外的所有内容都将判断不出来。

CLIP 彻底摆脱了 categorical label 的限制，无论在训练时，还是在推理时，都不需要有这么一个提前定好的标签列表，任意给出一张图片，都可以通过给模型不同的文本句子，从而知道这张图片里有没有我想要的物体。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第7张图片

CLIP 把视觉的语义和文字的语义联系到了一起，学到的特征语义性非常强，迁移的效果也非常好。如图左侧部分是在 ImageNet 上训练好的 ResNet101，右侧是 CLIP 训练出的 ViT-L，在 ImageNet 上 ResNet 和 CLIP 效果相同，但在 ImageNetV2、ImageNet-R、ObjectNet、ImageNet Sketch、ImageNet-A上，ResNet 的性能明显就不行了，迁移的效果惨目忍睹，但对于 CLIP 来说，它的效果始终都非常好。这也说明了 CLIP 因为和自然语言处理的结合，导致 CLIP 学出来的视觉特征和我们用语言所描述的某个物体产生了强烈的联系。

2.1 数据集

现有工作主要使用了三个数据集，MS-COCO、Visual Genome 和 YFCC100M。虽然 MS-COCO 和 Visual Genome 的标注，但是数据量太少了，每个都有大约10万张训练照片。相比之下，其他计算机视觉系统是在多达35亿张 Instagram 图片上训练的。拥有1亿张照片的 YFCC100M 是一个可能的替代方案，但标注质量比较差，每个图像配对的文本信息都是自动生成的，许多图片使用自动生成的文件名，如 20160716113957.jpg 作为 “标题” 或包含相机曝光设置的 “说明”（反正就是和图片的信息是不匹配的）。如果对 YFCC100M 进行清洗，只保留带有自然语言标题或英文描述的图像，数据集缩小了6倍，大概只有1500万张照片，这个规模就与与ImageNet的大小大致相同。 CLIP 使用的数据集是 OpenAI 新收集的一个数据集，称为 WIT（WebImageText）。

2.2 选择一种高效的预训练方法

首先作者尝试了一个跟 VirTex 的工作非常相似的方法，即图像这边使用卷积神经网络，然后文本方面用 Transformer，都是从头开始训练的，任务就是给定一张图片，要去预测这张图片所对应的文本，即caption。

为什么使用对比学习？
如果给定一张图片，然后去预测它对应的文本的话，需要逐字逐句地去预测这个文本，那么这个任务就太难了，因为对于一张图片来说，可以有很多不同的描述，文本之间的差距将是非常巨大的。如果用这种预测型的任务去预训练模型的话，它就会有太多的可能性了，那么这个模型训练的就非常慢。
作者发现如果把训练任务变成对比的任务，也就是说只需要判断这个图片和这个文本是不是配对的，那么这个任务就简单了很多，约束一下就放宽了很多。在 Figure 2中仅仅把预测型的目标函数换成对比型的目标函数，训练效率一下就提高了4倍。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第8张图片

Figure 2. CLIP is much more efﬁcient at zero-shot transfer than our image caption baseline. Although highly expressive, we found that transformer-based language models are relatively weak at zero-shot ImageNet classiﬁcation. Here, we see that it learns 3x slower than a baseline which predicts a bag-of-words(BoW) encoding of the text. Swapping the prediction objective for the contrastive objective of CLIP further improves efﬁciency another 4x.

如图 Figure 2，蓝线部分就是基于 Transformer 做预测型任务（如 GPT）的训练效率；橘黄色线是使用 BOW 的方式做预测任务，也就是说不需要逐字逐句地去预测文本，文本已经被全局化地抽成了一些特征，约束也就放宽了，可以看到约束放宽以后训练效率提高了三倍；如果进一步放宽约束，即不在去预测单词，只是判断图片和文本是否匹配（图中绿线），这个效率又进一步提高了4倍。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第9张图片

Figure 3. Numpy-like pseudocode for the core of an implementation of CLIP.

如图 Figure 3，是对应 Figure 1 模型总体结构的伪代码：

图像的输入 $I [n, h, w, c]$ ，文本的输入 $T [n, l]$ ，其中 $n$ 就是 batch size， $l$ 是序列长度。
图像和文本的输入分别通过 Image Encoder 和 Text Encoder 得到图像和文本的特征 $I_f,T_f$ ，其中 Image Encoder 可以是 ResNet 或 Vision Transformer，Text Encoder 可以是 CBOW 或 Text Transformer。
在得到 $I_f$ 和 $T_f$ 后，这里还有一个投射层 $W_i,W_t$ ，用来学习如何从单模态变成多模态，然后再做 L2 归一化，就得到了用来对比学习的特征 $I_e,T_e$ 。
有了 $n$ 个图像的特征和 $n$ 个文本的特征之后，接下来就计算 cosine similarity，算得的相似度也就是用来做分类的 $l o g i t s$ 。
然后 $l o g i t s$ 和 ground truth 的 $l ab e l s$ 计算交叉熵损失， $loss_i,loss_t$ 分别是 Image 和 Text 的 loss，最后求平均就得到了 $l oss$ 。

因为使用的数据集太大了，模型不太会有过拟合（over-fitting）的问题，所以他们的实现就比之前的工作要简单很多。同时也因为数据集很大，也不需要做太多的数据增强，作者唯一使用的数据增强就是随机裁剪。

在训练 CLIP 时，Image Encoder 和 Text Encoder 都不需要提前进行预训练的。最后做投射时，并没有用非线性的投射层（non-linear projection），而是使用线性的投射层（linear projection）。对于以往的对比学习（如SimCLR，MOCO）用非线性的投射层会比用线性的投射层带来将近10个点的性能提升，但作者说在多模态的预训练过程中线性与非线性差别不大，他们认为非线性的投射层应该只是用来适配纯图片的单模态学习。

因为 CLIP 模型太大了，数据集也太大了，训练起来太耗时，所以不太好做调参的工作，所以在算对比学习的目标函数时，将 temperature 设置为可学习的 log-parametized 乘法标量（以往的对比学习中 temperature 是个非常重要的超参数，稍微调整就会使最后的性能发生很大的改变），temperature 在模型训练时被优化了，而不需要当成一个超参数再去调参。

2.3 模型选择与缩放

在视觉方面，模型既可以选择 ResNet，也可以是 ViT，文本上基本就是 Transformer，模型的选择都是很常规的，只有很小的改动，但这些改动都是为了训练的更高效、性能更好。

2.4 训练

在视觉方面，作者一共训练了 8 个模型，5 个 ResNets 和 3 个 Vision Transformers：

对于 ResNets，作者训练一个Resnet50、一个ResNet101，然后再训练三个Resnet50：它们根据EfficientNet的方式，把模型里的 channel 宽度、模型深度和模型大小做了调整，得到了三个 ResNet 的变体，即RN50x4、RN50x16 和 RN50x64，计算量分别是 ResNet 的 4、16、64 倍。
对于 Vision Transformers，作者尝试了 ViT-B/32，ViT-B/16 和 ViT-L/14（其中 32、16、14都是 patch 的大小）。

对于所有的模型，都训练 32 epochs，且使用 Adam优化器。对于所有超参数，作者简单的做了一些 Grid Search，Random Search 和手动调整，为了调参快一些，都是基于其中最小的 ResNet50 去做的且只训练 1 epoch，对于更大的模型作者就没有进行调参了。

训练时作者使用的 batch size 为 32768，很显然模型训练是在很多机器上起做分布式训练。同时也用到了混精度训练，不仅能加速训练，而且能省内存。此外作者也做了很多其他省内存的工作。

对于最大的 ResNet 来说，即上文中的RN50x64，在 592 个 V100 的GPU上训练了18天；而对于最大的 ViT 来说，在 256 个 V100 GPU 上训练只花了 12 天。证实了训练一个 ViT 是要比训练一个 ResNet 更高效的。因为 ViT-L/14 的效果最好，作者又拿与训练好的 ViT-L/14 再在数据集上 fine-tune 了 1 epoch，而且用了更大的图片（336×336），这种在更大尺寸上 fine-tune 从而获得性能提升的思路来自于 Fixing the train-test resolution discrepancy，最后这个模型就称为 ViT-L/14@336px。如无特殊指明，本文中所有 “CLIP” 结果都使用了我们发现效果最好的这个模型（ViT-L/14@336px）。

3 实验

3.1 zero-shot 迁移

3.1.1 与 Visual N-grams 对比

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第10张图片

Visual N-grams 首次以上述方式研究了 zero-shot 向现有图像分类数据集的迁移。如 Table1 所示，作者做了与之前最相似的工作 Visual N-grams 的对比，Visual N-grams 在 ImageNet 的效果只有 11.5% 的准确率，而 CLIP 能达到 76.2%，CLIP 在完全没有用任何一张那128万张训练图片的情况下，直接 zero-shot 迁移就与原始的 ResNet50 打成平手。

3.1.2 Prompt Engineering and Ensembling

prompt 主要是在做 fine-tune 或做推理时的一种方法，而不是在预训练阶段，所以不需要那么多的计算资源，并且效果也很好。prompt 指的是提示，即文本的引导作用。

为什么需要做 Prompt Engineering and Prompt Ensembling？

polysemy（一词多义）：如果在做文本和图片匹配的时候，每次只用标签对应的那 一个单词 去做文本上的特征抽取，那么很容易遇到这种问题。例如在 ImageNet 中，同时包含两个类，一类是 “construction crane”，一类是 “crane”，在相应的语境下这两个 “crane” 的意义是不一样的，在建筑工地的环境下指的是“起重机”，作为动物又指的是“鹤”，这时就有歧义性。当然别的数据集也有这种问题，如 Oxford-IIIT Pet，有一类叫 boxer，这里指的是狗的一种类别，但对于文本编码器来说它就可能翻译成“拳击手”，那这样提取特征就是不对的。总之，如果只是单独一个单词去做 prompt，那么很容易出现歧义性的问题。
做预训练时，匹配的文本一般都是一个句子，很少是一个单词。如果推理时传进来的是一个单词的话，很容易出现 distribution gap，提取的特征可能不是很好。

基于以上两种问题作者提出了 prompt template（提示模板），“A photo of a { label }”。首先所有的标签都变成了一个句子，就不容易出现 distribution gap。而且 label 也一般都是名词，也能减少歧义性的问题。使用 prompt template 后准确率提升了 1.3%。

Prompt Engineering 不只给出这么一个提示模板，作者发现如果提前知道一些信息，这样对 zero-shot 的推理是很有帮助的。假如现在做的事 Oxford-IIIT Pet 这个数据集，这里面的类别一定是宠物，那么提示模板可以变为 “A photo of a { label }, a type of pet.”，把解空间缩小了很多，很容易得到正确的答案。当对于 OCR（文字识别）数据集来说，如果在想找的文本上添加双引号，那么模型也是更容易找到答案。

Prompt Ensembling：使用多个提示模版，做多次推理，最后再把结果结合起来，一般都会取得更好的结果。在源码 CLIP/notebooks/Prompt_Engineering_for_ImageNet.ipynb 文件中，这里提供了 80 种提示模板，以便适用于不同的图片。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第11张图片

3.1.3 zero-shot CLIP 性能分析

Figure 5.

作者在 27 个数据集上衡量了 CLIP 做 zero-shot 迁移的效果，如图 Figure 5，比较的双方分别是做 zero-shot 的 CLIP 和在 ResNet50 上做 linear probe（linear probe：把预训练好的模型中的参数冻结，只从里面去提取特征，然后只训练最后一层即 FC 分类头层）。这个 ResNet 是在 ImageNet 有监督训练好的模型，从中去抽特征，然后在下游任务中去添加新的分类头，在新的分类头上做 linear probe 的微调。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第12张图片

Figure 5. Zero-shot CLIP is competitive with a fully supervised baseline. Across a 27 dataset eval suite, a zero-shot CLIP classiﬁer outperforms a fully supervised linear classiﬁer ﬁtted on ResNet-50 features on 16 datasets, including ImageNet.

图中绿色部分就是 CLIP 优于 ResNet50 的，蓝色部分就是劣于 ResNet50 的。zero-shot CLIP 在 16 个数据集上都取得不错的效果，这种普通的对物体进行分类的数据集来说 CLIP 的表现都比较好。但一些难的数据集，如 DTD（对纹理进行分类），CLEVRCounts（对图片中物体计数），对于 CLIP 就很难，而且很抽象，先前训练时也没有这种相关标签，所以 CLIP 在这些数据集上表现得不好。对于这种特别难的任务如果只做 zero-shot 不太合理，更适合去做 few-shot 的迁移，对于这种需要特定领域知识的任务（如肿瘤分类等）即是对于人类来说没有先验知识也是很难得。

Figure 6.

作者对 zero-shot CLIP，few-shot CLIP 和之前 few-shot 的一些方法（预训练好冻结参数，然后做 linear probe，在下游任务数据集上进行训练）做了一些比较。这里 CLIP 的 few-shot 是将 Image Encoder 的参数冻结，然后做 linear probe。

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第13张图片

Figure 6. Zero-shot CLIP outperforms few-shot linear probes. Zero-shot CLIP matches the average performance of a 4-shot linear classiﬁer trained on the same feature space and nearly matches the best results of a 16-shot linear classiﬁer across publicly available models. For both BiT-M and SimCLRv2, the best performing model is highlighted. Light gray lines are other models in the eval suite. The 20 datasets with at least 16 examples per class were used in this analysis.

Figure 6 横坐标是数据集中每一个类别里用了多少训练样本，0 的话就是 zero-shot 了，其他方法因为没有和自然语言的结合无法做 zero-shot，最低也得从 one-shot 开始。

纵坐标是平均准确度，是在 20 个数据集上取的平均（来源于 Figure 5 中的27 个数据集，其中有 7 个数据集的部分类别训练样本不足 16 个，无法满足横坐标要求，因此舍弃了）。

BiT（Big Transfer）主要为迁移学习量身定做，是 few-shot 迁移学习表现最好的工作之一。而 zero-shot CLIP 直接就和最好的 BiT 持平。如图紫色曲线，当每个类别仅仅用1、2、4个训练样本时还不如 zero-shot 的效果，这也证明了用文本来引导多模态学习是多么的强大。随着训练样本的增多， few-shot CLIP 的效果是最好的，不仅超越了之前的方法，也超越了 zero-shot CLIP。

3.2 特征学习

这里作者讨论了下游任务用全部数据，CLIP 的效果会如何。特征学习一般都是先预训练一个模型，然后在下游任务上用全部的数据做微调。这里在下游任务上用全部数据就可以和之前的特征学习方法做公平对比了。

衡量模型的性能最常见的两种方式就是通过 linear probe 或 fine-tune 后衡量其在各种数据集上的性能。linear probe 就是把预训练好的模型参数冻结，然后在上面训练一个分类头；fine-tune 就是把整个网络参数都放开，直接去做 end-to-end 的学习。fine-tune 一般是更灵活的，而且在下游数据集比较大时，fine-tune往往比 linear probe 的效果要好很多。

但本文作者选用了 linear probe，因为 CLIP 的工作就是用来研究这种跟数据集无关的预训练方式，如果下游数据集足够大，整个网络都放开再在数据集上做 fine-tune 的话，就无法分别预训练的模型到底好不好了（有可能预训练的模型并不好，但是在 fine-tune 的过程中经过不断的优化，导致最后的效果也很好）。而 linear probe 这种用线性分类头的方式，就不太灵活，整个网络大部分都是冻住的，只有最后一层 FC 层是可以训练的，可学习的空间比较小，如果预训练的模型不太好的话，即使在下游任务上训练很久，也很难优化到特别好的结果，所以更能反映出预训练模型的好坏。此外，作者选用 linear probe 的另一个原因就是不怎么需要调参，CLIP 调参的话太耗费资源了，如果做 fine-tune 就有太多可做的调参和设计方案了。

Figure 10.

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第14张图片

Figure 10. Linear probe performance of CLIP models in comparison with state-of-the-art computer vision models, including EfﬁcientNet, MoCo, Instagram-pretrained ResNeXt models, BiT, ViT, SimCLRv2, BYOL, and the original ResNet models. (Left) Scores are averaged over 12 datasets studied by Kornblith et al. (2019). (Right) Scores are averaged over 27 datasets that contain a wider variety of distributions. Dotted lines indicate models ﬁne-tuned or evaluated on images at a higher-resolution than pre-training. See Table 10 for individual scores and Figure 20 for plots for each dataset.

如 Figure 10 右图所示，是在先前提到的那 27 个数据集进行比较，CLIP（实心、空心红色五角星）比所有的其他模型都要好，不光是上文中讲过的 zero-shot 和 few-shot，现在用全部的数据去做训练时 CLIP 依然比其他模型强得多。

如 Figure 10 左图所示，之前有工作提出了这 12 个数据集的集合，很多人都是在这些数据集上做的比较，CLIP-ViT 的效果是很好的，但是 CLIP-ResNet 就要比别的方法差了。但是这 12 个数据集的集合和 ImageNet 的关系很大，如果模型之前在 ImageNet 做过有监督的预训练，那么效果肯定是更好的，因此 CLIP-ResNet 并没有那么好也是可以理解的。

Figure 11.

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第15张图片

Figure 11. CLIP’s features outperform the features of the best ImageNet model on a wide variety of datasets. Fitting a linear classiﬁer on CLIP’s features outperforms using the Noisy Student EfﬁcientNet-L2 on 21 out of 27 datasets.

随后作者又将 CLIP 与之前在 ImageNet 上表现最好的模型 EfficientNet L2 NS（最大的 EfficientNet 并使用为标签的方式训练）进行对比。在 27 个数据集中，CLIP 在其中 21 个数据集都超过了 EfficientNet，而且很多数据集都是大比分超过，少部分数据集也仅仅是比 EfficientNet 稍低一点点。

Figure 13.

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第16张图片

4 Comparison to Human Performance

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第17张图片

Table 2. Comparison of human performance on Oxford IIT Pets. As in Parkhi et al. (2012), the metric is average per-class classiﬁcation accuracy. Most of the gain in performance when going from the human zero shot case to the human one shot case is on images that participants were highly uncertain on. “Guesses” refers to restricting the dataset to where participants selected an answer other than “I don’t know”, the “majority vote” is taking the most frequent (exclusive of ties) answer per image.

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）_第18张图片

Figure 16. The hardest problems for CLIP also tend to be the hardest problems for humans. Here we rank image categories by difﬁculty for CLIP as measured as probability of the correct label.

5 数据重叠分析

为了分析是否是因为本文使用的数据集与其他的数据集之间有重叠而导致模型的性能比较好，作者在这部分做了一些去重的实验，最后的结论还是 CLIP 本身的泛化性能比较好。

6 Limitations

(1) CLIP 在很多数据集上平均来看都能和普通的 baseline 模型（即在 ImageNet 训练的 ResNet50）打成平手，但是在大多数数据集上，ResNet50 并不是 SOTA，与最好的模型比还是有所差距的，CLIP 很强，但又不是特别强。实验表明，如果加大数据集，也加大模型的话，CLIP 的性能还能继续提高，但如果想把各个数据集上的 SOTA 的差距弥补上的话，作者预估还需要在现在训练 CLIP 的计算量的基础上的 1000 倍，这个硬件条件很难满足。如果想要 CLIP 在各个数据集上都达到 SOTA 的效果，必须要有新的方法在计算和数据的效率上有进一步的提高。

(2) zero-shot CLIP 在某些数据集上表现也并不好，在一些细分类任务上，CLIP 的性能低于 ResNet50。同时 CLIP 也无法处理抽象的概念，也无法做一些更难的任务（如统计某个物体的个数）。作者认为还有很多很多任务，CLIP 的 zero-shot 表现接近于瞎猜。

(3) CLIP 虽然泛化能力强，在许多自然图像上还是很稳健的，但是如果在做推理时，这个数据与训练的数据差别非常大，即 out-of-distribution，那么 CLIP 的泛化能力也很差。比如，CLIP 在 MNIST 的手写数字上只达到88%的准确率，一个简单的逻辑回归的 baseline 都能超过 zero-shot CLIP。语义检索和近重复最近邻检索都验证了在我们的预训练数据集中几乎没有与MNIST数字相似的图像。这表明CLIP在解决深度学习模型的脆弱泛化这一潜在问题上做得很少。相反，CLIP 试图回避这个问题，并希望通过在如此庞大和多样的数据集上进行训练，使所有数据都能有效地分布在分布中。

(4) 虽然 CLIP 可以做 zero-shot 的分类任务，但它还是在你给定的这些类别中去做选择。这是一个很大的限制，与一个真正灵活的方法，如 image captioning，直接生成图像的标题，这样的话一切都是模型在处理。不幸的是，作者发现 image captioning 的 baseline 的计算效率比 CLIP 低得多。一个值得尝试的简单想法是将对比目标函数和生成目标函数联合训练，希望将 CLIP 的高效性和 caption 模型的灵活性结合起来。

(5) CLIP 对数据的利用还不是很高效，如果能够减少数据用量是极好的。将CLIP与自监督（Data-Efficient Image Recognition with Contrastive Predictive Coding；Big Self-Supervised Models are Strong Semi-Supervised Learners）和自训练（Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Network；Self-training with Noisy Student improves ImageNet classification）方法相结合是一个有希望的方向，因为它们证明了比标准监督学习更能提高数据效率。

(6) 在研发 CLIP 的过程中为了做公平的比较，并得到一些回馈，往往是在整个测试的数据集上做测试，尝试了很多变体，调整了很多超参，才定下了这套网络结构和超参数。而在研发中，每次都是用 ImageNet 做指导，这已经无形之中带入了偏见，且不是真正的 zero-shot 的情况，此外也是不断用那 27 个数据集做测试。创建一个新的任务基准，明确用于评估广泛的 zero-shot 迁移能力，而不是重复使用现有的有监督的数据集，将有助于解决这些问题。

(7) 因为数据集都是从网上爬的，这些图片-文本对儿基本是没有经过清洗的，所以最后训练出的 CLIP 就很可能带有社会上的偏见，比如性别、肤色、宗教等等。

(8) 虽然我们一直强调，通过自然语言引导图像分类器是一种灵活和通用的接口，但它有自己的局限性。许多复杂的任务和视觉概念可能很难仅仅通过文本来指导，即使用语言也无法描述。不可否认，实际的训练示例是有用的，但 CLIP 并没有直接优化 few-shot 的性能。在作者的工作中，我们回到在CLIP特征上拟合线性分类器。当从 zero-shot 转换到设置 few-shot 时，当 one-shot、two-shot、four-shot 时反而不如 zero-shot，不提供训练样本时反而比提供少量训练样本时查了，这与人类的表现明显不同，人类的表现显示了从 zero-shot 到 one-shot 大幅增加。今后需要开展工作，让 CLIP 既在 zero-shot 表现很好，也能在 few-shot 表现很好。

7 结论

作者的研究动机就是在 NLP 领域利用大规模数据去预训练模型，而且用这种跟下游任务无关的训练方式，NLP 那边取得了非常革命性的成功，比如 GPT-3。作者希望把 NLP 中的这种成功应用到其他领域，如视觉领域。作者发现在视觉中用了这一套思路之后确实效果也不错，并讨论了这一研究路线的社会影响力。在预训练时 CLIP 使用了对比学习，利用文本的提示去做 zero-shot 迁移学习。在大规模数据集和大模型的双向加持下，CLIP 的性能可以与特定任务的有监督训练出来的模型竞争，同时也有很大的改进空间。

你可能感兴趣的:(多模态,深度学习,计算机视觉,人工智能,nlp)

3D UNet和Swin-UNETR 学無芷境计算机视觉
3DUNet和Swin-UNETR都是用于医学图像分析的深度学习网络，它们对三维（3D）数据进行特征提取和分割。3DUNet3DUNet是UNet架构的一个变体，专门设计用于处理三维医学图像数据。UNet最初是为二维（2D）图像分割任务设计的，具有典型的编码器-解码器结构。3DUNet扩展了这种架构，以便更好地处理具有深度信息的体积数据，如CT或MRI扫描。主要特点：编码器：逐渐下采样图像，提取并
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
通过Java代码实现图片的放大和缩小
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
锐捷路由器网关RG-NBR6135-E和锐捷交换机 Ruijie Reyee RG-ES224GC 电脑登录web方法 zh7314 硬件工程
2025年1月17日22:29:35最近淘了点东西，准备在家里搞一套深度学习的服务器，先把网关和交换机搞到了锐捷路由器网关RG-NBR6135-E电脑登录web方法在拿到机器的时候，如果不是全新建议拿根牙签，差入reset5-10秒,灯光会全部闪几下，重置机器，因为有些机器会配置的ip和网段无法访问默认的web服务ip，在机器上面的默认配置单配置参考：https://baijiahao.baidu
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
基于生成式人工智能的网联自动驾驶：通感融合决策技术罗伯特之技术屋行业信息处理技术与政策研究专栏人工智能自动驾驶机器学习
【摘要】探讨了生成式人工智能在网联自动驾驶技术中的潜在价值。现有研究主要侧重于传统感知决策和车联网技术，但却忽视了生成式人工智能在推动自动驾驶方面的重要作用。首先讨论了生成式人工智能技术如何提高自动驾驶决策、训练、感知和导航等模块的性能，接着探讨了其在融合了语义通信、通感一体和新型空口技术的下一代车联网中的角色，然后提出了基于人工智能代理的网联自动驾驶模型，最后强调生成式人工智能是实现车辆高级别自
人工智能英语学习笔记「已注销」
基础篇单词mythologyn.ancientmythsingeneral;ideasthatmanypeoplethinkaretruebutthatdonotexistorarefalse神话Examples:AsatyrishalfmanandhalfgoatinGreekandRomanmythology.在希腊和罗马神话中，森林之神是半人半羊的样子。Thishasbeenwellillu
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
从小白到高手：人工智能学习中的挑战与突破博雅智信人工智能深度学习机器学习 python 大语言模型
引言：人工智能学习之路充满挑战学习过程中常见的问题与困境环境安装与配置问题简单报错反复调试，时间浪费大学习进度慢，难以找到合适的方向网上资料过多，选择困难导师催进度，任务压力大不敢多问：与同事、师兄师姐的尴尬理论与实践脱节，缺乏实战经验专注力不足，容易被干扰找一个师傅带着的好处高效解决问题，避免走弯路个性化学习路线与系统化知识框架实战经验的传授与导师的成长指导1.引言：人工智能学习之路充满挑战人工
文秘要学计算机吗,高考志愿：计算机专业和文秘专业哪个适合女生？ weixin_39707851 文秘要学计算机吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
计算机专业毕业可以做文秘吗,高考志愿：计算机专业和文秘专业哪个适合女生？... ShuYini 计算机专业毕业可以做文秘吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
Python学习路线 Python_JC python
Python是一门易学易用的编程语言，广泛应用于数据处理、Web开发、人工智能、自动化运维、游戏开发等领域。本篇文章将介绍Python的学习路线以及一些值得参考的书籍。Python学习路线Python的学习路线主要包括以下几个方面：掌握Python基础知识：了解变量、数据类型、表达式、流程控制、函数、模块等基础概念。学习Python面向对象编程：学习类、对象、继承、多态等面向对象编程的概念和技术。
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
人工智能领域单词：英文解释周杰伦_Jay 人工智能深度学习神经网络中文分词全文检索
目录1、前言2、单词组1：15个3、单词组2：15个4、单词组3：15个5、单词组4：15个6、单词组5：15个1、前言亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：[email protected]、单词组1：15个1、人工智能(ArtificialIntelligence,AI):atechnologythatsi
华为CANN架构与Ascend C算子开发 z1931195 华为
CANN架构CANN（ComputeArchitectureforNeuralNetworks）是华为专为应对人工智能场景而推出的一种新型异构计算架构。在当前快速发展的AI技术背景下，CANN致力于提供一种高效且灵活的解决方案，以支持多种AI框架的应用。其设计不仅仅关注于上层应用的兼容性，同时也服务于底层AI处理器的优化和编程需求，发挥了承上启下的关键作用，成为华为昇腾AI处理器计算效率提升的核心
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
探索极致AI性能：昇腾NPU与PyTorch的完美融合 —— Ascend Extension for PyTorch 尤琦珺Bess
探索极致AI性能：昇腾NPU与PyTorch的完美融合——AscendExtensionforPyTorch去发现同类优质开源项目:https://gitcode.com/项目简介在人工智能领域，高效灵活的框架与强大的硬件加速器是实现先进算法的关键组合。AscendExtensionforPyTorch插件，即torch_npu，正是这样一个解决方案，它无缝对接PyTorch框架，将华为昇腾AI处
深度学习 Pytorch 张量（Tensor）的创建和常用方法白白糖深度学习pytorch python 深度学习 pytorch 人工智能
1张量的基本创建及其类型和Numpy中的array一样，张量的本质也是结构化地组织了大量的数据。并且在实际操作中，张量的创建和基本功能也与其非常类似。1.1张量(Tensor)函数创建方法张量的最基本创建方法和Numpy中创建Array的格式一致。#Numpy创建数组importnumpyasnp#导入numpya=np.array([1,2,3])importtorch#首次使用,导入torch
PyTorch 神经协同过滤 (NCF) 推荐系统教程陌北v1 pytorch python NCF 神经协同过滤
目录教程概述1.神经协同过滤模型概述NCF模型的主要组成部分：2.数据加载与预处理3.定义神经协同过滤模型4.训练模型5.模型评估6.推荐物品7.完整示例8.总结在本教程中，我们将使用PyTorch实现一个神经协同过滤（NeuralCollaborativeFiltering，简称NCF）推荐系统。神经协同过滤是一种基于深度学习的推荐系统模型，通过学习用户和物品的嵌入表示来预测用户对物品的评分，进
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
《盘古大模型——鸿蒙NEXT的智慧引擎》人工智能深度学习
在当今科技飞速发展的时代，华为HarmonyOSNEXT的发布无疑是操作系统领域的一颗重磅炸弹，其将人工智能与操作系统深度融合，开启了智能新时代。而盘古大模型在其中发挥着至关重要的核心作用。赋予小艺智能助手超强能力在鸿蒙NEXT中，盘古大模型赋予了小艺智能助手更强的记忆、推理和规划能力，使其能够支持23类常用记忆类型，掌握万亿token的知识量。基于盘古大模型，小艺可以实现诸如将带有表格的图片转化
《AI 造梦：解锁虚拟场景与角色逼真丰富密码》人工智能深度学习
在科技飞速发展的当下，生成式人工智能正以前所未有的态势席卷各个领域，尤其在构建虚拟世界方面，展现出令人惊叹的潜力。从沉浸式游戏世界到逼真的影视特效场景，从栩栩如生的虚拟偶像到互动性极强的虚拟角色，生成式人工智能正在改写我们对虚拟场景和角色的认知。今天，就让我们深入探寻如何利用这一前沿技术，创造出更加逼真且丰富的虚拟场景与角色。生成式AI技术基石生成式对抗网络（GANs）和变分自编码器（VAEs）是
《鸿蒙微内核与人工智能算法协同，开启智能系统新时代》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统以其独特的微内核架构和对人工智能算法的深度融合，正引领着操作系统智能化的新潮流。本文将深入探讨鸿蒙系统的微内核架构是如何与人工智能算法高效协同，从而提升系统性能和智能化水平的。鸿蒙系统微内核架构的优势鸿蒙系统采用微内核架构，将核心功能模块化，只保留最基本的进程管理、内存管理和通信机制等功能在内核中，而文件系统、网络协议等则作为独立的模块放在用户空间运行。这种架构使
《量子AI：突破量子比特稳定性与容错性的关键瓶颈》人工智能深度学习机器学习
在量子计算的发展进程中，量子比特的稳定性和容错性问题一直是阻碍其走向广泛应用的关键障碍。量子AI作为前沿技术，正积极探索各种途径来攻克这些难题。量子纠错：守护量子比特的精准防线量子纠错是解决量子比特稳定性和容错性问题的核心技术之一。其原理是通过在量子比特之间建立量子纠错码，来检测和纠正量子比特在计算过程中发生的错误。比如谷歌量子人工智能实验室采用的“表面码”技术，通过构建物理量子比特的网格来编码逻
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l