LetheSec

【论文笔记——自监督学习综述】Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

Abstract

Large-scale labeled data are generally required to train deep neural networks in order to obtain better performance in visual feature learning from images or videos for computer vision applications. T o avoid extensive cost of collecting and annotating large-scale datasets, as a subset of unsupervised learning methods, self-supervised learning methods are proposed to learn general image and video features from large-scale unlabeled data without using any human-annotated labels. This paper provides an extensive review of deep learning-based self-supervised general visual feature learning methods from images or videos. First, the motivation, general pipeline, and terminologies of this field are described. Then the common deep neural network architectures that used for self-supervised learning are summarized. Next, the schema and evaluation metrics of self-supervised learning methods are reviewed followed by the commonly used image and video datasets and the existing self-supervised visual feature learning methods. Finally, quantitative performance comparisons of the reviewed methods on benchmark datasets are summarized and discussed for both image and video feature learning. At last, this paper is concluded and lists a set of promising future directions for self-supervised visual feature learning

论文链接：https://arxiv.org/abs/1902.06162

1 介绍

1.1 动机

（1）Deep ConvNets 的性能很大程度上取决于它的 capability 和数据集的数量，但是大规模数据集的收集和注释非常昂贵。

（2）因此近年来提出了许多 self-supervised learning 的方法，即从大规模无标记的数据中自主的学习特征。采取的方法通常是设置一些 pretext tasks（如图像上色、图像修补、图像拼接等），训练网络去解决 pretext tasks，在完成这些任务的过程中，网络就学习到了相应的特征，从而生成对应的伪标签（pseudo label）。

（3）pretext task需要满足以下两个条件：

ConvNets 需要捕获图片/视频中的 visual features 来解决 pretext tasks
可以根据图像/视频的某些属性自动生成用于 pretext task 的伪标签

self-supervised learning 的一般流程：
首先，设计一个预定义的前置任务（pretext task），训练网络来解决改任务，根据数据的某些属性自动生成前置任务下的伪标签。
然后，训练 ConvNet 学习 pretext task 的目标函数（object functions），当 pretext task 训练完成后，学习到的视觉特征可以被进一步迁移到下游任务中，从而提高性能并减少过拟合。
通常来说，浅层捕获一些低级特征，如边缘、拐角和纹理，而较深层捕获与任务相关的高级特征。因此，在受监督的下游任务训练阶段，只是转移了前几层的视觉特征。

1.2 术语定义

（1）术语解释：

Human-annotated label： 由人工进行注释的数据标签。
Pseudo Label： 基于用于 pretext task 的数据属性自动生成的标签。
Pretext Task： 预先设计的让网络进行解决的任务，通过学习 pretext task 的目标函数（object functions）可以让网络自动学习的数据的视觉特征。
Downstream Task： 用来评估自监督学习到特征的质量的计算机视觉应用程序。通常需要人工注释的标签来解决下游任务，但在某些情况下，下游任务可以与前置任务相同，这样就无需任何人工注释标签。
Supervised Learning： 监督学习，用带有细粒度的人工注释标签来训练网络的学习方法。
Semi-supervised Learning： 半监督学习，用少量标记数据和大量的未标记数据来训练网络的学习方法。
Weakly-supervised Learning： 弱监督学习，用粗粒度或不准确的标签进行训练的学习方法，粗粒度标签的获取成本比细粒度低很多。
Unsupervised Learning： 无监督学习，不适用任何人工注释标签的学习方法。
Self-supervised Learning： 自监督学习，使用自动生成的标签对 ConvNets 进行训练的学习方法。（本文仅关注视觉特征相关的方法）

（2）文章主要贡献：

首次有关 Deep ConvNets 的自监督视觉特征学习的综述。
对最近自监督学习的方法和数据集进行回顾。
对现有的方法的性能进行定量的分析和比较。
指出了自监督学习未来可能的方向。

2 不同的学习模式

下面将对有监督、无监督（自监督学习看作无监督学习的子类）、弱监督和半监督四种视觉特征学习方法进行比较。

2.1 监督学习

监督学习损失函数定义如下：
$\operatorname{loss}(D)=\min _{\theta} \frac{1}{N} \sum_{i=1}^{N} \operatorname{loss}\left(X_{i}, Y_{i}\right)$
$N$ 为数据集数量， $X_i$ 为数据集中的一个数据， $Y_i$ 为其对应的人工标注的标签:

优点：标签精确，效果好，取得了突破性成果。
缺点：数据收集和注释昂贵，需要耗费大量人力物力。

2.2 半监督学习

半监督学习的损失函数如下：
$\operatorname{loss}\left(D_{1}, D_{2}\right)=\min _{\theta} \frac{1}{N} \sum_{i=1}^{N} \operatorname{loss}\left(X_{i}, Y_{i}\right)+\frac{1}{M} \sum_{i=1}^{M} \operatorname{loss} \left(Z_{i}, R\left(Z_{i}, X\right)\right)$
$X$ 表示少量的有标签数据集（数据集大小为 $N$ ，表示为 $D_1$ ），其中每个 $X_i$ 对应的人工注释的标签为 $Y_i$ ； $Z$ 表示大量的无标签数据集（数据集大小为 $M$ ，表示为 $D_2$ ）。

$R(Z_i,X)$ 是一个针对某个特定的任务的函数，用来表示无标签数据 $Z_i$ 与有标签数据 $X$ 之间的关系。

2.3 弱监督学习

弱监督学习的损失函数如下：
$\operatorname{loss}(D)=\min _{\theta} \frac{1}{N} \sum_{i=1}^{N} \operatorname{loss}\left(X_{i}, C_{i}\right)$
$C_i$ 为数据 $X_i$ 粗粒度的标签。

粗粒度标签获取的成本要大大低于细粒度，因此相对容易获得大规模数据集。近年来，在某些方面也取得了不错的性能。 $^{[21][22]}$

2.4 无监督学习

无监督学习即指学习过程不需要任何人工注释的标签，其中包括完全无监督学习（不需要任何标签）以及自监督学习（利用自动生成的伪标签进行训练）。

2.4.1 自监督学习

近年来，已经出现了许多用于视觉特征学习的自监督学习方法 $^{[23]-[35]}$ 。

与监督学习相似的地方是：自监督学习也需要 $X_i$ ~ $P_i$ 的的数据对进行训练，不过这里的 $P_i$ 并不是监督学习里通过人工注释的到的标签，而是完成 pretext task 而自动生成的伪标签。

给定一组数据集 $D=\{P_i\}^N_{i=0}$ ，其训练损失函数定义为：
$\operatorname{loss}(D)=\min _{\theta} \frac{1}{N} \sum_{i=1}^{N} \operatorname{loss}\left(X_{i}, P_{i}\right)$
只要伪标签 $P_i$ 不是由人工标注的，那么就属于自监督学习。

3 常见的深度网络架构

该节主要介绍了用于学习图像和视频特征的常见架构，对于不同的学习方法来说，架构大致是相同的

3.1 学习图像特征的架构

主要介绍 AlexNet $^{[8]}$ 、VGG $^{[9]}$ 、GooLeNet $^{[10]}$ 、ResNet $^{[11]}$ 和 DenseNet $^{[12]}$ 五种图像特征学习架构。

3.1.1 AlexNet

https://my.oschina.net/u/876354/blog/1620906

6240万个参数的AlexNet在ImageNet上训练了130万张图片。AlexNet具有8层，其中5层为卷积层，3层为全连接层，ReLU应用在每个卷积层之后。94%的参数来自全连接层，很容易过拟合，因此可通过数据扩充、数据丢失和正则化来避免。

3.1.2 VGG

详细参考：https://my.oschina.net/u/876354/blog/1634322

VGG具有16个卷积层，分别属于5个卷积块。其与AlexNet不同的是，AlexNet具有大的卷积步幅和内核大小，但是VGG中的所有卷积核都有相同的小尺寸（3×3）和小的卷积步幅（1×1）。

较大的内核大小会导致过多的参数和较大的模型大小，而较大的卷积步幅会导致网络在较低层丢失一些精细的功能。

3.1.3 ResNet

详细参考：https://zhuanlan.zhihu.com/p/31852747

VGG证明了更深的网络具有更好的性能，但是难以训练（梯度消失、梯度爆炸）。

残差网络ResNet通过使用条约连接（skip connection），将前一个特征图发送到下一个卷积来在卷积快中使用来客服梯度消失和梯度爆炸。

skip connections中文为跳跃连接，通常用于残差网络中，作用是在比较深的网络中，解决在训练的过程中梯度爆炸和梯度消失问题。

参考：https://cloud.tencent.com/developer/news/134921

3.1.4 GoogLeNet

详细参考：https://my.oschina.net/u/876354/blog/1637819

GoogLeNet 是一个22层的深度网络，基本块是七十块，它由4个具有不同内核大小的并行卷积层组成，然后是1×1卷积来降维。

GoogLeNet在计算成本不变的情况下增加了网络的深度和宽度，结构如下：

3.1.5 DenseNet

详细参考：https://zhuanlan.zhihu.com/p/37189203

为了减轻深层网络中深层难以记住网络的低级功能的问题，提出了密集连接，将卷积块之前的所有特征作为神经网络中下一个卷积块的输入发送，这样所有先前的卷积块的输出特征都用作当前块的输入。这样，较浅的块可以专注于低级功能，而较深的块专注于高级任务特定功能。

3.2 学习视频特征的架构

基于2DConvNet的方法在每个单帧上应用2DConvNet，并将多个帧的图像特征融合为视频特征。
基于3DConvNet的方法采用3D卷积运算从多个帧中同时提取空间和时间特征。
基于LSTM的方法采用LSTM对视频中的长期动态进行建模。

3.2.1 Two-Stream Network（双流网络）

用一个2DConvNet捕获RGB流中的空间特征，用另一个2DConvNet捕获光流中的时间特征。实验表面，两种流的融合可以显著提高动作识别的准确性，后来这项工作已经扩展到多流网络，以融合不同类型输入的特征。

3.2.2 Spatiotemporal Convolutional Neural Network（时空卷积神经网络）

3DConvNets能够同时从多个帧中提取空间和时间特征。

C3D是一个类似VGG的11层的3DConvNet，其中8个卷积层，3个全连接层，所有核的大小为3×3×3，卷积步幅固定为1个像素。

LTC（long-term temporal convolutions）任务C3D从16个连续RGB帧中提取外观和时间，不足以表示持续时间更长的整个动作。因此采用了大量的帧训练3DConvNets并取得了由于C3D的性能。

由于3D卷积对视频分析任务的成果，已经提出了各种3DConvNet的体系结构。提出了一种通过3D卷积层替换ResNet中的所有2D卷积层，提出了3DResNet。

3.2.3 Recurrent Neural Network（递归神经网络，RNN）

由于能够对序列中的时间动态建模，RNN经常作为有序帧序列应用于视频。

LSTM使用存储单元来存储、修改和访问内部状态，可以更好的对长期时间关系建模。 $^{[73]}$

基于LSTM提出的用于人类动作识别的长期递归卷积网络（LRCN，long-term recurrent convolutional networks）框架如下: $^{[54]}$

将LSTM顺序的应用于ConvNets提取的特征，以模拟帧序列中的时间动态。使用LSTM将视频建模为帧序列，能显式地对视频中的长期时间动态建模。

3.3 ConvNet 架构的总结

深度卷积网络已经在各种计算机视觉任务中表现得很好，但是一个常见是这些网络在数据稀缺的情况下通常由数百万个参数，从而导致数百万个参数。

在大数据集上进行预训练并在小数据集上进行微调，无论是性能和效率上都要优于在小规模数据集从头开始训练，但是大规模数据集的收集和注释仍然是一个代价很大的过程。因此提出了许多子监督学习办法，之后的部分介绍了针对图像和视频特征的自监督学习的一般流程。

4 常见的前置任务和下游任务

大多数自监督学习的方法都遵循下图的模式：

为ConvNets定义一个预任务，通过解决该预任务来学习到视觉特征，并自动生成伪标签 $P$ ，而无需人工注释。通过最小化ConvNet的预测 $O$ 和伪标签 $P$ 的误差来优化ConvNet，这样在完成前置任务后就得到了能捕获图像或视频视觉特征的ConvNet模型。

4.1 从前置任务中学习视觉特征

目前已经有许多前置任务应用于自监督学习，如前景对象分割（foreground object segmentation） $^{[81]}$ 、图像修复（image inpainting） $^{[19]}$ 、聚类（clustering） $^{[44]}$ 、图像着色（image colorization） $^{[82]}$ 、时间序列验证（temporal order verification） $^{[44]}$ 、视频音频对应验证（visual audio correspondence verification） $^{[25]}$ 。

以图像着色为例子，该任务即需要将灰度图着色为彩色图。在着色的过程中，只有网络学习到了图像的结构和上下文信息，才能生成逼真的彩色图像。

4.2 常用的前置任务

通常，自监督学习的前置任务可以分为四类：

（1）Generation-based Methods（基于生成的）

Image Generation（图像生成）： 图像着色、图像超分辨率（指由一幅低分辨率图像或图像序列恢复出高分辨率图像）、图像修复、用GANs生成图像
Video Generation（视频生成）： 利用GANs进行视频的生成及预测

（2）Context-based pretext tasks（基于上下文的）

Context Similarity（上下文相似度）： 根据图像补丁之间的上下文相似性设计前置任务，包括基于图像聚类的方法（image clustering-based methods）和基于图像约束的方法（ graph constraint-based methods）。
Spatial Context Structure（空间上下文结构）： 基于图像补丁之间的空间关系，包括图像拼图（image jigsaw puzzle）、上下文预测（context prediction）、几何变换识别（geometric transformation recognition）。
Temporal Context Structure（时间上下文结构）： 来自视频的时间顺序用作监视信号。对ConvNet进行训练，以验证输入帧序列是否以正确的顺寻或识别帧序列的顺序。

（3）Free semantic label-based（基于自动生成语义标签的方法）

使用自动生成的语义标签来训练网络，标签是由传统的硬编码算法或游戏引擎生成的。包括运动对象分割（moving object segmentation）、轮廓检测（contour detection）、相对深度预测（relative depth prediction）。

（4）Cross modal-based（基于跨模态的方法）

这种前置任务训练ConvNet验证两个不同的输入数据通道是否彼此对应。包括视觉-音频对应验证（Visual-Audio Correspondence Verification）、RGB流对应验证（RGB-Flow Correspondence Verification）、自我感应（egomotion）。

上面四类如下图所示：

4.3 常用的下游评估任务

为了评估通过自监督方法学习方法学习到的的图像或视频特征的质量，将学习到参数用作预训练模型，然后对下游高级任务进行微调，这种迁移学习的能力可以证明所学特征的泛化能力。

常见的下游高级视觉任务有：

Semantic Segmentation（语义分割）：为图像中每个像素分配语义标签的任务。
Object Detection（目标检测）：在图像中定位目标位置别识别其类别的任务。
Image Classification（图像分类）：识别每个图像中对象类别的任务，通常每个图像只能使用一个类别标签。将自监督学习模型应用于每个图象上来提取特征，然后用这些特征训练一个分类器（如SVM），将分类器在测试集上的表现与自监督模型进行比较，来评估所学特征的质量。
Human Action Recognition（人体行为识别）：识别视频中的人们在做什么，以获取预定义动作类别的列表。通常用于从视频中学习到的特征的质量。

除了以上对所学特征进行定量的评估之外，还有一些定性可视化的方法对自监督学习的特征进行评估（Qualitative Evaluation）：

Kernel Visualization： 定性的可视化通过前置任务学习的第一个卷积层的内核，并比较监督模型的内核。通过比较监督学习模型和自监督学习模型内核的相似性，来评估其有效性。
Feature Map Visualization： 可视化特征图来显示网络的关注区域，较大的激活表示神经网络更关注图像中的相应区域，通常对特征图进行定性可视化，并与监督模型进行比较。
Nearest Neighbor Retrieval： 通常具有相似外观的图像在特征空间中更靠近。最近邻方法用于从自监督学习模型学习的特征的特征空间中找到前K个最近的邻居。

5 数据集

自监督学习不需要人工标注的数据，因此任何监督学习的数据集都可以用来自监督方式的视觉特征学习。

6 图像特征的学习

6.1 基于生成（Generation-based）

（1）Image Generation with GAN

GAN通常用来生成逼真的图像，有一个生成器（generator）和一个判别器（discriminator）判别器为了能够区分真实图像与生成数据图像分布的区别，就需要捕获图像中的语义特征来完成任务，因此就可以将判别器的参数应用于下游视觉任务。但是此类生成图像任务主要目的是生成逼真的图像，而不是在下游任务获得更好的性能。

对抗训练（adversarial training）可以帮助网络捕获真实数据的真实分布并生成真实数据，当没有人工注释的标签涉及时，也属于自监督学习。

（2）Image Inpainting

图像修补（Image Inpainting）是根据图像的其余部分预测任意缺失区域的任务，只有模型真正读懂了这张图所代表的含义，学习到了图像的特征（颜色、结构等），才能有效的修补缺失的区域。 $^{[19]}$

一般是由生成器和判别器两个网络进行对抗从而预测缺失部分，为了完成图像修复任务，两个网络都需要学习图像的语义特征：

生成网络分为编码器和解码器两部分：编码器的输入是需要修复的图像，上下文编码器学习图像的语义特征。上下文解码器将基于此特征预测丢失的区域。因此就要求生成器了解图像的内容，以便生成合理的假设。
判别网络经过训练可以区分输入图像是否是生成器的输出。

（3）Image Super Resolution

图像超分辨率（Image super-resolution）是增强图像分辨率的任务，从低分辨率图像中生成高分辨率图像。Ledig等人提出了用于单一图像超分辨率的生成对抗网络SRGAN $^{[15]}$ 。

生成网络：增强输入的低分辨率图像的分辨率。
判别网络：判别生成的图像与原始的高分辨率的图像的相似性。

和其他GAN相似，判别网络学到的参数可以迁移到其他下游任务上，但是目前还没有人测试这个迁移学习的性能如何。

（4）Image Colorization

图像着色（Image Colorization）将灰度图片作为输入，网络需要正确的为图片进行着色，为了使每个像素正确着色，网络就需要识别对象并将统一部分的像素分组在一起，从而在该过程中学习了图像的视觉特征。

最近几年，研究人员提出了许多基于图像着色的方法 $^{[18][137][138]}$ ，并且有一些工作专门使用图像着色作为自监督图像表征学习的前置任务。

6.2 基于上下文（Context-Based）

（1）Context Similarity

基于上下文相似性进行学习（Learning with Context Similarity），这里指的是在自监督学习中使用聚类算法。基于传统的提取特征的方法（e.g. Hog, SIFT)将图像聚类，然后基于聚类后的伪标签进行训练，让ConvNET对数据进行分类（或识别两个图像是否来自同一个类）。为了能够完成该分类任务，ConvNet就需要学习每个类别之间的相似性和不同类别之间的差异性。

下图为DeepCluster的架构，用K-Means对图像迭代的进行聚类，然后用后续的聚类伪标签监督的更新ConvNet的权重。

Contrasting（基于对比的）：中心思想是训练一个网络使其可以最大化来自同一图片的相似性，最小化来自不同图片的相似性。值得一提的是SimCLR，这个方法在ImageNet上比其他自监督的方法精度高。

（2）Spatial Context Structure

利用图像包含的丰富的空间上下文信息来设计前置任务，例如图像中不同块之间的相对位置。

Image Jigsaw Puzzle $^{[20]}$ ： 将图像切块，随机打乱，训练网络重新复原该图像。该方法的关键在于，找到一个合适的任务，让任务不会太过简单（达不到训练预期效果），也不会太难（训练无法收敛）。
Geometric Transformation $^{[28]}$ ： 将原图旋转一定角度，让网络预测出图像的旋转角度。

6.3 基于自动生成语义标签（Free Semantic Label-based）

通过Game Engine或Hard-code自动生成语义标签（如segmentation masks、depth images、optic flows、surface normal images），因为这些语义标签不需要任何人工注释，因此可以使用合成数据集与无标记大型数据集结合使用进行自监督学习。

（1）Labels Generated by Game Engines

Game Engine可以渲染逼真的图像比提供精确的像素级标签，并且可以低成本合成大规模数据集。

虽然可以利用自动生产的语义标签进行学习，但是毕竟合成的图像与真实图像学习到的视觉特征还是有区别的。因此，Ren和Lee提出了一种基于对抗学习的无监督特征空间域自适应方法 $^{[30]}$ （这里可以理解为自监督）：

该方法使用了一个鉴别器 $D$ 进行对抗训练，来不断最小化真实图像和合成图像直接特征空间域的差异，这样就可以在合成图像的语义标签训练下，更好的捕获真实图像的视觉特征。

优点： 与其他的让网络隐式的学习视觉特征不同，此种方法直接利用了合成图像自动生成的精确语义标签进行训练，使得网络学习与图像中对象高度相关的特征。

（2）Labels Generated by Hard-code programs

通过在图像或视频上使用硬编码程序（Hard-code program）来获取语义标签，使用生成的标签训练ConvNet。

优点是可以用语义标签作为监督信号，驱使ConvNet直接学习语义特征；确定是硬编码检测器生成的语义标签容易引入噪音，需要专门处理。

6.4 总结

用于图像的自监督学习前置任务总结：

7 视频特征的学习

7.1 基于生成（Generation-based）

（1）Video Generation with GAN

与图像类生成方法类似，通常由两部分组成：Generator（生成器：生成视频）和Discriminator（判别器：区分生成的与真实的视频），Discriminator为解决判别任务需要学习视频中到相应的语义特征，然后其中的参数可以被迁移到其他下游任务。

VideoGAN $^{[85]}$ ：利用双流网络的思想，一条流将视频中的静态区域建模为背景，另一条流将视频中的移动对象建模为前景，视频由前景流和背景流组合生成。
MocoGAN $^{[86]}$ ：用两个子空间的组合来表示视频，一个空间为上下文空间（该空间的每一个变量代表一个身份），另一个空间为运动空间（该空间中的轨迹代表身份的运动）

（2）Video Colorization

视频上色（Video Colorization）是将灰度帧着色为彩色帧的任务。给定参考的RGB帧和灰度图像，网络需要学习它们之间的内部连接才能成果上色 $^{[145]}$ 。

考虑视频中时间连贯性（指短时间内的连续帧具有相似的连贯性外观）的思想，利用颜色一致性（color coherence）来作为监督信号，但是这方面的研究还较少。

（3）Video Prediction

视频预测（Video Prediction）是基于有限的视频帧来预测未来帧序列的任务，为了预测未来的帧，网络就必须学习到给定帧中外观的变化，因此可以利用这些视频预测的方法进行自监督学习。

通常视频预测框架分为编码器和解码器：

编码器：根据给定视频帧对空间和时间进行建模。
解码器：根据编码器提取的特征预测未来的帧。

目前，研究视频预测所学特征的泛化能力如何的工作还较少。

7.2 基于时序（Temporal Context-based）

Temporal Order Verification：输入一段视频序列，模型需要判断视频的序列是否是正确的序列 $^{[40]}$ 。
Temporal Order Recognition：输入一段视频序列，模型需要给出视频的正确序列。

这些方法的通常会经历大量的数据准备步骤；训练网络使用的视频序列是根据光流（Optical Flow的解释可看：https://zhuanlan.zhihu.com/p/44859953）量决定的，光流计算是昂贵且慢的。

7.3 基于跨模态（Cross Modal-based）

基于跨模态的学习方法通常从多个数据流的对应关系中学习视频的特征，包括RGB帧序列（RGB frame sequence）、光流序列（optical flow sequence）、音频数据（audio data）、摄像机姿态（camera pose）。训练网络以识别两种输入数据是否彼此对应，或者训练网络以学习不同模态之间的转换。

（1）RGB-Flow Correspondence

验证输入的RGB帧和光流是否彼此对应来学习视频特征 $^{[23],[24]}$ 。

（2）Visual-Audio Correspondence

利用视频和音频对应关系学习特征的方法 $^{[25],[93]}$ 。

通过从一个视频的同一时间提取视频帧和音频来采样正数据，而通过从不同的视频或一个视频的不同时间提取视频帧和音频来生成负训练数据。训练网络以发现视频数据和音频数据的相关性以完成此任务。

（3）Ego-motion

利用以自我为中心的视频和自我运动信号 $^{[94],[95]}$ 之间的对应关系进行学习。

参考链接：https://blog.csdn.net/cserwangjun/article/details/103154308

7.4 总结

用于视频的自监督学习前置任务总结：

8 性能比较

8.1 学习图像特征的性能

使用来自AlexNet的卷积层的激活作为特征对ImageNet和Places数据集进行线性分类，其中“Places labels ”和“ImageNet labels ”两行为具有人工注释标签的监督学习，结果如下，

自监督学习的性能总是由于从头训练（第二栏第一行）。
所有自监督方法都在conv3和conv4表现较好，可能因为浅层捕获了一般的低级特征，而深层捕获了与预任务相关的特征。
当用于训练预任务的数据集与下游任务的数据集之间存在领域差距时，自监督学习方法能够达到与使用ImageNet标签监督训练的模型相当的性能。

在除了图像分类下游任务，在目标检测和语义分割的性能对比如下：

总体来看，DeepClustering在所有自监督学习方法中表现最好。

8.2 学习视频特征的性能

比较现有的自我监督方法在UCF101和HMDB51数据集上的动作识别性能，Kinetics Label表示人工注释标签的监督学的性能：

9 展望

（1）Learning Features from Synthetic Data（从合成的数据中学习）

利用合成数据来练网络，因为通过游戏引擎生成的图像和视频可以自动生成精确的注释，从而利用预任务从合成数据中学习特征具有较好的效果。
现存问题：如何弥合合成数据和真实数据之间的领域鸿沟。

（2）Learning from Web Data（从网络数据中学习）

利用网络收集的数据 $^{[22],[167],[168]}$ ，并基于它们现有的关联标签来训练网络。通过大规模Web数据及其关联的元数据，可以提高自我监督方法的性能
现存问题：如何处理Web数据及其关联的元数据中的噪声。

（3）Learning Spatiotemporal Features from Videos（从视频中学习时空特征的性能）

自监督学习的图像特征已经具有不错的效果，但是视频特征（尤其是3DConvNet）的自监督学习效果不是很好，还有待新的自监督方法来提高性能。

（4）Learning with Data from Different Sensors（从不同传感器的数据中学习）

目前的研究关注的主要是视频和图像，但是如果可以使用来自不同模态的其他类型数据，则可以将不同数据类型直接的对应或约束关系应用于网络的训练 $^{[155]}$ 。
通过自动驾驶汽车可以很容易获得多种传感器的数据集，如RGB摄像机、灰度摄像机、3D激光扫描仪、高精度GPS测量和IMU加速等。

（5）Learning with Multiple Pretext Tasks（使用多个预任务进行学习）

现有的大多数自监督学习都是训练网络解决某一个Pretext task，很少研究探索是否使用多个预任务进行训练会有更好的性能 $^{[30],[32]}$ 。

参考链接：
一文读懂 Self-Supervised Learning
Self-supervised Learning 再次入门

部分参考文献：

[8] A. Krizhevsky , I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in NIPS, pp. 1097–1105, 2012.

[9] K. Simonyan and A. Zisserman, “V ery deep convolutional networks for large-scale image recognition,” ICLR, 2015.

[10] C. Szegedy , W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov , D. Erhan, V . Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” CVPR, 2015.

[11] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, pp. 770–778, 2016.

[12] G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten, “Densely connected convolutional networks,” in CVPR, vol. 1, p. 3, 2017.

[15] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham,
A. Acosta, A. P . Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi,
“Photo-realistic single image super-resolution using a generative
adversarial network,” in CVPR.

[18] R. Zhang, P . Isola, and A. A. Efros, “Colorful image colorization,”
in ECCV, pp. 649–666, Springer, 2016.

[19] D. Pathak, P . Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros, “Context encoders: Feature learning by inpainting,” in CVPR, pp. 2536–2544, 2016.

[20] M. Noroozi and P . Favaro, “Unsupervised learning of visual representions by solving jigsaw puzzles,” in ECCV, 2016.

[21] D. Mahajan, R. B. Girshick, V . Ramanathan, K. He, M. Paluri, Y . Li, A. Bharambe, and L. van der Maaten, “Exploring the limits of weakly supervised pretraining,” in ECCV, pp. 185–201, 2018.

[22] W. Li, L. Wang, W. Li, E. Agustsson, and L. Van Gool, “Webvision database: Visual learning and understanding from web data,” arXiv preprint arXiv:1708.02862, 2017.

[23] A. Mahendran, J. Thewlis, and A. V edaldi, “Cross pixel optical flow similarity for self-supervised learning,” arXiv preprint arXiv:1807.05636, 2018.

[24] N. Sayed, B. Brattoli, and B. Ommer, “Cross and learn: Crossmodal self-supervision,” arXiv preprint arXiv:1811.03879, 2018.

[25] B. Korbar, D. Tran, and L. Torresani, “Cooperative learning of audio and video models from self-supervised synchronization,” in NIPS, pp. 7773–7784, 2018.

[26] A. Owens and A. A. Efros, “Audio-visual scene analysis with self-supervised multisensory features,” arXiv preprint arXiv:1804.03641, 2018.

[27] D. Kim, D. Cho, and I. S. Kweon, “Self-supervised video representation learning with space-time cubic puzzles,” arXiv preprint arXiv:1811.09795, 2018.

[28] L. Jing and Y . Tian, “Self-supervised spatiotemporal feature learning by video geometric transformations,” arXiv preprint arXiv:1811.11387, 2018.

[29] B. Fernando, H. Bilen, E. Gavves, and S. Gould, “Self-supervised video representation learning with odd-one-out networks,” in CVPR, 2017.

[30] Z. Ren and Y . J. Lee, “Cross-domain self-supervised multi-task feature learning using synthetic imagery ,” in CVPR, 2018.

[31] X. Wang, K. He, and A. Gupta, “Transitive invariance for selfsupervised visual representation learning,” in ICCV, 2017.

[32] C. Doersch and A. Zisserman, “Multi-task self-supervised visual learning,” in ICCV, 2017.

[33] T. N. Mundhenk, D. Ho, and B. Y . Chen, “Improvements to context based self-supervised learning,” in CVPR, 2018.

[34] M. Noroozi, A. Vinjimoor, P . Favaro, and H. Pirsiavash, “Boosting self-supervised learning via knowledge transfer,” arXiv preprint arXiv:1805.00385, 2018.

[35] U. Büchler, B. Brattoli, and B. Ommer, “Improving spatiotemporal self-supervision by deep reinforcement learning,” in ECCV, pp. 770–786, 2018.

[40] I. Misra, C. L. Zitnick, and M. Hebert, “Shuffle and learn: unsupervised learning using temporal order verification,” in ECCV, pp. 527–544, Springer, 2016.

[44] M. Caron, P . Bojanowski, A. Joulin, and M. Douze, “Deep clustering for unsupervised learning of visual features,” in ECCV, 2018.

[54] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. V enugopalan, K. Saenko, and T. Darrell, “Long-term recurrent convolutional networks for visual recognition and description,” in CVPR, 2015.

[73] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997

[81] D. Pathak, R. Girshick, P . Dollár, T. Darrell, and B. Hariharan, “Learning features by watching objects move,” in CVPR, vol. 2, 2017

[82] G. Larsson, M. Maire, and G. Shakhnarovich, “Colorization as a proxy task for visual understanding,” in CVPR, 2017.

[85] C. V ondrick, H. Pirsiavash, and A. Torralba, “Generating videos with scene dynamics,” in NIPS, pp. 613–621, 2016.

[86] S. Tulyakov , M.-Y . Liu, X. Yang, and J. Kautz, “Mocogan: Decomposing motion and content for video generation,” CVPR, 2018.

[93] R. Arandjelovic and A. Zisserman, “Look, listen and learn,” in ICCV, pp. 609–617, IEEE, 2017.

[137] R. Zhang, J.-Y . Zhu, P . Isola, X. Geng, A. S. Lin, T. Yu, and A. A.
Efros, “Real-time user-guided image colorization with learned
deep priors,” arXiv preprint arXiv:1705.02999, 2017.

[138] S. Iizuka, E. Simo-Serra, and H. Ishikawa, “Let there be color!:
joint end-to-end learning of global and local image priors for
automatic image colorization with simultaneous classification,”
TOG, vol. 35, no. 4, p. 110, 2016.

[155] T. Zhou, M. Brown, N. Snavely , and D. G. Lowe, “Unsupervised learning of depth and ego-motion from video,” in CVPR, vol. 2, p. 7, 2017

[167] S. Abu-El-Haija, N. Kothari, J. Lee, P . Natsev , G. Toderici, B. Varadarajan, and S. Vijayanarasimhan, “Youtube-8m: A large-scale video classification benchmark,” arXiv preprint arXiv:1609.08675, 2016.

[168] L. Gomez, Y . Patel, M. Rusi˜ nol, D. Karatzas, and C. Jawahar, “Self-supervised learning of visual features through embedding images into text topic spaces,” in CVPR, IEEE, 2017.

你可能感兴趣的:(论文笔记,自监督学习,计算机视觉,CVPR)

华为余承东“剧透”新形态手机；自DeepSeek发布以来，英伟达市值已蒸发4200亿美元；Java 24正式发布 | 极客头条极客日报华为智能手机 java
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|郑丽媛出品|CSDN（ID：CSDNnews）一分钟速览新闻点！华为余承东“揭秘”新形态手机：不是卷轴屏/伸缩屏，但男生女生都会喜欢腾讯去年营收增长8%，马化腾：重组AI团队，增加AI相关的资本开支金山办公：2024年WPSOffice全球月度活跃设备数达6.32亿，
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
RabbitMQ 集群降配 Hover_Z_快跑 rabbitmq 分布式
这里写自定义目录标题摘要检查状态1.检查RabbitMQ服务状态2.检查RabbitMQ端口监听3.检查RabbitMQ管理插件是否启用4.检查开机自启状态5.确认集群高可用性6.检查使用该集群的服务是否做了断开重连实操1.负载均衡配置2.逐个节点降配（滚动操作）2.1停止RabbitMQ服务2.2调整ECS配置2.3恢复节点并重新加入集群2.4恢复负载均衡流量3.全局监控与验证4.降配后优化（可
华为仓颉编程语言与医疗领域的深度融合：技术与实践想成为高手499 华为人工智能服务器
引言在数字化浪潮席卷全球的背景下，医疗行业的智能化转型已成为一种不可逆的趋势。从电子病历（EMR）、医疗影像分析，到远程手术和个性化健康管理，技术创新正在不断推动医疗领域的变革。然而，这一过程对底层技术提出了更高的要求：高效的计算性能、强大的硬件适配性、分布式计算能力以及生态系统的支持。华为推出的自研编程语言仓颉（Cangjie）正是在此背景下应运而生。仓颉语言以其高效、灵活和强大的硬件整合能力，
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
用LangChain构建自愈式生成式AI：颠覆传统知识库的智能问答系统实战煜bart 机器人人工智能 python AI编程
引言：当生成式AI遇到自进化架构ChatGPT的惊艳表现让企业意识到生成式AI的潜力，但传统问答系统仍面临数据孤岛、知识更新滞后等痛点。本文将揭秘如何通过LangChain框架构建具有自进化能力的智能问答系统，实现企业知识库的实时动态更新与智能推理。通过本文，您将掌握一套让AI系统在运行中持续学习、自主优化的创新架构。---##一、核心技术突破###1.1自愈式数据管道（Self-healingP
基于STM32的儿童误锁车内远程报警系统(华为云IOT) DS小龙哥智能家居与物联网项目实战 stm32 嵌入式硬件单片机华为云
一、项目背景汽车发展历史汽车自上个世纪末诞生以来，已经走过了风风雨雨的一百多年。汽车经过百年历史的演变，已经在世界各地获得广泛的普及和应用，但是事物总会具有两面性，汽车方便了人们生活的同时也带来了不安全的因素。儿童的出行和乘车安全始终都是我国现代汽车安全技术研究的主要方向。随着乘车安全的普及，在一定程度上提高了公众对于自家孩子乘车的安全意识，许多家长都在后座配置了儿童座椅。但是仍无法避免儿童误锁车
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Deno入门教程：Node.js 的替代品 xiaoweids 编程语言 JavaScript node.js javascript 开发语言
转自：微点阅读https://www.weidianyuedu.com这几天假期，我学习了一下Deno[1]。它是Node.js的替代品。有了它，将来可能就不需要Node.js了。这篇文章就是Deno的一个初步介绍，尝试回答为什么Node.js不能满足需要，以及Deno能够带给我们什么？以下内容主要基于BertBelder[2]和RyanDahl[3]的最新演讲。0、进入主题之前，先说一下Deno
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Java课程设计“单项选择题标准化考试系统设计” GG爆不会写代码 java sql mysql intellij-idea
大二时做的java课设，代码能力不是很行，给需要做课设的同学一个参考题目如下“单项选择题标准化考试系统设计”1、问题描述设计一个单项选择题标准化考试系统，该系统要求能自动组卷和评分。2、功能要求（1）用数据库保存试题。（每个试题包括题干、4个备选答案、标准答案）。（2）试题录入：可随时增加试题到试题库中。（3）试题抽取：每次从试题库中可以随机抽出N道题（N由键盘输入）。（4）答题：用户可实现输入自
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
医图论文 CVPR‘24 | 适应医学图像中泛化异常检测的视觉-语言模型小白学视觉医学图像处理论文解读语言模型人工智能计算机视觉医学图像顶会医学图像处理 CVPR 论文解读
论文信息题目：AdaptingVisual-LanguageModelsforGeneralizableAnomalyDetectioninMedicalImages适应医学图像中泛化异常检测的视觉-语言模型作者：ChaoqinHuang，AofanJiang，JinghaoFeng，YaZhang，XinchaoWang，YanfengWang源码：https://github.com/Medi
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现软件开机自启广龙宇 Tauri2应用开发一起学Rust rust 策略模式开发语言
文章目录前言一、准备工作1.1环境搭建1.2创建Tauri项目1.3添加依赖二、实现开机自启的基本原理2.1开机自启的基本概念2.2Tauri应用的生命周期三、Windows平台实现3.1Windows注册表机制3.2实现步骤3.3注意事项四、Linux平台实现4.1Linuxsystemd服务4.2实现步骤4.3Rust实现4.4注意事项五、macOS平台实现5.1macOSLaunchAgen
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
使用 DashVector 进行高效的矢量检索和自查询检索器演示 bavDHAUO python
在当代AI应用中，向量数据的管理和检索是至关重要的部分。DashVector是一个完全托管的向量数据库服务，提供了对高维稠密和稀疏向量的支持，允许实时插入和过滤搜索。这个服务基于DAMOAcademy自研的高效向量引擎Proxima核心构建，具备云原生和横向扩展能力，能够快速适应不同应用需求。在本篇文章中，我们将演示如何使用DashVector和SelfQueryRetriever来高效地进行矢量
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
2.git和github操作：diff链接 MY Daisy 工具 git github
目录1.获取差异链接的核心方法方法1：通过分支/提交比较生成链接（适用于GitHub/GitLab/Bitbucket）方法2：使用单次提交的差异链接（查看某次提交的改动）方法3：通过PullRequest（PR）/MergeRequest（MR）2.快速生成diff链接的步骤Step1.获取提交哈希（或分支名称）Step2.拼接平台URLStep3.直接访问链接3.各平台差异链接格式对照表4.自
Spring 基础框架-- Ruoyi 权限管理架构详解 dazhong2012 开源项目 spring clould springboot spring 架构 java
一、权限管理整体架构若依的权限管理架构基于用户-角色-权限的RBAC模型，并扩展了数据权限控制。核心架构可分为以下四层：数据范围控制用户层角色层权限层数据过滤层菜单/按钮/接口权限角色关联部门/数据范围二、核心模块详解1.基础权限模型（RBAC）用户（sys_user）：通过dept_id关联部门表，支持多角色分配角色（sys_role）：data_scope字段定义数据权限范围（1-全部，2-自
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
红黑树详解？红黑树设计的背景？ F_windy java
红黑树详解1.红黑树的基本概念红黑树（Red-BlackTree）是一种自平衡的二叉搜索树（BST），通过节点颜色（红或黑）和一组规则来保持近似平衡，确保插入、删除、查找等操作的时间复杂度为O(logn)。它的核心思想是通过颜色标记和旋转操作，减少树的高度差异，从而提升性能。2.红黑树的五大规则红黑树必须满足以下规则：颜色规则：每个节点非红即黑。根节点规则：根节点必须是黑色。叶子节点规则：所有叶子
Transformer精选问答 EmbodiedTech 大模型人工智能 transformer 深度学习人工智能
Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层,和前馈全连接层.多头自注意力层采用的是一种ScaledDot-ProductAttention的计算方式,实验结果表明,Multi-head可以在更细致的层面上提
通用具身智能机器人首次进厂造芯！量子位
在全球半导体产业竞争日益激烈的背景下，半导体生产在部分高度依赖人力的生产环节，传统的智能化生产模式仍暴露出效率瓶颈与污染问题。人工操作易导致污染，且效率不高、污染控制难度大。如今，随着通用智能机器人的应用，这一难题正迎来全新解决方案。3月18日，国内领先的具身智能机器人公司智平方与全球知名科技创新企业吉利科技集团旗下浙江晶能微电子有限公司正式签署战略合作协议。双方将基于智平方自研的端到端具身大模型
Mybatis基本使用沉下心来学技术 mybatis
什么是MyBatis?MyBatis是一个优秀的持久层框架，它对jdbc的操作进行了封装，使得数据库的操作不再繁琐，避免大量的代码编写，使开发人员将更多的精力放在sql语句上。MyBatis的优点简单易学：本身就很小且简单。没有任何第三方依赖，最简单安装只要两个jar文件+配置几个sql映射文件。灵活：mybatis不会对应用程序或者数据库的现有设计强加任何影响。它只是一种帮助程序，让程序开发者自
Vue3：构建高效用户界面的利器烂蜻蜓 Vue3 ui vue.js vue
一、Vue.js简介Vue.js（读音/vjuː/,类似于view）是一套构建用户界面的渐进式框架。它只关注视图层，采用自底向上增量开发的设计。Vue的目标是通过尽可能简单的API实现响应的数据绑定和组合的视图组件，学习起来非常简单。本文将基于Vue3以上版本展开探讨。二、渐进式框架的魅力（一）什么是渐进式框架渐进式框架是指那些允许开发者根据项目需求逐步引入和使用其功能的框架，而不需要一次性全部使
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin