【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第1张图片

摘要

通常需要标记的数据才能训练深层神经网络,以便从图像或视频中获得一些特征。为了避免收集和注释大规模数据集的成本,提出了自监督的学习方法。本文从图像或视频中对基于深度学习的一般视觉特征学习方法进行了广泛的评论。

  • 首先,描述了该领域的动机,一般方法和术语;
  • 然后,总结了用于自监督学习的常见深度神经网络体系结构;
  • 接下来,审查了自监督学习方法的模式和评估指标;
  • 然后是图像,视频,音频和3D数据的常用数据集以及现有的自监督视觉特征学习方法;
  • 最后,总结了图像和视频功能学习的基准数据集上方法的定量性能比较;
  • 最后,本文得出结论,并列出了一组有希望的未来方向,用于自监督的视觉特征学习。

1.介绍

1.1动机

深度神经网络由于具有学习不同级别的一般视觉特征的强大能力,已被广泛用于许多计算机视觉任务,例如目标检测,语义分割,图像字幕等。从大规模图像数据集(如ImageNet)训练的模型被广泛用作预训练的模型,并为其他任务进行微调,原因有两个:

(1)从大规模的不同数据集中学到的参数提供了一个很好的起点,因此,对其他任务的网络训练可以更快地收敛;

(2)在大规模数据集中培训的网络已经学习了层次结构功能,这些功能可以帮助在培训其他任务期间,减少过度拟合问题,尤其是当其他任务的数据集小或培训标签稀缺时。

深层卷积神经网络(Convnets)的性能在很大程度上取决于其能力和训练数据量。各种网络,包括Alexnet,VGG,Googlenet,Resnet和Densenet以及大规模数据集(例如Imagenet,OpenImage )已促进了深层神经网络的发展。

但是,大规模数据集的收集和注释是耗时且昂贵的。作为用于预训练非常深的2D卷积神经网络(2DConvnet)的最广泛使用的数据集之一,Imagenet包含约130万个标记的图像,涵盖1,000个类,而每个图像都有一个人工标记的类标签。与图像数据集相比,视频数据集的收集和注释更加昂贵。Kinetics数据集主要用于训练卷积神经网络进行视频动作识别,由500,000个视频组成,属于600个类别,每个视频持续约10秒钟。

为了避免耗时且昂贵的数据注释,提出了许多自监督的方法,以在不使用任何人工注释的情况下从大规模的未标记图像或视频中学习视觉特征。一个流行的解决方案是为网络提出各种前置任务以解决,包括着色灰度图像着色,图像修复,拼图等。前置任务共享两个常见的属性:(1)图像或视频的视觉特征需要由Convnet捕获以进行前置任务,(2)通过利用其结构来从数据本身(自学)生成监督信号。

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第2张图片

图1.自监督学习的流程。视觉特征是通过训练卷积网络来解决前置任务。在自监督的前置任务训练完成后,学习的参数可作为预训练的模型并通过微调转移到其他下游计算机视觉任务。这些下游任务的性能用于评估学习的质量。在下游任务的知识转移期间,只有前几层的一般特征被异常传输到下游任务。 

自监督学习的流程如图1所示。在自监督的训练阶段,前置任务的伪标签是根据某些属性基于某些属性而自动生成的。经过前置任务训练的卷积神经网络可以学习捕获特征,在完成自监督的训练后,可以将学习的视觉特征进一步转移到下游任务(尤其是在相对较小的数据时)作为预训练的模型,以提高性能并克服过度拟合。通常,在监督下游任务训练阶段,只有前几层的视觉特征被转移。

1.2术语

  • Human-annotated label:由人工手动注释的数据标签。
  • Pretext Task:用于求解网络的预设任务,并且通过学习前置任务的目标功能来学习视觉特征。前置任务可以是预测任务,生成任务,对比任务或组合。
  • Pseudo label:前置任务中使用的标签被称为伪标签,这些标签是根据前置任务的数据结构生成的。
  • Downstream Task:下游任务是计算机视觉应用程序,可用于评估自监督学习的质量。当训练数据稀缺时,这些应用可以从预训练的模型中受益匪浅。通常,需要人工标注的标签来解决下游任务。但是,在某些应用中,下游任务可以与前置任务相同,而无需使用任何人工标注。
  • Supervised Learning:监督学习表明使用具有标签的数据来训练网络。
  • Semi-supervised Learning:半监督学习是指使用少量标记数据以及大量未标记数据的学习方法。
  • Weakly-supervised Learning:弱监督的学习是指使用粗糙标签或不正确标签学习的学习方法。获得弱监督标签的成本通常比有监督方法的细粒标签便宜得多。
  • Unsupervised Learning:无监督的学习是指无需使用任何人类标注标签的学习方法。
  • Self-supervised Learning:自监督学习是无监督学习方法的子集。自监督学习是指在其中通过利用其结构从数据本身(自学)生成的监督信号明确训练Convnet的学习方法。

由于不需要人工注释在自监督训练期间产生伪标签,因此自监督学习方法的主要优势是,它们可以轻松地缩放到成本非常低的大规模数据集中。经过这些伪标签训练,自监督的方法获得了有效结果。本文对基于Convnets的深度自监督视觉特征学习方法进行了全面调查。

2.常用的深度网络架构

无论学习方法的类别如何,它们都具有相似的网络体系结构。已经设计了各种2D卷积神经网络,用于图像特征学习,包括Alexnet,VGG,Googlenet,Resnet和Densenet等。也有视频特征学习的几种架构,包括基于2D卷积神经网络的方法、基于3D卷积神经网络的方法和基于LSTM的方法。基于2D卷积神经网络的方法在每个帧上应用2D卷积核,并且将多个帧的图像特征融合为视频特征。基于3D卷积神经网络的方法采用3D卷积核来同时从多个帧中提取空间和时间特征。基于LSTM的方法采用LSTM来模拟视频中的长期动态。

深层卷积在各种计算机视觉任务中表现出巨大潜力。图像和视频功能的可视化表明,这些网络真正学到了相应任务所需的有意义的特征。但是,一个常见的缺点是,当训练数据稀缺时,这些网络很容易过度拟合,因为每个网络中都有数百万个参数。

以3DResNet为例,UCF101 动作识别数据集上的18层3DResNet的性能为42%。然而,借助大规模Kinetics数据集(500,000个600类的视频)的有监督的预训练模型,然后在UCF101数据集上进行了微调,性能可以提高到84%。大规模数据集中的预训练模型可以加快训练过程并改善相对较小的数据集的性能。但是,收集和注释大规模数据集的成本非常昂贵且耗时。

3.常用的前置和下游任务

大多数现有的自监督的学习方法遵循图2所示的模式。通常,可以通过完成此前置任务的过程来学习视觉特征。可以在没有人工注释的情况下自动生成前置任务的伪标签P。通过最小化卷积神经网络预测O和伪标签p之间的误差,可以优化卷积神经网络。完成前置任务的训练后,可以获得图像或视频视觉特征的卷积神经网络模型。

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第3张图片

图2.自监督的视觉特征学习模式。通过最大程度地减少伪标签P和卷积神经网络预测O之间的误差来训练神经网络。由于伪标签是根据数据属性生成的,因此在整个过程中不涉及人工注释。 

3.1从前置任务学习视觉特征

为了减轻大规模数据集注释的负担,通常为网络而设计前置任务是为了解决的,而前置任务的伪标签是根据数据属性自动生成的。已经设计许多前置任务用于自监督的学习,例如背景目标分割,图像修复,聚类,图像着色,时间序列,视听转换。

以图像着色为例,图像着色是将灰度图像着色为彩色图像的任务。为了生成逼真的彩色图像,需要网络来学习图像的结构和上下文信息。在此前置任务中,数据X是可以通过在RGB图像中执行线性转换来生成的灰度图像,而伪标签P是RGB图像本身。训练对Xi和Pi可以以微不足道的成本实时生成。

3.2常用的前置任务

根据用于设计前置任务的数据属性,如图3所示,我们将前置任务汇总为四个类别:基于生成的,基于上下文,基于免费语义标签和基于多模态的。大多数方法属于一个类别。但是,某些方法可能属于多个类别。

基于生成的方法:这种类型的方法通过求解涉及图像或视频生成的前置任务来学习视觉特征。

  • 图像生成:通过图像生成任务的过程学习视觉特征。这种类型的方法包括图像着色,图像超级分辨率,图像修复,用生成对抗网络(GAN)生成图像。
  • 视频生成:通过视频生成任务的过程学习视觉特征。这种类型的方法包括GAN生成的视频和视频预测。

基于上下文的前置任务:基于上下文的前置任务的设计主要采用图像或视频的上下文特征,例如上下文相似性,空间结构,时间结构等。

  • 上下文相似性:前置任务是基于图像块之间的上下文相似性设计的。这种类型的方法包括基于图像簇的方法和基于图约束的方法。
  • 空间上下文结构:前置任务用于训练基于图像块之间的空间关系。这种类型的方法包括图像拼图,上下文预测和几何变换识别等。
  • 时间上下文结构:视频的时间顺序用作监督信号。对卷积神经网络进行了训练,以验证输入帧序列是正确顺序。

基于语义标签的方法。这种类型的前置任务训练具有自动生成语义标签的网络。标签是由传统硬编码或游戏引擎生成的算法。只要通过设计硬编码算法,编码器就可以用于生成用于自监督学习的标签。严格来说,由于在数据生成过程中需要人干预,因此基于游戏引擎生成数据的方法不属于自监督的学习方法。但是,最近的一些工作将它们视为自监督的学习方法。

基于跨模态的方法。这种类型的前置任务训练卷积神经网络以验证两个不同输入数据的渠道是否相互对应。

3.3常用的下游任务进行评估

为了通过自监督的方法评估学到的图像或视频特征的质量,使用自监督学习参数被用作预训练的模型,然后在下游任务上进行微调,例如图像分类,语义细分,目标检测和诸如动作识别等。在这些高级视觉任务上进行转移学习的性能证明了学习特征的普遍性。如果自监督学习网络可以学习一般功能,然后预训练的模型可以用作其他视觉任务的良好起点,这些任务需要从图像或视频中捕获类似功能。

3.3.1语义分割

语义分割是图像中每个像素分配语义标签的任务,在许多应用中非常重要,例如无人驾驶,人机交互和机器人技术。在这方面提出了各种网络,例如完全卷积网络(FCN),DeepLab,PSPNET,还有Pascal VOC,CityScape,ADE20K等数据集。在所有这些方法中,FCN [4]是语义细分的里程碑工作,因为它开始了应用完全卷积网络来解决这项任务的时代。 2DCONVNET,例如Alexnet,VGG,Resnet用作特征提取的基础网络,而完全连接的层被转置卷积层代替以获得密集的预测。该网络通过像素的注释进行了端到端训练。

当使用语义分割作为下游任务来评估自学学习方法学到的图像特征的质量时,FCN以前置任务训练的参数初始化,并在语义分割数据集中进行微调,然后在语义分割任务上的性能评估并将其与其他自监督方法进行比较。

3.3.2目标检测

检测是将对象在图像中定位位置并识别对象类别的任务,对于许多计算机视觉应用程序(例如自动驾驶,机器人技术,场景文本检测等)也非常重要。最近,已经提出了许多数据集,比如MSCOCO和OpenImage,已经用于许多基于Convnet的模型。 Fast-RCNN是一个两阶段的网络,用于目标检测。目标建议首先是基于卷积神经网络产生的特征图生成的,然后将这些建议馈送到几个完全连接的层以生成对象的边界和类别。

3.3.3图像分类

图像分类是识别每个图像中目标类别的任务。许多网络为此任务设计,例如Alexnet,VGG,Resnet,GoogleNet,DenseNet等。通常,每个图像都只有一个类标签,尽管图像可能包含不同的对象类。

当选择图像分类作为下游任务来评估从自监督学习方法中学习的图像特征的质量时,对每个图像应用自监督学习模型来提取特征,然后用于训练分类器,如支持向量机(SVM)[72]。将测试数据的分类性能与其他自监督模型进行比较,以评估学习特征的质量。

3.3.4人类动作识别

人类动作识别是确定人们在视频中做什么的任务,以获取预定义的动作类别列表。通常,人类动作识别数据集中的每一段视频仅包含一个动作。

动作识别任务通常用于评估通过自监督学习方法学到的视频特征的质量。该网络首先是针对未标记的视频数据进行训练的,然后在带有人工注释的动作识别数据集中对其进行微调以识别操作。将动作识别任务的测试性能与其他自我监督的学习方法进行了比较,以评估学习功能的质量。

3.3.5定性评估

除了对学习特征的这些定量评估外,还有一些定性可视化方法来评估自监督学习特征的质量。通常将三种方法用于此目的:卷积核可视化,特征图可视化和图像检索可视化。

卷积核可视化。定性地可视化第一卷积层的内核,并通过前置任务学习,比较了监督模型的内核。比较监督和自监督模型所学的内核的相似性,以表明自监督方法的有效性。

特征图可视化。可视化特征地图以显示网络的注意力。神经网络中较大的激活函数对图像中的相应区域更加注意。特征地图通常是定性可视化的,并将其与监督模型进行比较。

最近邻检索。通常,外观相似的图像通常在特征空间中更近。最近邻方法用于从自监督模型学习的特征空间中找到最接近的K个邻居。

3.4超2D自监督学习

自监督的学习方法在图像和视频上表现出巨大的潜力,其中一些方法可以轻松扩展到其他数据,例如音频,自然语言和3D视觉数据。作为计算机视觉研究的一个重要方面,现在越来越多的研究人员试图在3D数据(包括点云,网格和多视图图像)上应用自监督学习方法。

4数据集 

本节总结了用于训练和评估自监视的视觉特征学习方法的常用数据集。收集的用于监督学习的数据集可用于自监督训练,而无需使用其人类标注的标签。在本文中使用这些合成数据集进行视觉特征学习,作为自监督的学习方法,因为合成数据集的标签是由游戏引擎自动生成的,并且不涉及人类注释。

常用的图像数据集包括Imagenet,Places,Places365,SunCG,MNIST,SVHN,CIFAR10,STL-10,Pascal voc,常用的视频数据集包括YFCC100M,Scenenet RGB-D,Moment-in-Time,Kinetics,Audioset,Kitti,UCF101,HMDB51,常用的音频数据集包括Audioset,ESC50 ,Dcase,常用的3D对象数据集包括Shapene,ModelNet40和ShapenetPartseg。表1总结了常用的图像,视频,音频和3D对象数据集,以及这些数据集的详细说明。

表1 图像,视频,音频和3D对象数据的常用数据集的摘要【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第4张图片

5.图像特征学习

在本节中,审查了三组自监督的图像特征学习方法,包括基于生成的方法,基于上下文的方法和基于语义标记的方法。图像特征的列表可以在表2中找到自监督的学习方法。由于基于多模态的方法主要是从视频中学习特征,并且这种类型的大多数方法都可以用于图像和视频功能学习,因此,在视频特征学习部分中审查了基于多模态的方法。

5.1基于生成的图像特征学习

学习图像特征的基于生成的自监督方法涉及生成图像的过程,包括使用GAN(生成假图像),超分辨率(生成高分辨率图像),图像修复(以预测缺失的图像区域)和图像着色(将灰度图像着色为彩色图像)。对于这些任务,伪标签P通常是图像本身,并且在训练过程中不需要人类标注的标签,因此,这些方法属于自监督的学习方法。

基于图像生成方法的前身是自动编码器,该方法学会了将图像压缩到低维矢量中,部分层靠近原始图像的图像未压缩。使用自动编码器,网络可以将图像的尺寸降低到低维向量中,并包含原始图像的主要信息。

变码器(VAE)是自动编码器的改进版本,它估计训练数据的概率密度函数(PDF)。当前的基于图像生成的方法遵循类似的想法,但使用不同的流程来通过图像生成过程来学习视觉特征。

表2 基于前置任务类别的自我监督图像特征学习方法的摘要

 5.1.1用GAN生成图像

生成对抗网络(GAN)是Goodfellow等人提出的一种深层生成模型。 GAN模型通常由两种网络组成:生成器和鉴别器。鉴别器迫使生成逼真的图像,而生成器则迫使鉴别器提高其差异化能力。在训练期间,两个网络互相竞争,使彼此变得更强大。

图4中显示了从潜在变量任务中生成图像生成的常见架构分布或生成的数据分布。因此,需要判别器来捕获图像中的语义特征以完成任务。鉴别器的参数可以作为其他计算机视觉任务的预训练模型。

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第5张图片

 图4.生成对抗网络的流程

5.1.2图像修复

图像修复是根据图像的其余部分预测任意缺失区域的任务。图5中显示了图像修复任务的定性说明。图5(a)是具有缺失区域的图像,而图5(c)是网络的预测。为了正确预测缺失区域,需要网络来学习常见知识,包括通用对象的颜色和结构。只有通过了解这些知识,网络才能根据图像的其余部分推断丢失的区域。

与自动编码器类似,Pathak等人迈出了训练卷积神经网络的第一步,以基于图像的其余部分生成任意图像区域的内容。通常,有两种网络:生成器网络是用像素重建损失生成缺失的区域,而鉴别器网络是区分输入图像是否真实,并具有对抗性损失。由于对抗性损失,该网络能够为缺失的图像区域生成更清晰和现实的假设。两种网络都能够从图像中学习语义功能,并且可以转移到其他计算机视觉任务中。

完全卷积网络的生成器网络有两个部分:编码器和解码器。编码器的输入是需要构图的图像,并且上下文编码器了解图像的语义特征,然后基于此功能预测缺失区域。需要生成器来理解图像的内容,以生成一个合理的假设。训练鉴别器以区分输入图像是否是生成器的输出。为了完成图像介绍任务,需要两个网络学习图像的语义特征。

5.1.3超级分辨率的图像生成

图像超分辨率(SR)是增强图像分辨率的任务。借助完全卷积的网络,可以从低分辨率图像中生成更精细的高分辨率图像。 SRGAN是Ledig等人提出的单图超分辨率的生成对抗网络,这种方法的见解是利用感知损失,该损失由对抗性损失和内容损失组成。有了感知到的损失,Srgan能够从重采样的图像中恢复光真逼真的纹理。

有两个网络:一个是生成器,它是为了增强输入低分辨率图像的分辨率,另一个是鉴别器,它是区分输入图像是否是生成器的输出。生成器的损失函数是像素的L2损失以及内容损失,这是预测高分辨率图像和高分辨率原始图像的特征的相似性。而鉴别器的损失是二进制分类损失。与仅最大化平均平方误差(MSE)的网络相比,通常会导致高峰值信噪比但缺乏高频细节,SRGAN能够恢复高分辨率图像的精细细节。

5.1.4图像着色

图像着色是以灰度照片为输入,预测照片的合理色彩的任务。图6中显示了图像着色任务的定性说明。要正确化着色每个像素,网络需要识别对象并将同一部分的像素分组在一起。

近年来已经提出了许多基于深度学习的着色方法。一个直接的想法是采用一个完全卷积的神经网络,该网络由一个用于特征提取的编码器和用于色彩的解码器组成。可以通过预测的颜色和其原始颜色之间的L2损失来优化网络。张等人建议将任务作为一项分类任务并使用类重新平衡来增加预测颜色的多样性。 如图6所示。该方法在LargesCale图像上进行训练,在着色测试期间对32%的试验显示出了很好的结果。

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第6张图片

 图6. 图像着色的结构

5.2基于上下文的图像特征学习

基于上下文的借口任务主要采用图像的上下文特征,包括上下文相似性,空间结构和时间结构作为监督信号。 卷积神经网络通过求解基于图像上下文属性设计的前置任务的过程来学习特征。

5.2.1与背景相似性学习

利用上下文相似性作为自监督学习的监督信号有两种方法:将其作为预测任务或对比任务。对于这两种方法,在同一组的数据假设下首先将数据聚集到不同的组中,而来自不同组的数据具有较低的上下文相似性。预测任务涉及训练网络以预测数据的组ID,并且通常会带有交叉熵损失。

聚类是将相似数据集分组在同一群集中的一种方法。在自监督的方案中,聚类方法主要用作群集图像数据的工具。一种原始的方法是基于手动设计的特征,例如HOG,SIFT或Fisher Vector聚集图像数据。聚类后​​,获得几个簇,而一个集群中的图像在特征空间中的距离较小,并且来自不同簇的图像在特征空间中具有较大的距离。特征空间的距离越小,RGB空间中外观中的图像越相似。然后,可以使用群集分配伪类标签来训练卷积神经网络来对数据进行分类。

首先,将图像聚集到不同的簇中,来自同一群集的图像具有较小的距离,并且来自不同簇的图像具有较大的距离。然后,对Convnet进行训练以识别群集分配或识别两个成像是来自同一群集。由于聚类和自监督的训练是两个分开的步骤,因此可以使用各种聚类方法来生成可靠的簇。

与自我监督图像特征学习相似的另一种利用背景的方法是对比。对比自我监督学习的一般思想是训练网络以最大程度地达成同一场景的不同观点,同时最大程度地减少不同场景的观点的共识。 

5.2.2通过空间上下文结构学习

图像包含丰富的空间上下文信息,例如来自图像中不同块之间的相对位置,这些位置可用于设计自监督学习的前置任务。前置的任务可以是从同一图像预测两个块的相对位置,或者识别从同一图像的一系列块的顺序。完整图像的上下文也可以用作监督信号,例如识别整个图像的旋转角度。为了完成这些借口任务,神经网络需要学习空间上下文信息,例如对象的形状和对象不同部分的相对位置。

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第7张图片

 图7.拼图的可视化。(a)是具有9个采样图像贴片的图像,(b)是打乱图片贴片的一个示例,(c)显示了采样9个贴片的正确顺序。

5.3基于语义标签的图像特征学习

5.3.1用游戏引擎生成的标签学习

给定各种对象和环境布局的模型,游戏引擎能够呈现逼真的图像并提供准确的像素级标签。由于游戏引擎可以生成具有可忽略成本的大规模数据集,因此使用了各种游戏引擎,例如Airsim和Carla来生成具有高级语义标签的大型合成数据集。图8显示了具有生成精确标签的RGB图像的示例。

给定各种对象和环境布局的模型,游戏引擎能够呈现逼真的图像并提供准确的像素级标签。由于游戏引擎可以生成具有可忽略的成本的大规模数据集,因此使用了各种游戏引擎,例如Airsim [128]和Carla [129]来生成具有高级语义标签的大型合成数据集,包括深度,轮廓,表面正常,表面正常,表面正常,分割面罩和用于训练深网的光学流。图8显示了具有生成精确标签的RGB图像的示例。

为了克服这个问题,Ren和Lee提出了一种基于对抗性学习的无监督特征空间适应方法[53]。如图9所示,该网络可预测合成图像的表面正常,深度和实例轮廓和歧视网络D的使用,以最大程度地减少现实世界和合成数据之间的特征空间域的差异。帮助进行了对抗性训练和合成图像的准确语义标签,该网络能够捕获现实世界图像的视觉特征。

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第8张图片

图8.游戏引擎生成的室内场景的示例。对于每个合成图像,相应的深度,实例分割和光流可以由生成器自动生成。

5.3.2用硬编码程序生成的标签学习

应用硬编码程序是自动生成语义标签的另一种方法。这种类型的方法通常有两个步骤:(1)通过在图像或视频上使用硬码程序来获取标签,(2)带有生成标签的训练Convnets来生成标签。

无论用哪种标签用于训练Convnets,这种类型的方法的一般思想是从硬码检测器中提取知识。与其他自我监督的学习方法相比,硬码检测器可以是边缘检测器,显着性检测器,相对深度检测器等。这些前置任务中的监督信号是语义标签,可以直接驱动Convnet以学习语义特征。但是,一个缺点是硬码检测器生成的语义标签通常非常嘈杂,需要专门处理。 

【自监督学习综述】Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey_第9张图片

图9.用于使用合成和现实世界图像进行自监督特征学习的架构

6视频特征学习

本节回顾了学习视频功能的自监督方法,如表3所示,它们可以分为四类:基于生成的方法,基于上下文的方法,基于语义标签的方法和基于多模态的方法。用于视频功能学习的网络包括2DCONVNET,3DCONVNET和LSTM与2DCONVNET或3DCONVNET结合使用。

表3 基于前置任务的自监督视频特征学习方法总结

你可能感兴趣的:(学习,深度学习,机器学习)