【深度学习复习】重要知识点四

目录

无监督学习

domain adaptation(迁移学习)

样本自适应

特征自适应

模型自适应

零样本学习(Zero-Shot Learning)

RNN为什么会梯度消失和爆炸

消失还是爆炸

具体分析

SENet

SENet和Inception的结合

SENet和ResNet的结合

通道分离卷积(Mobilenets)

逐通道卷积(Depthwise Convolution)

逐点卷积(Pointwise Convolution)

AE与VAE区别

Attention

其他类型


无监督学习

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。

很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

清晰、完美标记的数据集并不容易获得。有时,研究人员会向算法询问一些他们未知的问题。而这正是无监督式学习可以发挥作用的地方。
在无监督式学习中,深度学习模型会收到某个数据集,但对于如何处理该数据集却末获得明确的指示。训练数据集是没有特定预期结果或正确答案的示例的集合。然后,神经网络尝试通过提取有用的特征并分析其结构来自动发现数据结构

domain adaptation(迁移学习)

领域自适应(Domain Adaptation)是迁移学习中的一种代表性方法,指的是利用信息丰富的源域样本来提升目标域模型的性能


领域自适应问题中两个至关重要的概念:

  1. 源域(source domain)表示与测试样本不同的领域,但是有丰富的监督信息;
  2. 目标域(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域往往属于同一类任务,但是分布不同


根据目标域和源域的不同类型,领域自适应问题有四类不同的场景:无监督的,有监督的,异构分布和多个源域问题。


通过在不同阶段进行领域自适应,研究者提出了三种不同的领域自适应方法:

  1. 样本自适应,对源域样本进行加权重采样,从而逼近目标域的分布。
  2. 特征层面自适应,将源域和目标域投影到公共特征子空间。
  3. 模型层面自适应,对源域误差函数进行修改,考虑目标域的误差。

样本自适应

其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器。


样本迁移(Instance based TL):

  • 在源域中找到与目标域相似的数据,把这个数据的权值进行调整,使得新的数据与目标域的数据进行匹配,然后加重该样本的权值,使得在预测目标域时的比重加大。
  • 优点是方法简单,实现容易。缺点在于权重的选择与相似度的度量依赖经验,且源域与目标域的数据分布往往不同。

特征自适应

其基本思想是学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。

特征迁移(Feature based TL):

  • 假设源域和目标域含有一些共同的交叉特征,通过特征变换,将源域和目标域的特征变换到相同空间,使得该空间中源域数据与目标域数据具有相同分布的数据分布,然后进行传统的机器学习。
  • 优点是对大多数方法适用,效果较好。缺点在于难于求解,容易发生过适配。

模型自适应

其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路:

  1. 直接建模模型,但是在模型中加入“domain间距离近”的约束。
  2. 采用迭代的方法,渐进的对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。


模型迁移(Parameter based TL):

  • 假设源域和目标域共享模型参数,是指将之前在源域中通过大量数据训练好的模型应用到目标域上进行预测,比如利用上千万的图象来训练好一个图象识别的系统,当我们遇到一个新的图象领域问题的时候,就不用再去找几千万个图象来训练了,只需把原来训练好的模型迁移到新的领域,在新的领域往往只需几万张图片就够,同样可以得到很高的精度。
  • 优点是可以充分利用模型之间存在的相似性。缺点在于模型参数不易收敛。

零样本学习(Zero-Shot Learning)

零样本学习是AI识别方法之一。简单来说就是识别从未见过的数据类别,即训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分。这是一个很有用的功能,使得计算机能够具有知识迁移的能力,并无需任何训练数据,很符合现实生活中海量类别的存在形式。


RNN为什么会梯度消失和爆炸

矩阵的高次幂可能导致神经网络特征值的发散或消失,将以梯度爆炸或梯度消失的形式表现。

【深度学习复习】重要知识点四_第1张图片


消失还是爆炸

【深度学习复习】重要知识点四_第2张图片


具体分析

【深度学习复习】重要知识点四_第3张图片


【深度学习复习】重要知识点四_第4张图片


【深度学习复习】重要知识点四_第5张图片


SENet

SENet的全称是 Squeeze-and-Excitation Networks,中文可以翻译为压缩和激励网络。主要由两部分组成:


Squeeze部分。即为压缩部分,原始feature map的维度为 H*W*C,其中H是高度(Height),W是宽度 (width),C是通道数(channel)。Squeeze做的事情是把 H*W*C 压缩为 1*1*C,相当于把 H*W 压缩成一维了,实际中一般是用global average pooling实现的。H*W压缩成一维后,相当于这一维参数获得了之前H*W全局的视野,感受区域更广。


Excitation部分。得到Squeeze的1*1*C的表示后,加入一个FC全连接层(Fully Connected),对每个通道的重要性进行预测,得到不同channel的重要性大小后再作用(激励)到之前的feature map的对应channel上,再进行后续操作。

【深度学习复习】重要知识点四_第6张图片

SENet和Inception的结合

【深度学习复习】重要知识点四_第7张图片


SENet和ResNet的结合

【深度学习复习】重要知识点四_第8张图片

  • SENet提升很大,并且代价很小,通过对通道进行加权,强调有效信息,抑制无效信息,注意力机制,并且是一个通用方法,应用在lnception、Inception-ResNet、ResNet、ResNeXt都能有所提升,适用范围很广。
  • 思路很清晰简洁,实现很简单,用起来很方便,各种实验都证明了其有效性,各种任务都可以尝试一下,效果应该不会太差。

通道分离卷积Mobilenets)

轻量级的网络,在mobilenet中,会有深度可分离卷积depthwise separable convolution,由depthwise(DW)pointwise(PW)两个部分结合起来,用来提取特征feature map,相比常规的卷积操作,其参数数量和运算成本比较低。


逐通道卷积(Depthwise Convolution)

【深度学习复习】重要知识点四_第9张图片

  1. 如上图,一个卷积核负责一个通道,叠加得到最终的特征。
  2. 它的缺点是:无法改变输出特征的通道数,而且缺少通道(即深度)之间的交流

【深度学习复习】重要知识点四_第10张图片


逐点卷积(Pointwise Convolution)

  1. 由于 depthwise convolution有以上的缺点,我们在 depthwise 之后再引入 pointwise 卷积,它就是一个1x1卷积,过程如下图所示。
  2. pointwise 卷积可以带来不同通道之间的交流,还可以改变输出特征的通道数
  3. 但是,虽然 pointwise 卷积有不同通道之间的交流,此时没有空间上的交流,所以比起正常卷积还是略差。

【深度学习复习】重要知识点四_第11张图片


AE与VAE区别

相比于自编码器,VAE更倾向于数据生成。只要训练好了decoder,我们就可以从某一个标准正态分布(一个区间)生成数据作为解码decoder的输入,来生成类似的、但是但不完全相同于训练数据的新数据,也许是我们从来没见过的数据,作用类似GAN

变分自编码器(Variational AutoEncoder, VAE)是生成式模型(Generative Model)的一种,另一种常见的生成式模型是生成对抗网络(Generative Adversial Network,GAN)


VAE和AE的区别

  • AE中隐层表示的分布未知,而VAE中隐变量服从高斯分布
  • AE中学习的是encoder和decoder,VAE中还学习了隐变量的分布,包含高斯分布的均值和方差
  • AE只能从一个x,得到对应的重构x
  • VAE可以产生新的z,从而得到新的x,即生成新的样本

【深度学习复习】重要知识点四_第12张图片


【深度学习复习】重要知识点四_第13张图片

图中的向量e服从于正态分布N(μ_noise,σ_noise),它的作用就是在正态分布N(m,σ)中进行随机采样

m,σ都是从数据X中产生的,也就是数据X会产生一个正太分布,这个正太分布的所有采样值,在理论上都是可以重建出X',根据采样值的不同,重建出的X'是类似但不完全相同的。因此可以产生出一些新的数据,所以VAE更具有创造性,更偏向于数据生成

假如我们有M个数据X,Latent code是N维度的,经过AE后训练的好的话,也就是在N为空间上产生了M个点,所以我们只能把这些数据作为压缩降维和取噪,数据集可以通过AE网络参数保存下来,以前我们需要保存M个数据,现在只需要保存对应的latent code和decoder即可。

但是如果是VAE的话,每个数据都会产生N个维度的正态分布,最后就会有M个N维度的正态分布,这样一来就类似于GMM(高斯混合模型),这样的铺的范围就大多了啊,我们可以在GMM上随意采样一个点,都可以生成一些高质量的数据出来,所以VAE更适合于数据生成。

总结

  • AE试图找到数据X 到latent code的单值映射,用于压缩降维和去噪。
  • VAE试图找到数据X到某个正太分布的映射,偏向于用于数据的生成。

Attention

【深度学习复习】重要知识点四_第14张图片


【深度学习复习】重要知识点四_第15张图片


【深度学习复习】重要知识点四_第16张图片


其他类型

【深度学习复习】重要知识点四_第17张图片


【深度学习复习】重要知识点四_第18张图片


【深度学习复习】重要知识点四_第19张图片

你可能感兴趣的:(深度学习理论,迁移学习,人工智能,机器学习)