【无标题】深度学习期末复习要点

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


深度学习期末复习要点
一、名词解释
监督学习:用已知某种或某些特性的样本作为训练集,以建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习。
无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
自监督学习:自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。
线性回归:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
逻辑回归:逻辑回归是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法
激活函数:激活函数,就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。
超参数:在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
二、简答题
(1)梯度下降算法的正确步骤是什么?
a.用随机值初始化权重和偏差
b.把输入传入网络,得到输出值
c.计算预测值和真实值之间的误差
d.对每一个产生误差的神经元,调整相应的(权重)值以减小误差
e.重复迭代,直至得到网络权重的最佳值
(2)什么是梯度消失、梯度爆炸,简述其原因和三种解决方法。
在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加,梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1,那么随着网络层数的增加,梯度更新会朝着指数衰减的方式减少这就是梯度消失
原因:两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。
解决方法:

  1. 重新设计网络模型
    梯度爆炸可以通过重新设计层数更少的网络来解决。使用更小的批尺寸对网络训练也有好处。另外也许是学习率过大导致的问题,减小学习率。
  2. 使用 ReLU 激活函数
    梯度爆炸的发生可能是因为激活函数,如之前很流行的 Sigmoid 和 Tanh 函数。使用 ReLU 激活函数可以减少梯度爆炸。采用 ReLU 激活函数是最适合隐藏层的,是目前使用最多的激活函数。
  3. 使用长短期记忆网络
    在循环神经网络中,梯度爆炸的发生可能是因为某种网络的训练本身就存在不稳定性,使用长短期记忆(LSTM)单元和相关的门类型神经元结构可以减少梯度爆炸问题。采用 LSTM 单元是适合循环神经网络的序列预测的最新最好实践。
  4. 使用梯度截断(Gradient Clipping)
    梯度剪切这个方案主要是针对梯度爆炸提出的,其思想是设置一个梯度剪切阈值,然后更新梯度的时候,如果梯度超过这个阈值,那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。
  5. 使用权重正则化(Weight Regularization)
    如果梯度爆炸仍然存在,可以尝试另一种方法,即检查网络权重的大小,并惩罚产生较大权重值的损失函数。该过程被称为权重正则化,通常使用的是 L1 惩罚项(权重绝对值)或 L2 惩罚项(权重平方)。
    6、预训练加finetunning
    其基本思想是每次训练一层隐藏层节点,将上一层隐藏层的输出作为输入,而本层隐节点的输出作为下一层隐节点的输入,这就是逐层预训练。在预训练完成后,再对整个网络进行“微调”(fine-tunning)。Hinton在训练深度信念网络(Deep Belief Networks中,使用了这个方法,在各层预训练完成后,再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优,然后整合起来寻找全局最优,此方法有一定的好处,但是目前应用的不是很多了。现在基本都是直接拿imagenet的预训练模型直接进行finetunning。
    7、批量归一化
    Batchnorm具有加速网络收敛速度,提升训练稳定性的效果,Batchnorm本质上是解决反向传播过程中的梯度问题。batchnorm全名是batch normalization,简称BN,即批规范化,通过规范化操作将输出信号x规范化保证网络的稳定性。
    8、残差结构
    残差网络的出现导致了image net比赛的终结,自从残差提出后,几乎所有的深度网络都离不开残差的身影,相比较之前的几层,几十层的深度网络,残差可以很轻松的构建几百层,一千多层的网络而不用担心梯度消失过快的问题,原因就在于残差的捷径(shortcut)部分,残差网络通过加入 shortcut connections,变得更加容易被优化。
    (3)请用图示或列式说明卷积的计算过程。
    对图像和滤波矩阵做内积(逐个元素相乘再求和)的操作就是卷积操作.
    【无标题】深度学习期末复习要点_第1张图片

(4)请用图示或列式说明反向传播的计算过程。
在定义一个神经网络的过程中,每个节点会被随机地分配权重和偏置。一次迭代后,我们可以根据产生的结果计算出整个网络的偏差,然后用偏差结合成本函数的梯度,对权重因子进行相应的调整,使得下次迭代的过程中偏差变小。结合成本函数的梯度来调整权重因子的过程就叫做反向传播。
【无标题】深度学习期末复习要点_第2张图片

(5)请列举三种CNN网络结构,并说明其特点。
1.AlexNet网络(2012年)
AlexNet含有五个卷积层,三个池化层和三个全连接层。
特点:
1)首次使用非线性激活函数ReLU,验证其在较深的网络中效果远超Sigmoid函数,不仅避免了在较深网络中出现的梯度弥散问题,还加快了网络训练速度。
2)训练中使用Dropout机制随机忽略一部分神经单元,有效避免过拟合。
3)使用最大池化,避免池化导致的糊化效应。
4)灵活运用数据增加策略减少过拟合风险,提高模型泛化能力。
5)使用cuda的多GPU训练缩短模型收敛所需要的时间。
2.VGG网络(2014年)
VGG16含有十三个卷积层,五个池化层和三个全连接。
VGG19含有十六个卷积层,五个池化层和三个全连接。
特点:该网络通过级联多个小尺寸卷积替代大尺寸卷积核,使得多个小卷积核和一个大卷积核的神经元感受野相同,不仅有效减少网络参数量,同时多个小卷积核增加了网络非线性变换和网络深度。相比于AlexNet,VGG有更多的层数,能够抽取更加复杂抽象的高层特征,提高了模型分类的准确度。
3.Resnet网络(2015年)
Resnet18含有九个卷积层,两个池化层和一个全连接。
特点:提出残差模块,通过多层卷积去学习输入和输出之间的残差,而非直接去学习输入和输出之间的映射,使得深度网络更容易训练,当深度大于50,在3X3卷积运算前采用1X1降低计算量
(6)请列举三种GAN网络结构,并说明其特点。
GAN的系列经典模型讲解_ch18328071580的博客-CSDN博客
1.CGAN:
条件生成对抗网络(CGAN)是对原始GAN的一个扩展,生成器和判别器都增加额外标签信息 C为条件, y 可以是任意信息,例如类别信息,或者其他模态的数据。
特点:其主要特点是在判别器和生成器的输入中都加入额外的标签信息,解决了标签数据的生成问题。
2.DCGAN
DCGAN是将CNN与GAN的一种结合。其将卷积网络引入到生成式模型当中来做无监督的训练,利用卷积网络强大的特征提取能力来提高生成网络的学习效果。
DCGAN的原理和GAN对抗生成是一样的。它只是把GAN的G和D换成了两个卷积神经网络(CNN),但不是直接换就可以了。DCGAN对卷积神经网络的结构做了一些改变,以提高样本的质量和收敛的速度。
特点:
1)取消所有pooling层。
2)G网络中使用转置卷积进行上采样,D网络中用加入stride的卷积代替pooling;
3)除了生成器模型的输出层和判别器模型的输入层,在网络其它层上都使用了BN,使用BN可以稳定学习,有助于处理初始化不良导致的训练问题;
4)去掉全连接层,使网络变为全卷积网络;
5)G网络中使用ReLU作为激活函数,最后一层使用tanh;
6)D网络中使用LeakyReLU作为激活函数。
3.Cyclegan
CycleGAN本质上是两个镜像对称的GAN,构成了一个环形网络。两个GAN共享两个生成器,并各自带一个判别器,即共有两个判别器和两个生成器。一个单向GAN两个loss,两个即共四个loss。
特点:
CycleGAN特点就是通过一个循环,首先将图像从一个域转换到另一个域,然后,再转回来,如果两次转换都很精准的话,那么,转换后的图像应该与输入的图像基本一致。通过这样的的一个循环,CycleGAN将转换前后图片的配对,类似于有监督学习,提升了转换效果。可以实现无配对的两个图片集的训练。
(7)请列举三种目前自然语言处理深度学习模型,并说明其特点。
词向量、基于窗口的模型、RNN、CNN,它们的使用场景如下:
1.Bag of words:对于分类问题可以提供一个很好的基础模型,可以在其后添加若干层deep layer进一步改善效果。
2.Window model:对于不需要有很长的上下文的分类问题适用,如POS(Part of speech), NER(Named Entity Recognition)等问题。
3.CNN:对于分类问题效果较好,且适合并行计算。
4.RNN:由于仅利用最后一个特征向量,对于分类问题不一定效果很好,且无法并行计算。但是对于语言模型更为适用,因为包含更多的顺序信息,而且与Attention机制结合效果会更好。
前向网络:参数长度固定,传统
循环网络:适合处理较长序列的一维数据,难以并行计算
卷积网络:适合处理二维数据,可以高效提取局部性特征表示,难以处理超长距离依赖
注意力网络:降低元素间信息传递距离,难以处理超长距离依赖
(8)LSTM相对于RNN的优势在哪里?
LSTM用加和的方式取代了乘积,使得很难出现梯度弥散。但是相应的更大的几率会出现梯度爆炸,但是可以通过给梯度加门限解决这一问题。
RNN引入了循环的概念,但是在实际过程中却出现了初始信息随时间消失的问题,即长期依赖问题,所以引入了LSTM。
LSTM:因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸。推导forget gate,input gate,cell state, hidden information等因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸的变化是关键.
(9)简述GAN的基本思想。
生成对抗网络由一个生成网络(Generator)与一个判别网络(Discriminator)组成。生成网络从潜在空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。
(10)简述GAN的训练过程。
GAN是通过训练两个神经来实现生成模型,其中两个模型分别是生成器模型和判别器模型。在训练过程中,判别器将尽可能提高识别真数据和假数据的能力,而生成器将尽可能生成真的数据;判别器使用真实数据和假数据一起来进行训练来更新权值,而生成器只能使用完整模型(冻结的判别器,输入假的数据,但标记为真)通过判别器的误差来反馈到前面实现权值更新。
GAN的训练在同一轮梯度反传的过程中可以细分为2步,即先训练判别器再训练生成器。需要注意的是,不是等所有的判别器训练好以后,才开始训练生成器,因为判别器的训练也需要上一轮梯度反传中生成器的输出值作为输入。
(11)简述强化学习的基本原理。
【无标题】深度学习期末复习要点_第3张图片
强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。
智能体:自主采取行动以完成任务的强化学习系统;指强化学习需要优化的部分我们能够精确控制
环境:智能体的交互对象我们不能直接控制
回报:(reward)是强化学习的核心,是强化学习区别其他机器学习的标志特征。特点:衡量了智能体在时间上做得有多好。智能体的目标就是最大化累计回报。回报分:立即回报,长期回报。
动作是知能体主动和环境交互的媒介动作,必须对环境起到一定的控制作用。
示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。Agent 在环境里面获取到状态,agent 会利用这个状态输出一个动作(action),一个决策。然后这个决策会放到环境之中去,环境会根据 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。
特点:没有任何标记,仅有一个延迟的回报信号
序贯决策 (SequentialDecision Making) 过程
数据通过与环境不断交互动态产生(动态数据)数据之间高度相关
(12)简述迁移学习的基本原理。
迁移学习就是利用数据、任务或模型之间的相似性,将在旧的领域学习过或训练好的模型,应用于新的领域这样的一个过程。
现阶段CNN在自然图像分析取得了很大的进步,CNN在自然图像上得到的“知识”体现在CNN的权值参数中,将自然图像知识迁移到医学图像就是迁移网络参数。常见的CNN迁移学习方法包括两种:一种是特征迁移学习,另一种是微调迁移学习。
特征迁移学习是为了寻找源领域和目标领域特征空间中共同的特征表示,缩小两个领域之间的差异,用于提高目标领域的分类性能。特征迁移学习得到的特征起到了不同领域知识的迁移作用,使用源领域的特征有利于目标领域分类。在眼底图像分类中,特征迁移学习是使用自然图像训练得到的参数初始化网络,通过CNN提取医学图像上的特征作为目标图像的特征,再使用分类器对提取到的特征进行训练。
微调迁移学习是基于参数的迁移学习,寻找源领域和目标领域中 共享的模型参数,利用源领域的模型参数优化目标领域的模型参数,实现不同领域数据的知识迁移,有利于目标领域分类。在眼底图像分类中,微调迁移学习是使用自然图像训练得到的权值参数初始化网络,通过训练医学图像优化网络参数,再对医学图像进行分类。
(13)图卷积网络与CNN的区别是什么。
(1)CNN与GCN处理数据结构的不同:CNN处理的是矩阵结构,是以像素点排列成的矩阵为基础,被称为欧式结构(Euclidean Structure)GCN处理的是图拓扑结构,即非欧式结构(Non Euclidean Structure),如社交网络,信息网络等。
(2) GNN:图神经网络,由于传统的CNN网络无法表示顶点和边这种关系型数据,便出现了图神经网络解决这种图数据的表示问题,这属于CNN往图方向的应用扩展
(3)首先,CNN在图片等数据上好用,是因为很容易找到它们的邻接点。这些邻接点其实就是这个核的感受野。在图片中,CNN是通过卷积核来提取图片的局部特征。卷积是通过对当前像素点以及其临近的像素点进行加权求和。类似图片这种数据是欧几里得结构数据 Euclidean Structure Data ,它们排列整齐,我们很容易找到它们临近的点。然而,对于非欧几里德结构数据的拓扑图,较难定义他们的邻居结点,或者每个节点的邻居结点不同,那我们就不能用同一个尺寸的卷积核对整个拓扑图进行学习了,因此研究出现了GCN。
(14)深度学习模型在训练过程中,若一个模型不收敛,那么是否说明这个模型无效?导致模型不收敛的原因有哪些?
并不能说明这个模型无效,导致模型不收敛的原因可能有数据分类的标注不准确,样本的信息量太大导致模型不足以适合整个样本空间。学习率设置的太大容易产生震荡,太小会导致不收敛。可能复杂的分类任务用了简单的模型。数据没有进行归一化的操作。

你可能感兴趣的:(深度学习)