深度学习面试笔记

深度学习笔记

CNN模型汇总

  1. MLP模型,多层感知机模型。
  2. LeNet模型,第一个经典的CNN模型,之前是DNN模型。优点是将共享卷积参数。
  3. AlexNet模型,ReLU和dropout。
  4. vgg模型,1x1卷积核,网络变深,常用的vgg16。用于设计更深的网络。
  5. GoogleNet模型,inception模块。inception V2模块提出BatchNormalization。
  6. Resnet模型,设计了跳跃连接的残差结构。使得更深的网络成为了可能。
  7. 卷积公式,B=(A-K+2P)/S+1,A卷积到B。
  8. 感受野公式,A=(B-1)*S+K-2P,B感受野到A。

RNN模型汇总

  1. N-Gram模型,步骤:构建三元字典,对词编码,构建模型训练,预测下一个词。
  2. RNN模型,保留结构时间信息的神经网络,隐藏层的单元之间相互有关联,有时间结构信息。N-N问题,用于视频帧的分类。N-1,用于情感分类问题。1-N,用于图像生成文字。N-M,即seq-seq,又称encoder-decoder,运用最广泛,有机器翻译、语音识别、阅读理解和文本摘要。
    RNN缺点:长时记忆实践不可行,会存在梯度消失问题,短时记忆更有效。
  3. LSTM模型,创新点:细胞状态。因记忆能力有限,记住重要的,忘记无关紧要的。优点:在tanh的基础上添加了sigmoid当作遗忘门、输入门和输出门。Feedforward 能做的是向量对向量的one-to-one mapping,Recurrent 将其扩展到了序列对序列 sequence-to-sequence mapping。
  4. GRU模型,将忘记门和输入门合成了一个单一的更新门。

GAN模型汇总

  1. GAN模型,生成对抗网络,生成网络与判别网络。
  2. 自动编码器模型,一种无监督的神经网络模型,可以学习到输入数据的隐含特征。
  3. 变分自动编码器模型,增加参数权值约束。

散点知识

  1. 网络工作模式,net.train()和net.eval()代表的是网络的两种工作模式。
  2. 词嵌入模型,将自然语言中的词语映射为数值的一种方式。
  3. 时间序列模型,一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测。

深度面试题

  1. 在神经网络中,有哪些办法防止过拟合?
    dropout
    加L1,L2正则化
    BatchNormalization
    网络bagging
    提前终止训练
    数据增强

  2. 如何解决深度学习中模型训练效果不佳的情况?
    选取合适的损失函数
    选取合适的batchsize

  3. 卷积核通道数与卷积输出层通道数如何确定?
    卷积核通道数=卷积输入层的通道数
    卷积输出层通道数=卷积核的个数

  4. 归一化和标准化的区别是什么?

  5. 激活函数中,为什么ReLu要好过于tanh和sigmoid?
    运算速度快,使网络稀疏,减少过拟合。
    与BN搭配有更好的效果。

  6. LSTM模型中,sigmoid与tanh的作用
    前者用于忘记门控制,后者用于数据处理。

  7. 神经网络发展史
    sigmoid会饱和,造成梯度消失。于是有了ReLU。
    ReLU负半轴是死区,造成梯度变0。于是有了LeakyReLU,PReLU。
    强调梯度和权值分布的稳定性,由此有了ELU,以及较新的SELU。
    太深了,梯度传不下去,于是有了highway。
    干脆连highway的参数都不要,直接变残差,于是有了ResNet。
    强行稳定参数的均值和方差,于是有了BatchNorm。
    在梯度流中增加噪声,于是有了 Dropout。
    RNN梯度不稳定,于是加几个通路和门控,于是有了LSTM。
    LSTM简化一下,有了GRU。
    GAN的JS散度有问题,会导致梯度消失或无效,于是有了WGAN。
    WGAN对梯度的clip有问题,于是有了WGAN-GP。

  8. 梯度消失爆炸的解决方案
    预训练加微调
    梯度剪切、权重正则(针对梯度爆炸)
    使用不同的激活函数
    使用batchnorm
    使用残差结构
    使用LSTM网络

你可能感兴趣的:(深度学习,人工智能,神经网络)