深度学习面试题-3

1. 梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?

A 用改良的网络结构比如LSTM和GRUs
B 梯度裁剪
C Dropout
D 所有方法都不行

正确答案是:B, 您的选择是:A
解析:为了处理梯度爆炸问题,最好让权重的梯度更新限制在一个合适的范围。

LSTM在反向传播的时候,会有梯度累加,所以会减轻梯度消失的问题,但是由于有加法,所以如果存在梯度爆炸的可能,反而会加剧爆炸一般用强制截断来避免梯度爆炸

2. 有许多种梯度下降算法,其中两种最出名的方法是l-BFGS和SGD。l-BFGS根据二阶梯度下降而SGD是根据一阶梯度下降的。 在下述哪些场景中,会更加偏向于使用l-BFGS而不是SGD? 场景1: 数据很稀疏 场景2: 神经网络的参数数量较少

A 场景1
B 场景2
C 两种情况都是
D 都不会选择l-BFGS

正确答案是:C, 您的选择是:D
解析:在这两种情况下,l-BFGS的效果都是最好的

3. 下面哪种方法没办法直接应用于自然语言处理的任务?

A 去语法模型
B 循环神经网络
C 卷积神经网络
D 主成分分析(PCA)

正确答案是:D, 您的选择是:A
解析:主成分分析(PCA)主要用于特征降维,后续还需要接其他算法进行自然语言处理。

PCA只是一种数据维度调整方法

4. 对于非连续目标在深度神经网络的优化过程中,下面哪种梯度下降方法是最好的?

A SGD
B AdaGrad
C l-BFGS
D 拉格朗日松弛Subgradient method

正确答案是:D, 您的选择是:A
解析:优化算法无法作用于非连续目标

5. 下面哪个叙述是对的? Dropout对一个神经元随机屏蔽输入权重 Dropconnect对一个神经元随机屏蔽输入和输出权重

A 1是对的,2是错的
B 都是对的
C 1是错的,2是对的
D 都是错的

正确答案是:D, 您的选择是:B
解析:在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。 所以dropout会使输入和输出权重都变为无效,而在dropconnect中,只有其中一种会被失活。

区别在于失活的是神经元还是连接,神经元失活时,相当于训练时暂时将该神经元排除在外,输入和输出权重无效。

6. 当训练一个神经网络来作图像识别任务时,通常会绘制一张训练集误差和交叉训练集误差图来进行调试。在图中,最好在哪个时间停止训练?

深度学习面试题-3_第1张图片

A. D
B. A
C. C
D. B

正确答案是:C, 您的选择是:C
解析:你最好在模型最完善之前「提前终止」,所以C点是正确的。

7. 反向传播算法一开始计算什么内容的梯度,之后将其反向传播?

A 预测结果与样本标签之间的误差
B 各个输入样本的平方差之和
C 各个网络权重的平方差之和
D 都不对

正确答案是:A, 您的选择是:A
解析:BP算法是一个迭代算法,它的基本思想如下: 将训练集数据输入到神经网络的输入层,经过隐藏层,最后达到输出层并输出结果,这就是前向传播过程。 由于神经网络的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层; 在反向传播的过程中,根据误差调整各种参数的值(相连神经元的权重),使得总损失函数减小。 迭代上述三个步骤(即对数据进行反复训练),直到满足停止准则。

8. 在构建一个神经网络时,batch size通常会选择2的次方,比如256和512。这是为什么呢?

A 当内存使用最优时这可以方便神经网络并行化
B 当用偶数是梯度下降优化效果最好
C 这些原因都不对
D 当不用偶数时,损失值会很奇怪

正确答案是:A, 您的选择是:A
解析:计算机中 CPU 和 GPU 的 memory 都是 2进制方式存储,将 batch size 设置成2的幂次就顺理成章了。

9. Xavier初始化是最为常用的神经网络权重初始化方法, V a r ( W ) = 2 n i n + n o u t \mathrm{Var}(W)=\frac{2}{n_{in}+n_{out}} Var(W)=nin+nout2是初始化的公式。Xavier初始化是用来帮助信号能够在神经网络中传递得更深,下面哪些叙述是对的?

  1. 如果权重一开始很小,信号到达最后也会很小
  2. 如果权重一开始很大,信号到达最后也会很大
  3. Xavier初始化是均匀分布中采样得到的
  4. Xavier初始化可以帮助减少梯度弥散问题

A. 234
B. 1234
C. 124
D. 134

正确答案是:B, 您的选择是:D
解析:所有项目都是正确的

10. 一个循环神经网络可以被展开成为一个完全连接的、具有无限长度的普通神经网络,这种说法是

A 正确的
B 错误的

正确答案是:A, 您的选择是:B
解析:循环神经元可以被认为是一个具有无限时间长度的神经元序列。

11. Dropout是一种在深度学习环境中应用的正规化手段。它是这样运作的:在一次循环中我们先随机选择神经层中的一些单元并将其临时隐藏,然后再进行该次循环中神经网络的训练和优化过程。在下一次循环中,我们又将隐藏另外一些神经元,如此直至训练结束。根据以上描述,Dropout技术在下列哪种神经层中将无法发挥

深度学习面试题-3_第2张图片
A 仿射层
B 卷积层
C RNN层
D 均不对

正确答案是:C, 您的选择是:B
解析:Dropout对于循环层效果并不理想,你可能需要稍微修改一下dropout技术来得到良好的结果。

12. 假设你的任务是使用一首曲子的前半部分来预测乐谱的未来几个小节,比如输入的内容如下的是包含音符的一张乐谱图片:而你需要输出描绘了接下来若干个音符的图片:关于这类问题,哪种架构的神经网络最好?

深度学习面试题-3_第3张图片
深度学习面试题-3_第4张图片

A 神经图灵机
B 附加有循环单元的卷积神经网络
C 端到端完全连接的神经网络
D 都不可用

正确答案是:B, 您的选择是:D
解析:RNN的序列和CNN的空间,是有区分的 序列问题,强调的是先后顺序,这也引申出上下文的概念,一个翻译问题,这个词的含义可能和前后的单词形成的这个组合有联系(Skip-gram),也可能是它之前的所有单词都有联系(Attention),并且,借助RNN的state这样的记忆单元,使得一个序列位置的输出在数学上和之前的所有序列的输入都是有关系的。当然原始的RNN由于梯度的乘性问题,前面的序列的影响近乎为0,这个后面又用LSTM来修正为加性问题。RNN的数学基础可以认为是马尔科夫链,认为后续的值是有前者和一些参数的概率决定的。 CNN的卷积核,强调的是空间中的窗口,这个窗口和序列问题相同之处在于同样考虑前后,但RNN没有也不会考虑到空间上下问题。类似股票的价格,也不会在同一个x上出现多个y(价格),整个空间只有一条线,这样的数据密度本身也是不适合用CNN的

13. 当在内存网络中获得某个内存空间时,通常选择读取矢量形式数据而不是标量,这里需要的哪种类型的寻址来完成?

A 基于内容的寻址
B 基于位置的寻址
C 都不行
D 都可以

正确答案是:A, 您的选择是:A

14. 一般我们建议将卷积生成对抗网络(convolutional generative adversarial nets)中生成部分的池化层替换成什么?

A 跨距卷积层(Strided convolutional layer)
B ReLU层
C 局部跨距卷积层(Fractional strided convolutional layer)
D 仿射层(Affine layer)

正确答案是:C, 您的选择是:A

15. 以下哪些是通用逼近器?

A Kernel SVM
B Neural Networks
C Boosted Decision Trees
D 以上所有

正确答案是:D, 您的选择是:D

16. 在CNN中使用1×1卷积时,下列哪一项是正确的?

A 它可以帮助降低维数
B 可以用于特征池
C 由于小的内核大小,它会减少过拟合
D 所有上述

正确答案是:D, 您的选择是:D
解析:1×1卷积在CNN中被称为bottleneck structure。

你可能感兴趣的:(面试题,神经网络,深度学习,机器学习)