《动手学深度学习》学习网址:
《动手学》:过拟合、欠拟合及其解决方案
1. 关于验证数据集的描述错误的是:
答案:测试数据集可以用来调整模型参数。
解析:测试数据集不可以用来调整模型参数,如果使用测试数据集调整模型参数,可能在测试数据集上发生一定程度的过拟合,此时将不能用测试误差来近似泛化误差。
B 验证数据集可以用来调整模型参数;
C 在数据不够多的时候,k折交叉验证是一种常用的验证方法;
D k折交叉验证将数据分为k份,每次选择一份用于验证模型,其余的用于训练模型。
2. 关于过拟合、欠拟合概念的描述错误的是:
答案:过拟合和欠拟合可以同时发生。 解析:过拟合是指训练误差达到一个较低的水平,而泛化误差依然较大。
欠拟合是指训练误差和泛化误差都不能达到一个较低的水平。
发生欠拟合的时候在训练集上训练误差不能达到一个比较低的水平,所以过拟合和欠拟合不可能同时发生。 A
过拟合是指训练误差很低,泛化误差相对于训练误差要高很多。 C 欠拟合是指训练误差和泛化误差都无法到达一个较低的水平。 D
过拟合和欠拟合都是在训练中容易遇到的经典问题。
3. 关于模型复杂度和数据集大小造成欠拟合和过拟合的描述错误的是:
答案:缓解过拟合只能增加训练数据集的大小。
解析:过拟合还可以使用权重衰减和丢弃法来缓解,即使在一个比较小的数据集上使用了权重衰减和丢弃法之后也能够达到一个比较好的效果。
A 模型复杂度低容易导致欠拟合
B 训练数据集小容易导致过拟合
C 解决欠拟合可以考虑增加模型的复杂度
4. 关于权重衰减和丢弃法的描述错误的是:
答案:L2范数惩罚项通过惩罚绝对值较大的参数的方法来应对欠拟合的 解析:L2范数正则化也就是权重衰减是用来应对过拟合的。
A L2范数正则化在损失函数的基础上添加了L2范数惩罚项
C 丢弃法通过随机丢弃层间元素,使模型不依赖于某一个元素来应对过拟合的
D L2范数正则化是权重衰减的一种方式
《动手学》:梯度消失、梯度爆炸
5. 关于导致梯度消失和梯度爆炸的描述错误的是:
答案:激活函数使用sigmoid或者tanh可以缓解梯度消失.
解析:在激活函数的选择的地方讲过,在深层网络中尽量避免选择sigmoid和tanh激活函数,原因是这两个激活函数会把元素转换到[0, 1]和[-1, 1]之间,会加剧梯度消失的现象。
A .梯度消失会导致模型训练困难,对参数的优化步长过小,收效甚微,模型收敛十分缓慢
B.梯度爆炸会导致模型训练困难,对参数的优化步长过大,难以收敛
D. 在训练模型时,我们应该采取适当的措施防止梯度消失和梯度爆炸的现象
6. 一个在冬季部署的物品推荐系统在夏季的物品推荐列表中出现了圣诞礼物,我们可以推断该系统没有考虑到:
答案:协变量偏移
答案解释:可以理解为在夏季的物品推荐系统与冬季相比,时间或者说季节发生了变化,导致了夏季推荐圣诞礼物的不合理的现象,这个现象是由于协变量时间发生了变化造成的。
B标签偏移;
C概念偏移;
D没有问题.
7. 下列关于模型训练实战步骤排序正确的是:
获取数据集–数据预处理–模型设计–模型验证和模型调整(调参)–模型预测以及提交.
8. 关于协变量偏移、标签偏移、概念偏移的描述中错误的是:
答案:确保训练集和测试集中的数据取自同一个数据集,即使训练数据和测试数据数据量很少也可以防止协变量偏移和标签偏移。 答案解释:
如果数据量足够的情况下,确保训练数据集和测试集中的数据取自同一个数据集,可以防止协变量偏移和标签偏移是正确的。如果数据量很少,少到测试集中存在训练集中未包含的标签,就会发生标签偏移。
A协变量偏移和标签偏移可能同时发生; B标签偏移可以简单理解为测试时出现了训练时没有的标签; D概念偏移可以根据其缓慢变化的特点缓解。
《动手学》:循环神经网络进阶
9. LSTM单元中控制当前时间步输入的结构是?
答案:输入门
10. 实现深层循环神经网络需要修改的参数是?
答案:num_layers
11. 下列关于GRU说法正确的是?
答案:GRU中更新门有助于捕捉时间序列里长期的依赖关系
答案解释:
GRU有重置门和更新门,没有遗忘门。重置门有助于捕捉时间序列里短期的依赖关系,更新门有助于捕捉时间序列⾥长期的依赖关系。参考视频1分20秒起关于GRU的原理讲解。
12. 在LSTM模型的初始化中,下列不需要初始化的参数是?
答案:每个循环单元中的记忆细胞和循环单元的值 答案解释
每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态,而非参数,因此不需要初始化。
13. 下列关于RNN的说法错误的是?
答案:深层循环网络能有效抽取更高层更抽象的信息,层数越深效果越好。
答案解释:层数越深效果未必越好,层数的加深会导致模型的收敛变得困难。
A.GRU、LSTM都能捕捉时间序列中时间步距离较⼤的依赖关系。
B.双向循环神经网络在文本任务里能做到同时考虑上文和下文与当前词之间的依赖。 C.LSTM和GRU能一定程度缓解梯度消失与梯度爆炸的问题。
14. 双向循环神经网络前向和后向RNN连结的方式是
答案:前向的H_t 和后向的H_t用concat进行连结
《动手学》:机器翻译及相关技术
15. 数据预处理中分词(Tokenization)的工作是?
答案:B.把字符形式的句子转化为单词组成的列表
16. 不属于数据预处理工作的是?
A.得到数据生成器
B.建立词典
C.分词
D.把单词转化为词向量
答案:D
解析:单词转化为词向量是模型结构的一部分,词向量层一般作为网络的第一层。
17. 下列不属于单词表里的特殊符号的是?
A.未知单词
B.空格符
C.句子开始符
D.句子结束符
答案:B
解析:建立词典部分代码,空格不被认为是特殊字符,在该项目里,空格在预处理时被去除。
18. 关于集束搜索(Beam Search)说法错误的是
A.集束搜索结合了greedy search和维特比算法。
B.集束搜索使用beam size参数来限制在每一步保留下来的可能性词的数量。
C.集束搜索是一种贪心算法。
D.集束搜索得到的是全局最优解。
答案:D
解析:集束搜索是贪心算法。
19. 不属于Encoder-Decoder应用的是
A.机器翻译
B.对话机器人
C.文本分类任务
D.语音识别任务
答案:C
解析:Encoder-Decoder常应用于输入序列和输出序列的长度是可变的,如选项一二四,而分类问题的输出是固定的类别,不需要使用Encoder-Decoder
20. 关于Sequence to Sequence模型说法错误的是:
A.训练时decoder每个单元输出得到的单词作为下一个单元的输入单词。
B.预测时decoder每个单元输出得到的单词作为下一个单元的输入单词。
C.预测时decoder单元输出为句子结束符时跳出循环。
D.每个batch训练时encoder和decoder都有固定长度的输入。
答案:A
解析:每个batch的输入需要形状一致。
注意力机制与seq2seq模型
21. 以下对于注意力机制叙述错误的是:
A 注意力机制借鉴了人类的注意力思维方式,以获得需要重点关注的目标区域。
B 在计算注意力权重时,key 和 query 对应的向量维度需相等。
C 点积注意力层不引入新的模型参数。
D 注意力掩码可以用来解决一组变长序列的编码问题。
答案:B
解析:在Dot-product Attention中,key与query维度需要一致,在MLP Attention中则不需要。
22. 以下对于加入Attention机制的seq2seq模型的陈述正确的是:
A seq2seq模型不可以生成无穷长的序列。
B 每个时间步,解码器输入的语境向量(context vector)相同
C 解码器RNN仍由编码器最后一个时间步的隐藏状态初始化。
D 引入注意力机制可以加速模型训练。
答案:C
选项1:seq2seq模型的预测需人为设定终止条件,设定最长序列长度或者输出[EOS]结束符号,若不加以限制则可能生成无穷长度序列
选项2:不同,每个位置都会计算各自的attention输出
选项4:注意力机制本身有高效的并行性,但引入注意力并不能改变seq2seq内部RNN的迭代机制,因此无法加速。
23. 关于点积注意力机制描述错误的是:
A 高维张量的矩阵乘法可用于并行计算多个位置的注意力分数。
B 计算点积后除以 d−−√ \sqrt d 以减轻向量维度对注意力权重的影响。
C 可视化注意力权重的二维矩阵有助于分析序列内部的依赖关系。
D 对于两个有效长度不同的输入序列,若两组键值对完全相同,那么对于同一个query的输出一定相同。
答案:D 解析:有效长度不同导致 Attention Mask 不同,屏蔽掉无效位置后进行attention,会导致不同的输出。
《动手学》:Transformer
24. 关于Transformer描述正确的是:
A 在训练和预测过程中,解码器部分均只需进行一次前向传播。
B Transformer 内部的注意力模块均为自注意力模块。
C 解码器部分在预测过程中需要使用 Attention Mask。
D 自注意力模块理论上可以捕捉任意距离的依赖关系。
答案:D
解析:
选项1:训练过程1次,预测过程要进行句子长度次
选项2:Decoder部分的第二个注意力层不是自注意力,key-value来自编码器而query来自解码器
选项3:不需要
选项4:正确,因为自注意力会计算句子内任意两个位置的注意力权重
25.
26. 下列对于层归一化叙述错误的是:
A 层归一化有利于加快收敛,减少训练时间成本
B 层归一化对一个中间层的所有神经元进行归一化
C 层归一化对每个神经元的输入数据以mini-batch为单位进行汇总
D 层归一化的效果不会受到batch大小的影响
答案:C
解析: 批归一化(Batch Normalization)才是对每个神经元的输入数据以mini-batch为单位进行汇总
《动手学》:卷积神经网络基础
27. 假如你用全连接层处理一张256×256的彩色(RGB)图像,输出包含1000个神经元,在使用偏置的情况下,参数数量是:
答案:196609000
答案解释:图像展平后长度为3×256×256,权重参数和偏置参数的数量是3×256×256×1000 + 1000
= 196609000。
28. 假如你用全连接层处理一张256×256的彩色(RGB)图像,卷积核的高宽是3×3,输出包含10个通道,在使用偏置的情况下,这个卷积层共有多少个参数:
答案:280
答案解释: 输入通道数是3,输出通道数是10,所以参数数量是10×3×3×3+10=280。
29. conv2d = nn.Conv2d(in_channels=3, out_channels=4, kernel_size=3, padding=2)
,输入一张形状为3×100×100的图像,输出的形状为:
答案:4×102×102
答案解释: 输出通道数是4,上下两侧总共填充4行,卷积核高度是3,所以输出的高度是104−3+1=102,宽度同理可得。
30. 关于卷积层,以下哪种说法是错误的:
A 1×1卷积可以看作是通道维上的全连接
B 某个二维卷积层用于处理形状为3×100×100的输入,则该卷积层无法处理形状为3×256×256的输入
C 卷积层通过填充、步幅、输入通道数、输出通道数等调节输出的形状
D 两个连续的3\times33×3卷积核的感受野与一个5\times55×5卷积核的感受野相同
答案:B
解析:对于高宽维度,只要输入的高宽(填充后的)大于或等于卷积核的高宽即可进行计算
31. 关于池化层,以下哪种说法是错误的:
A 池化层不参与反向传播
B 池化层没有模型参数
C 池化层通常会减小特征图的高和宽
D 池化层的输入和输出具有相同的通道数
答案:
A 解释:池化层有参与模型的正向计算,同样也会参与反向传播
B 正确,池化层直接对窗口内的元素求最大值或平均值,并没有模型参数参与计算.
《动手学》:LeNet
32. 关于LeNet,以下说法中错误的是:
A LeNet主要分为两个部分:卷积层块和全连接层块
B LeNet的绝大多数参数集中在卷积层块部分
C LeNet在连接卷积层块和全连接层块时,需要做一次展平操作
D LeNet的卷积层块交替使用卷积层和池化层。
答案:B
解析:LeNet模型中,90%以上的参数集中在全连接层块
33. 关于卷积神经网络,以下说法中错误的是:
A 因为全连接层的参数数量比卷积层多,所以全连接层可以更好地提取空间信息
B 使用形状为2 \times 22×2,步幅为2的池化层,会将高和宽都减半
C 卷积神经网络通过使用滑动窗口在输入的不同位置处重复计算,减小参数数量
D 在通过卷积层或池化层后,输出的高和宽可能减小,为了尽可能保留输入的特征,我们可以在减小高宽的同时增加通道数
答案:A
《动手学》:卷积神经网络进阶
34. 关于AlexNet描述错误的是
A 用Dropout来控制全连接层的模型复杂度
B 包含有5层卷积和2层全连接隐藏层,以及1个全连接输出层
C 将LeNet中的ReLU激活函数改成了sigmoid激活函数。
D 首次证明了学习到的特征可以超越⼿⼯设计的特征
答案:C
35. 下列哪个网络串联多个由卷积层和“全连接”层构成的小⽹络来构建⼀个深层⽹络
答案:NiN
36. 下列模型不是由基础块重复堆叠而成的是
A. AlexNet
B. VGG
C. NiN
D. GoogLeNet
答案: A
37. 通道数为3,宽高均为224的输入,经过一层输出通道数为96,卷积核大小为11,步长为4,无padding的卷积层后,得到的feature map的宽高为
答案:54
答案解释:⌊(224−11)/4⌋+1=54
38. 关于VGG描述正确的是
A 使⽤全局平均池化层对每个通道中所有元素求平均并直接⽤于分类。
B 通过不同窗口形状的卷积层和最⼤池化层来并⾏抽取信息。
C 与AlexNet相比,难以灵活地改变模型结构。
D 通过重复使⽤简单的基础块来构建深度模型。
答案:D
解析:
A 描述的是NiN。
B描述的是GoogLeNet。
C. VGG相对AlexNet网络表达能力更强。