A 用改良的网络结构比如LSTM和GRUs
B 梯度裁剪
C Dropout
D 所有方法都不行
正确答案是:B, 您的选择是:A
解析:为了处理梯度爆炸问题,最好让权重的梯度更新限制在一个合适的范围。
LSTM在反向传播的时候,会有梯度累加,所以会减轻梯度消失的问题,但是由于有加法,所以如果存在梯度爆炸的可能,反而会加剧爆炸,一般用强制截断来避免梯度爆炸
A 场景1
B 场景2
C 两种情况都是
D 都不会选择l-BFGS
正确答案是:C, 您的选择是:D
解析:在这两种情况下,l-BFGS的效果都是最好的
A 去语法模型
B 循环神经网络
C 卷积神经网络
D 主成分分析(PCA)
正确答案是:D, 您的选择是:A
解析:主成分分析(PCA)主要用于特征降维,后续还需要接其他算法进行自然语言处理。
PCA只是一种数据维度调整方法
A SGD
B AdaGrad
C l-BFGS
D 拉格朗日松弛Subgradient method
正确答案是:D, 您的选择是:A
解析:优化算法无法作用于非连续目标。
A 1是对的,2是错的
B 都是对的
C 1是错的,2是对的
D 都是错的
正确答案是:D, 您的选择是:B
解析:在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。 所以dropout会使输入和输出权重都变为无效,而在dropconnect中,只有其中一种会被失活。
区别在于失活的是神经元还是连接,神经元失活时,相当于训练时暂时将该神经元排除在外,输入和输出权重无效。
A. D
B. A
C. C
D. B
正确答案是:C, 您的选择是:C
解析:你最好在模型最完善之前「提前终止」,所以C点是正确的。
A 预测结果与样本标签之间的误差
B 各个输入样本的平方差之和
C 各个网络权重的平方差之和
D 都不对
正确答案是:A, 您的选择是:A
解析:BP算法是一个迭代算法,它的基本思想如下: 将训练集数据输入到神经网络的输入层,经过隐藏层,最后达到输出层并输出结果,这就是前向传播过程。 由于神经网络的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层; 在反向传播的过程中,根据误差调整各种参数的值(相连神经元的权重),使得总损失函数减小。 迭代上述三个步骤(即对数据进行反复训练),直到满足停止准则。
A 当内存使用最优时这可以方便神经网络并行化
B 当用偶数是梯度下降优化效果最好
C 这些原因都不对
D 当不用偶数时,损失值会很奇怪
正确答案是:A, 您的选择是:A
解析:计算机中 CPU 和 GPU 的 memory 都是 2进制方式存储,将 batch size 设置成2的幂次就顺理成章了。
A. 234
B. 1234
C. 124
D. 134
正确答案是:B, 您的选择是:D
解析:所有项目都是正确的
A 正确的
B 错误的
正确答案是:A, 您的选择是:B
解析:循环神经元可以被认为是一个具有无限时间长度的神经元序列。
正确答案是:C, 您的选择是:B
解析:Dropout对于循环层效果并不理想,你可能需要稍微修改一下dropout技术来得到良好的结果。
A 神经图灵机
B 附加有循环单元的卷积神经网络
C 端到端完全连接的神经网络
D 都不可用
正确答案是:B, 您的选择是:D
解析:RNN的序列和CNN的空间,是有区分的 序列问题,强调的是先后顺序,这也引申出上下文的概念,一个翻译问题,这个词的含义可能和前后的单词形成的这个组合有联系(Skip-gram),也可能是它之前的所有单词都有联系(Attention),并且,借助RNN的state这样的记忆单元,使得一个序列位置的输出在数学上和之前的所有序列的输入都是有关系的。当然原始的RNN由于梯度的乘性问题,前面的序列的影响近乎为0,这个后面又用LSTM来修正为加性问题。RNN的数学基础可以认为是马尔科夫链,认为后续的值是有前者和一些参数的概率决定的。 CNN的卷积核,强调的是空间中的窗口,这个窗口和序列问题相同之处在于同样考虑前后,但RNN没有也不会考虑到空间上下问题。类似股票的价格,也不会在同一个x上出现多个y(价格),整个空间只有一条线,这样的数据密度本身也是不适合用CNN的
A 基于内容的寻址
B 基于位置的寻址
C 都不行
D 都可以
正确答案是:A, 您的选择是:A
A 跨距卷积层(Strided convolutional layer)
B ReLU层
C 局部跨距卷积层(Fractional strided convolutional layer)
D 仿射层(Affine layer)
正确答案是:C, 您的选择是:A
A Kernel SVM
B Neural Networks
C Boosted Decision Trees
D 以上所有
正确答案是:D, 您的选择是:D
A 它可以帮助降低维数
B 可以用于特征池
C 由于小的内核大小,它会减少过拟合
D 所有上述
正确答案是:D, 您的选择是:D
解析:1×1卷积在CNN中被称为bottleneck structure。