往期回顾
深度学习100问
精彩系列
常见的深度学习面试题及解答(二)
常见的深度学习面试题及解答(三)
1. 在训练过程中,若一个模型不收敛,那么是否说明这个模型无效?导致模型不收敛的原因有哪些?
不能说明这个模型就是无效的,造成模型不收敛的原因有很多,可能经过调整,模型效果很好。
原因:
https://blog.csdn.net/weixin_35479108/article/details/96981548
2. 什么是梯度消失?
神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类或识别准确率反而下降了。这种现象叫做消失的梯度问题。
3. 图像处理中锐化和平滑的操作?
锐化就是通过增强高频分量来减少图像中的模糊,在增强图像边缘的同时也增加了图像的噪声。
平滑与锐化相反,过滤掉高频分量,减少图像的噪声使图片变得模糊。
4. Relu比Sigmoid的效果好在哪里?
Sigmoid的导数只有在0的附近时有较好的激活性,而在正负饱和区域的梯度趋向于0,从而产生梯度弥散的现象,而relu在大于0的部分梯度为常数,所以不会有梯度弥散现象。Relu的导数计算的更快。Relu在负半区的导数为0,所以神经元激活值为负时,梯度为0,此神经元不参与训练,具有稀疏性。
5. 请你简要描述一下,VGG使用3*3卷积核的优势是什么?
2个3*3的卷积核串联和5*5的卷积核有相同的感知野,前者拥有更少的参数。多个3*3的卷积核比一个较大尺寸的卷积核有更多层的非线性函数,增加了非线性表达,使判决函数更具有判决性。
https://www.cnblogs.com/zhangyang520/p/10969960.html
6. 防止过拟合的方法有哪些?
面试之深度学习中的过拟合问题
7. 请你简要介绍一下RNN
深度学习之循环神经网络(RNN)
8. 请你谈一下对于SGD,Momentum,Adagard,Adam原理的认识
(1). SGD: 随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。
(2). Momentum: 参考了物理中动量的概念,前几次的梯度也会参与道当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。
(3). Adagard: 在训练过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模的和的开方成反比。
(4). Adam: 利用梯度的一阶矩估计和二阶矩估计,动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数比较平稳。
https://blog.csdn.net/weixin_42338058/article/details/93792205
9. 请你简要讲一下,当训练集中类别不均衡时,哪个参数最不准确?如何解决?
当训练集中类别不均衡时,参数 — 准确度(Accuracy) 最不准确。 解析:举例,对于二分类问题来说,正负样例比相差较大为99:1,模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例按照0.99的概率预测正类,该模型就能达到99%的准确率。
解决办法:
10. 请你说一下,哪些神经网络中会发生权重共享?
卷积神经网络、循环神经网络会发生权重共享
所谓的权重共享就是说,输入一张图片,这张图片是用一个filter进行卷积操作的时候,图片中的每一个位置都被同一个filter进行卷积,所以权重是一样的,也就是共享。这个是在一个卷积层操作的时候的权重共享,另一个卷积层是利用另一个filter对图片进行扫描,实现权重共享的。
神经网络中权重共享的理解