深度学习面试题

为了准备面试,所以在网上搜集一些深度学习面试题,还有自己面试过程中遇到的一些问题吧。

我自己面试的:

1 SVM推导,SVM多分类方法(1对1 ,1对多,多对多),lr loss funtion 推导 ,决策树含义。
2 解决过拟合方法。l1 l2详细介绍,解决梯度爆炸/弥散 方法
3 常用cnn及介绍,每一个经典模型的创新点
4 自己的炼丹(调参)技巧
5 kmeans adaboost
6 lr里面公式为啥用e(lr是指数组分布和广义线性模型推出来的,逻辑回归也自然是一种广义线性模型,所以e就从指数组分布中得来)
http://blog.csdn.net/u011467621/article/details/48197943
7.生成模型借助于联合概率分布才能求解出来,判别模型不需要联合概率分布
8.样本不均衡问题可以通过上采样和下采样来解决,即多的样本通过取其中一部分,少的样本重复利用。或者通过修改loss 函数,修改样本的权值,让少样本的更大权值。

9.决策树怎么做回归。让所有节点求平均值。
10. 拟牛顿法: 对loss函数二阶泰勒展开,让一阶项和二阶项极小化,即函数对所求参数的导数为0,得到迭代公式。

别人总结的:

https://www.zhihu.com/question/54308150
https://zhuanlan.zhihu.com/p/25005808
https://www.zhihu.com/question/41233373

概括一下上面两个链接的重点
1.BP SGD公式推导,这个虽然我还没被问到,但我觉得挺重要的
2.解决网络过拟合的手段有些什么呀Dropout的为什么可以解决过拟合呀Batch-normalization的思想是什么呀类别不平衡的时候怎么办啊目标检测中anchor box的做法和adaboost人脸检测中的滑窗检测有什么区别啊?跟踪和检测有什么区别啊?用过几个框架?它们的优劣分析一下

作者:小白在闭关
链接:https://www.zhihu.com/question/54308150/answer/150991535
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

3 CPU 和 GPU 的区别
4. CNN最成功的应用是在CV,那为什么NLP和Speech的很多问题也可以用CNN解出来?为什么AlphaGo里也用了CNN?这几个不相关的问题的相似性在哪里?CNN通过什么手段抓住了这个共性?

以上几个不相关问题的相关性在于,都存在局部与整体的关系,由低层次的特征经过组合,组成高层次的特征,并且得到不同特征之间的空间相关性。低层次的直线/曲线等特征,组合成为不同的形状,最后得到汽车的表示。
CNN抓住此共性的手段主要有四个:局部连接/权值共享/池化操作/多层次结构。局部连接使网络可以提取数据的局部特征;权值共享大大降低了网络的训练难度,一个Filter只提取一个特征,在整个图片(或者语音/文本) 中进行卷积;池化操作与多层次结构一起,实现了数据的降维,将低层次的局部特征组合成为较高层次的特征,从而对整个图片进行表示。

5 什麽样的资料集不适合用深度学习?
数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。
数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。

6.什麽造成梯度消失问题?
神经网络的训练中,通过改变神经元的权重,使网络的输出值尽可能逼近标签以降低误差值,训练普遍使用BP算法,核心思想是,计算出输出与标签间的损失函数值,然后计算其相对于每个神经元的梯度,进行权值的迭代。
梯度消失会造成权值更新缓慢,模型训练难度增加。造成梯度消失的一个原因是,许多激活函数将输出值挤压在很小的区间内,在激活函数两端较大范围的定义域内梯度为0。造成学习停止

7.温研东的回答
主要分成理解和应用首先看他能不能理解深度网络各个模块的物理意义,优化网络的方法,还有各种现有网络结构的应用场景和优缺点。比如,卷积层共享参数的目的,pooling层的作用。finetune是什么。dropout,bn等作用。一个网络为什么需要这些来组成?再看他能不能针对自己的任务,合理应用各种现有技术去解决。比如,网络结构的选择,该不该finetune,根据交叉检验的结果改进网络,该加层还是该删,不收敛怎么找原因,监督函数的选择等等。如果都是正面回答,个人认为是入门了。如果能找到待解决的问题和有价值的研究点,我觉得就不仅仅是入门水平了。比如,fcn的prediction都是独立的,能否根据需要引入约束对其建模(牛津某组工作),现有监督函数不满足要求,合理引入其他loss来辅助(cuhk)或提出更适合的(google)

作者:温研东
链接:https://www.zhihu.com/question/41233373/answer/90229776
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

8.为什么网络够深(Neurons 足够多)的时候,总是可以避开较差Local Optima?
参考文章:The Loss Surfaces of Multilayer Networks

  1. Loss. 有哪些定义方式(基于什么?), 有哪些优化方式,怎么优化,各自的好处,以及解释。

  2. Dropout。 怎么做,有什么用处,解释。

11.Activation Function. 选用什么,有什么好处,为什么会有这样的好处。
几种主要的激活函数:Sigmond / ReLU /PReLU

你可能感兴趣的:(机器学习)