网宿算法面试2019届

1. 标准化，为什么要标准化

2. 怎么检测异常值，或者判断其为异常值：散点图、箱型图、还有一些统计学方法

基于分类模型的异常值检测：

根据已有的数据，然后建立模型，得到正常的模型的特征库，然后对新来的数据点进行判断。

从而认定其是否与整体偏离，如果偏离，那么这个就是异常值。

建立贝叶斯模型、神经网络模型、分类模型、决策类分类、SVM的方法

3。怎么进行特征选择

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。

好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能：

1）减少特征数量、降维，使模型泛化能力更强，减少过拟合

2）增强对特征和特征值之间的理解

要从两方面考虑来选择特征：

1.特征是否具有发散性：

如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

2.特征与目标的相关性：

如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

Filter方法

过滤法的主要思想是查看特征的发散性和特征与目标的相关性，通过设定阈值的方法，过滤发散性低、相关性不强的特征。

过滤法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，即先选好特征，再用过滤后的特征来训练模型。

方差法、person系数、互信息、卡方检验

Wrap法

过滤法在选择特征时不考虑特征对学习器的效果，包裹式选择就很灵性了。

包裹式通常根据预测效果评分来为学习器“量身定制”特征子集，相较于过滤法，能使学习器的性能更佳，缺点即是计算开销往往也更大。

Embedded法

嵌入式特征选择方法也很灵性。

嵌入式的特征选择方法将特征选择和学习器的训练过程融为一体，即学习器自动的进行了特征选择。

比如决策树的信息增益、信息增益比、基尼指数，求解最优解时的L1、L2正则化等思想，都能选取对学习器有价值的特征，过滤价值不大的特征。

4. 人脸定位

人脸定位,一般是指人脸关键点定位。人脸识别包含了:人脸检测,人脸定位,人脸比对

5. 2个项目具体内容（自己做过的2个项目）

6. pca过程

7. 缺失值处理（类别型，连续型）

8. 怎么解决线性回归中的共线性问题

9. 交叉验证怎么进行特征选择

10. 不均衡数据处理方法

11. 有没深度学习实战经验

12. 随机生成大数据集数据，求前10个数据(一次性无法放入内存中，你怎么做？)。

外部排序指的是大文件的排序，即待排序的记录存储在外部存储器上，在排序过程中需进行多次的内、外存之间的交换。

首先将打文件记录分成若干个子文件，然后读入内存中，并利用内部排序的方法进行排序；

然后把排序好的有序子文件（称为：归并段）重新写入外存，再对这些归并段进行逐个归并，直到整个有序文件为止。

13. spark技能掌握程度