网宿算法面试2019届

1. 标准化,为什么要标准化

2. 怎么检测异常值,或者判断其为异常值:散点图、箱型图、还有一些统计学方法

基于分类模型的异常值检测:

根据已有的数据,然后建立模型,得到正常的模型的特征库,然后对新来的数据点进行判断。

从而认定其是否与整体偏离,如果偏离,那么这个就是异常值。

建立贝叶斯模型、神经网络模型、分类模型、决策类分类、SVM的方法

3。怎么进行特征选择

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。

好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能:

1)减少特征数量、降维,使模型泛化能力更强,减少过拟合

2)增强对特征和特征值之间的理解

要从两方面考虑来选择特征:

1.特征是否具有发散性:

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

2.特征与目标的相关性:

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

Filter方法

过滤法的主要思想是查看特征的发散性和特征与目标的相关性,通过设定阈值的方法,过滤发散性低、相关性不强的特征。

过滤法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,即先选好特征,再用过滤后的特征来训练模型。

方差法、person系数、互信息、卡方检验

Wrap法

过滤法在选择特征时不考虑特征对学习器的效果,包裹式选择就很灵性了。

包裹式通常根据预测效果评分来为学习器“量身定制”特征子集,相较于过滤法,能使学习器的性能更佳,缺点即是计算开销往往也更大。

Embedded法

嵌入式特征选择方法也很灵性。

嵌入式的特征选择方法将特征选择和学习器的训练过程融为一体,即学习器自动的进行了特征选择。

比如决策树的信息增益、信息增益比、基尼指数,求解最优解时的L1、L2正则化等思想,都能选取对学习器有价值的特征,过滤价值不大的特征。

4. 人脸定位

人脸定位,一般是指人脸关键点定位。人脸识别包含了:人脸检测,人脸定位,人脸比对

5. 2个项目具体内容(自己做过的2个项目)

6. pca过程

7. 缺失值处理(类别型,连续型)

8. 怎么解决线性回归中的共线性问题

9. 交叉验证怎么进行特征选择

10. 不均衡数据处理方法

11. 有没深度学习实战经验

12. 随机生成大数据集数据,求前10个数据(一次性无法放入内存中,你怎么做?)。

外部排序指的是大文件的排序,即待排序的记录存储在外部存储器上,在排序过程中需进行多次的内、外存之间的交换。

首先将打文件记录分成若干个子文件,然后读入内存中,并利用内部排序的方法进行排序;

然后把排序好的有序子文件(称为:归并段)重新写入外存,再对这些归并段进行逐个归并,直到整个有序文件为止。

13. spark技能掌握程度

你可能感兴趣的:(网宿算法面试2019届)