面试笔试整理5:项目问题准备

1、课题:
从目的-》意义-》难点-》如何解决的-》用了什么方法为什么要用这些方法-》创新点。
2、实习
实习期间主要负责华为HC大会的推荐算法以及数据分析,用过SQL Server,制作过报表。
3、自己曾经做过一些比赛,但是结果不是很好,不过还是准备写到简历里了,毕竟也算是自己做过的项目。
做了一些数据挖掘的比赛,面试会问到的常见问题其实也没有多少,无非是从数据预处理、特征和模型几个内容。以jd前一段时间的JData数据挖掘比赛为例。

(1)应该对所有的数据进行大致的统计,了解数据的大致构成、数据缺失情况、不同表格中特征的大致分布情况哪些是离散特征哪些是连续特征,从而初步预估出那些信息和真实场景是有关联的,
(2)进阶
主要包括数据特征的提取(如年龄、购买情况、性别等基本特征;以及诸多设计的交叉特征),特征缺失值处理(可以从填充缺失值(分为离散和连续两种情况)),数据预处理,模型设计,测试代码编写,训练集测试集构造,模型调参和再优化几个部分组成。

2、xgboost的原理和GBDT的不同
因为在数据比赛中用xgboost主要是看上了它的自由性和速度,但是精确性可能并没有多少提高。比如xgboost的shrinkage(缩减)、借鉴随机森林的列抽样防止过拟合。但是时间成本其实还是很值钱的。

3、尝试使用ensemble,不但使用在数据增加上,也可以用于将基础模型进行整合。

4、用的规则还是模型?用了多少数据?这些细节的问题也应该知道

你可能感兴趣的:(学习数据挖掘进程,机器学习)