某鹅的面试

下午刚到实验室,正在做实验之际,一条来自鹅场短信,请问下午有时间电话面试么,激动地赶紧回复有时间呀,没错,就是周末,周末鹅场难道也不休息么?勤奋的企业!!!!于是我转去了僻静的楼道间,静静等待电话。

电话是个略带南方口音的男声打来的,首先问了能不能来深圳实习,of course,我就是冲着深圳去的,又问了一些基本情况,你什么时候毕业呀?这些问题对我的紧张情绪缓解很多。

接着开始进入正题,介绍一下自己的项目,因为这几个项目都是我最近在忙的 ,所以还是相当熟悉的,答得比较顺畅,除了关于一个mapreduce的项目,由于时间较长,我记得不太清楚实现细节了,导致这个问题我答得很不好

接着就这我的项目,问了问相关的几个优化算法(lbfs,de等),还有机器学习的方法(svm)等等。svm算法是重点呀。

以及我的项目在实际生活的应用。

然后给了一个场景,问推荐算法(用户广告点击率以及推荐什么广告),我大致说了一下,模型什么的。后来上网查了一下资料,以下:


我的思路:用户点击的概率,我们可以想他是一个分类的问题,朴素贝叶斯(对关联的特征处理不好,放弃),随机森林(对关联性的特征处理比较好,参数调整比较麻烦呀,我当时回答的是这个,觉得比较简单的,不会产生过拟合,毕竟我们要面对高维的信息,svm还是免了吧),LR(LR可以给出一个置信度的估计,但是特征什么的可是要自己处理好啊,还是算了吧 )。

background: 广告点击率预测 (pCTR Predict Click-Through Rate) 是广告算法中最核心的技术了。 pCTR 要解决的问题是预测特定用户在特定广告位对特定广告当特定环境下的点击概率。为什么 pCTR 如此重要,因为广告排序的核心是 eCPM = pCTR * CPC , CPC 是广告主对点击的出价,是个已知量,所以只有一个 pCTR 变量。当然在实际中不可能是如此简单的排序公式,比如还有质量得分 (Quality Score) ,比如 Google 的质量 得分因素 。(这个部分,面试官有比较详细的描述。)


feature abstract:搜集特征的时候,会包括用户的特征以及广告的特征,其中用户的特征可以从其他数据池中积淀的特征来选择(推荐系统冷启动问题),在选择特征的是时候,如果采用的是逻辑回归这种线性模型,需要手动构造特征变换,自己把非线性的特征搞出来才能更好处理非线性问题。常见的特征变换方法比如特征组合,特征选择,特征离散化归一化等。


model selection:

                             LR:模型简单,收敛速度快,给出一个点击的概率,但是容易有一大部分特征工程的事情。

                             GDBT:对于gbdt,开源的实现有很多,但效果差别比较大,这里推荐一个开源实现xgboost,很多kaggle上的比赛借助这个工具都拿到了好名次。简单的说原始paper里是在函数空间上梯度下降求解,在求解步长时一般都是固定学习率。而xgboost对损失函数做了二阶的泰勒展开,考虑了损失函数的二阶梯度信息,并加入了正则项整体求最优解,有比较好的泛化性能。另外在具体建树的分裂节点过程也不是大多数实现里基于信息增益等,而是结合具体目标函数的真实下降量。有人做过各实现的评测,xgboost在性能和效果上都是相当不错的。(摘自其他微博)


使用ensemble 的方法,应该既可以避免过拟合,也可以达到比较好的效果。


以上。。。。。


你可能感兴趣的:(其他)