2020.9.9搜狗算法面试一面

记住几个写几个吧

项目里一共写了3个项目,还都比较水,实在没啥写的了,把kaggle泰坦尼克号写上了,结果居然这个问了半个点。

项目里有逻辑回归和Xgboost,基本上都是围绕他们两个问的。(一下问题不是按顺序来的,我想起几道说几道,有时间更正确答案)

1分别介绍逻辑回归和XGboost

2.怎样防止过拟合,提到了L1和L2,让我写他们两个的公式

3.问的特别细,泰坦尼克号简历上的每一句话都问了,关联特征怎么判断,新特征都有啥,对于类别值one-hot编码的话会不会维度很高。有没有用过直接输入类别值的数模型(没听过,o(╥﹏╥)o)

4评估指标有什么,精确率,召回率,F1分数,ROC,AUC,提到ROC让我说计算公式,。。。果然记错了,面试官让我重复,又错了一遍。

5 GBDT与xgboost有什么区别

6.随机森林和xgboost有什么区别

7.还是泰坦尼克,提到的bagging和stacking怎么实现的

8.卡的最久的一道题xgboost叶子节点的输出值怎么算,提示了太久,说实话xgboost真实一知半解,后来面试官说求均值,吐血

9.xgboost正则化项是什么?

10.有个问题问的啥记不清了,还是不会,不过倒是面试官提到xgboost的二阶泰勒展开(o(╥﹏╥)o)

11.xgboost的节点怎么分裂

12.问我用过PCA吗,说没有,但是用过SVD,让我介绍

13.用LSTM自编码结构无监督怎么计算损失

14.什么是网络预训练(项目相关)

15.线性判别分析的原理

16,提取的图片的直方图统计特征是什么

17.介绍googLeNet.

18说下训练过程,如果数据为1000,batch为200,是训练5个batch就结束了吗?做shff

19.吴恩达老师的课程提到鸡尾酒算法介绍。(回去翻翻)

20.优化算法有哪些,介绍下,训练逻辑回归有啥

21.有没有直接处理类别数据的树型模型

22.了不了解常用的点击率预估模型

手撕代码两道:

1.给一个数组有正有负,计算最大和。

2.二分查找,返回位置。

(两道题都出了点小bug,尤其第二个,面试官提示应该判断一下给定的数组元素个数是否为0)

你可能感兴趣的:(2020.9.9搜狗算法面试一面)