带答案面经分享-面试中最常考的树模型!

树模型可以说在机器学习的面试中,是技术官最喜欢问的一类问题,今天小编就带你一起回顾一下去年校招中我所经历的树模型相关的问题,这次带答案呦~~(答案是小编的理解,如果有遗漏的地方,欢迎大家在留言区指正,同时,如果有更多关于树模型的题目,也欢迎在留言区补充)

公众号可以阅读全文:

带答案面经分享-面试中最常考的树模型!_第1张图片

问题目录:
1、决策树的实现、ID3、C4.5、CART(贝壳)
2、CART回归树是怎么实现的?(贝壳)
3、CART分类树和ID3以及C4.5有什么区别(贝壳)
4、剪枝有哪几种方式(贝壳)
5、树集成模型有哪几种实现方式?(贝壳)boosting和bagging的区别是什么?(知乎、阿里)
6、随机森林的随机体现在哪些方面(贝壳、阿里)
7、AdaBoost是如何改变样本权重,GBDT分类树的基模型是?(贝壳)
8、gbdt,xgboost,lgbm的区别(百度、滴滴、阿里,头条)
9、bagging为什么能减小方差?(知乎)

福利问题:
10、关于AUC的另一种解释:是挑选一个正样本和一个负样本,正样本排在负样本前面的概率?如何理解?
11、校招是集中时间刷题好,还是每天刷一点好呢?
12、现在推荐在工业界基本都用match+ranking的架构,但是学术界论文中的大多算法算是没有区分吗?end-to-end的方式,还是算是召回?
13、内推刷简历严重么?没有实习经历,也没有牛逼的竞赛和论文,提前批有面试机会么?提前批影响正式批么?
14、除了自己项目中的模型了解清楚,还需要准备哪些?看了群主的面经大概知道了一些,能否大致描述下?

1、决策树的实现、ID3、C4.5、CART(贝壳)

这道题主要是要求把公式写一下,所以决策树的公式大家要理解,并且能熟练地写出来。这里咱们简单回顾一下吧。主要参考统计学习方法就好了。

ID3使用信息增益来指导树的分裂:

带答案面经分享-面试中最常考的树模型!_第2张图片

C4.5通过信息增益比来指导树的分裂:

带答案面经分享-面试中最常考的树模型!_第3张图片

CART的话既可以是分类树,也可以是回归树。当是分类树时,使用基尼系数来指导树的分裂:

带答案面经分享-面试中最常考的树模型!_第4张图片

当是回归树时,则使用的是平方损失最小:

带答案面经分享-面试中最常考的树模型!_第5张图片

2、CART回归树是怎么实现的?(贝壳)

CART回归树的实现包含两个步骤:
1)决策树生成:基于训练数据生成决策树、生成的决策树要尽量大
2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

这部分的知识,可以看一下《统计学习方法》一书。

3、CART分类树和ID3以及C4.5有什么区别(贝壳)

1)首先是决策规则的区别,CART分类树使用基尼系数、ID3使用的是信息增益,而C4.5使用的是信息增益比。
2)ID3和C4.5可以是多叉树,但是CART分类树只能是二叉树(这是我当时主要回答的点)

关注上方公众号免费阅读全文,嘻嘻

你可能感兴趣的:(带答案面经分享-面试中最常考的树模型!)