信也科技面经

2020.9.15投递
2020.9.18笔试七道主观题 3or4概率统计题目、1道编程填空题目、1道风控模型分析题目、1道机器学习题目

2020.9.25 一面有些记不太清除了
自我介绍

挖实习经历：风控相关：解释一些WOE值是怎么计算的，IV值是怎么计算的

还有就是一些风控建模细节

大数定律

线性回归的拟合优度是怎么计算的

解释一下P值的概念

对信也了解吗？以前的拍拍贷

如果客户一直对你的模型不满意怎么办

解释一下过拟合(有好多家笔试都考到了的)

撸了一道sql题两表连接+筛选条件比较简单

整体体验蛮好的

反问：平时的主要业务和工作是什么？

2020.9.30 二面

没有自我介绍，面试官上来就吐槽我的简历太简洁(要不是一面的面试官问了很多问题都不知道我做了这么多工作)，尴尬。。。投递的有些匆忙，用的是最开始的简历

挖实习经历

中心极限定理(我忘记了，说我对大数定律比较了解，然后讲了大数定律)
大数定律、中心极限定理真的很重要，研究生复试问到了，找工作也还是逃不掉啊

树模型、gbdt的实现过程不要原理，要实现过程我讲了一堆boosting的原理，还有gbdt和adaboost的区别于联系但是面试官还是说我说的是原理引导问：决策树是怎么生成的，我就简单讲了下基于信息熵、信息增益、基尼指数、平方损失等，选择分裂节点，然后对于子树进行递归操作

xgboost是怎么分裂的？没答上来

boosting和bagging的差异？信手拈来

lightgbm和xgb的区别？xgboost是预排序 lightgbm是基于直方图，无论存储还是计算都要快很多

xgb，lightgbm的调参？贪心算法，优先调重要的，然后调次要的

怎么降低过拟合调整顺序优先调什么?

建模时xgboost的损失函数是什么样的？(没答上来，忘记了。。。应该是回答auc吧) 追问了解mae和mse吗？解释一下两者的差异？

面试官看我用过catboost，让我讲一下(我只是用过，没有太深入的进行了解，就讲了一下处理类别变量的优势)

评分卡模型了解吗？讲一下步骤

评分卡模型得到的分数在某一个分数段上比较集中该怎么处理？

有多少家公司正在面？

你有想去的地方吗？你的计划是留在一线城市嘛？

反问：数据挖掘岗平时的主要工作是干什么呢？(好像问了和一面一模一样的反问，不过两个面试官给出的角度还是不太一样的，不过确实是我想做的风控建模的工作)

国庆后给通知么？(是的) 本来复试想推倒国庆后，国庆好好准备一下的，不过hr说，复试的流程要在国庆前结束。

二面的整体感觉也是很棒的，感觉面试官问的很技术，问到了各种算法的细节。我也还有学习学习中的细节还是需要补充的

————————————————————————————————————

继续多看看风控的文章啦，继续努力&许愿offer

————————————————————————————————————

中心极限定理&大数定律：
参考：
大数定理的通俗理解（辛钦、伯努利、切比雪夫大数定理）
https://www.zhihu.com/question/22913867/answer/1064701533
https://github.com/sijichun/MathStatsCode/blob/master/notebook_python/LLN_CLT.ipynb
https://www.zhihu.com/question/22913867

简单而言，大数定律讲的是样本均值收敛到总体均值（就是期望），像这个图一样：

而中心极限定理告诉我们，当样本量足够大时，样本均值的分布慢慢变成正态分布，就像这个图：

这个答案太强了

总而言之：

大数定律解释了为什么我们可以用均值来作为总体期望的估计；
中心极限定理给出的是大数定律的误差：标准差乘以标准正态分布，也可以理解为样本的均值服从标准正态分布。

————————————————————————————————————————
是怎么计算的？

也叫决定系数、判定系数、拟合优度。
R方的含义是，预测值解释了变量的方差的多大比例，衡量的是预测值对于真值的拟合好坏程度。通俗理解，假定的方差为1个单位，则R方表示"使用该模型之后，的残差的方差减少了多少"。比如R方等于0.8，则使用该模型之后残差的方差为原始值方差的20%。

对于分式：

分子为预测结果的残差平方和
分母为y的方差
两者相比，若为0，则说明模型100%解释了y的方差，若为1则说明该模型与拿直接拿均值预测的效果是一样的。

—————————————————————————————————————————
P值，虽能讲出一二，但感觉讲的不够清楚明白。

参考：https://www.zhihu.com/question/35891708/answer/517878215
https://zhuanlan.zhihu.com/p/105028919

P值是什么，P值是当原假设为真时，比所得到的的样本观察结果更极端的结果出现的概率。
这个极端的概率和越高或越低，结果就越不可能偶然发生，结果就越有可能有意义。

通俗讲，有一个原假设是H0，然后做实验检验这个假设，实验结果显示居然不太符合原假设（如果实验显示符合原假设的话那我们当然就更应该相信原假设），具体例子：假设硬币均匀（原假设H0），我们抛100次，实验结果显示90正10反（所得样本观察结果），或者你也可以用另一个例子：假设硬币不均匀（原假设H0），抛100次得到52正48反（所得样本观察结果），P值在上面两个例子中表示分别是1：硬币均匀时抛100次得到90，91，92，93，94。。。100次正（或者反，没关系，理解一下就行）的概率累加（更极端结果出现的概率累加），2：硬币不均匀时候抛100次得到52，51，50次正的概率的累加（更极端结果出现的概率累加），在上面例子中，在各自原假设下得到其观察结果的概率很小很小，p值也很小很小，但是这么小概率的事情居然发生了，发生了！！！以至于我们不能再去相信原假设了，所以拒绝了原假设，所以p值越小越不能相信原假设。

p值就是“拒绝原假设最小的显著性水平。若我们想要拒绝原假设，你设置的显著性水平不能比p值再小了。即若设置的显著性水平比p值还小，那你只能乖乖的接受原假设；若设置的显著性水平比p值大，那就狠狠地拒绝原假设。

————————————————————————————————————————

信也科技面经

你可能感兴趣的:(信也科技面经)