信也科技面经

2020.9.15投递
2020.9.18笔试 七道主观题 3or4概率统计题目、1道编程填空题目、1道风控模型分析题目、1道机器学习题目

2020.9.25 一面有些记不太清除了
自我介绍

挖实习经历:风控相关:解释一些WOE值是怎么计算的,IV值是怎么计算的

还有就是一些风控建模细节

大数定律

线性回归的拟合优度是怎么计算的

解释一下P值的概念

对信也了解吗?以前的拍拍贷

如果客户一直对你的模型不满意怎么办

解释一下过拟合(有好多家笔试都考到了的)

撸了一道sql题 两表连接+筛选条件 比较简单

整体体验蛮好的

反问:平时的主要业务和工作是什么?

2020.9.30 二面

没有自我介绍,面试官上来就吐槽我的简历太简洁(要不是一面的面试官问了很多问题都不知道我做了这么多工作),尴尬。。。 投递的有些匆忙,用的是最开始的简历

挖实习经历

中心极限定理(我忘记了,说我对大数定律比较了解,然后讲了大数定律)
大数定律、中心极限定理真的很重要,研究生复试问到了,找工作也还是逃不掉啊

树模型、gbdt的实现过程 不要原理,要实现过程 我讲了一堆boosting的原理,还有gbdt和adaboost的区别于联系 但是面试官还是说我说的是原理 引导问:决策树是怎么生成的,我就简单讲了下基于信息熵、信息增益、基尼指数、平方损失等,选择分裂节点,然后对于子树进行递归操作

xgboost是怎么分裂的? 没答上来

boosting和bagging的差异? 信手拈来

lightgbm和xgb的区别?xgboost是预排序 lightgbm是基于直方图,无论存储还是计算都要快很多

xgb,lightgbm的调参? 贪心算法,优先调重要的,然后调次要的

怎么降低过拟合 调整顺序 优先调什么?

建模时xgboost的损失函数是什么样的?(没答上来,忘记了。。。应该是回答auc吧) 追问了解mae和mse吗? 解释一下两者的差异?


面试官看我用过catboost,让我讲一下(我只是用过,没有太深入的进行了解,就讲了一下处理类别变量的优势)

评分卡模型了解吗?讲一下步骤

评分卡模型得到的分数在某一个分数段上比较集中该怎么处理?

有多少家公司正在面?

你有想去的地方吗?你的计划是留在一线城市嘛?

反问:数据挖掘岗平时的主要工作是干什么呢?(好像问了和一面一模一样的反问,不过两个面试官给出的角度还是不太一样的,不过确实是我想做的风控建模的工作)

国庆后给通知么?(是的) 本来复试想推倒国庆后,国庆好好准备一下的,不过hr说,复试的流程要在国庆前结束。

二面的整体感觉也是很棒的,感觉面试官问的很技术,问到了各种算法的细节。我也还有学习学习中的细节还是需要补充的

————————————————————————————————————

继续多看看风控的文章啦,继续努力&许愿offer

————————————————————————————————————

中心极限定理&大数定律:
参考:
大数定理的通俗理解(辛钦、伯努利、切比雪夫大数定理)
https://www.zhihu.com/question/22913867/answer/1064701533
https://github.com/sijichun/MathStatsCode/blob/master/notebook_python/LLN_CLT.ipynb
https://www.zhihu.com/question/22913867

简单而言,大数定律讲的是样本均值收敛到总体均值(就是期望),像这个图一样:


而中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,就像这个图:


这个答案太强了


总而言之:

  • 大数定律解释了为什么我们可以用均值来作为总体期望的估计;
  • 中心极限定理给出的是大数定律的误差:标准差乘以标准正态分布,也可以理解为样本的均值服从标准正态分布。

————————————————————————————————————————
是怎么计算的?

也叫决定系数、判定系数、拟合优度。
R方的含义是,预测值解释了变量的方差的多大比例,衡量的是预测值对于真值的拟合好坏程度。通俗理解,假定的方差为1个单位,则R方表示"使用该模型之后,的残差的方差减少了多少"。比如R方等于0.8,则使用该模型之后残差的方差为原始 值方差的20%。

对于分式:

  • 分子为预测结果的残差平方和
  • 分母为y的方差
  • 两者相比,若为0,则说明模型100%解释了y的方差,若为1则说明该模型与拿直接拿均值预测的效果是一样的。

—————————————————————————————————————————
P值,虽能讲出一二,但感觉讲的不够清楚明白。

参考:https://www.zhihu.com/question/35891708/answer/517878215
https://zhuanlan.zhihu.com/p/105028919

P值是什么,P值是当原假设为真时,比所得到的的样本观察结果更极端的结果出现的概率
这个极端的概率和越高或越低,结果就越不可能偶然发生,结果就越有可能有意义。

通俗讲,有一个原假设是H0,然后做实验检验这个假设,实验结果显示居然不太符合原假设(如果实验显示符合原假设的话那我们当然就更应该相信原假设),具体例子:假设硬币均匀(原假设H0),我们抛100次,实验结果显示90正10反(所得样本观察结果),或者你也可以用另一个例子:假设硬币不均匀(原假设H0),抛100次得到52正48反(所得样本观察结果),P值在上面两个例子中表示分别是1:硬币均匀时抛100次得到90,91,92,93,94。。。100次正(或者反,没关系,理解一下就行)的概率累加(更极端结果出现的概率累加),2:硬币不均匀时候抛100次得到52,51,50次正的概率的累加(更极端结果出现的概率累加),在上面例子中,在各自原假设下得到其观察结果的概率很小很小,p值也很小很小,但是这么小概率的事情居然发生了,发生了!!!以至于我们不能再去相信原假设了,所以拒绝了原假设,所以p值越小越不能相信原假设。

p值就是“拒绝原假设最小的显著性水平。若我们想要拒绝原假设,你设置的显著性水平不能比p值再小了。即若设置的显著性水平比p值还小,那你只能乖乖的接受原假设;若设置的显著性水平比p值大,那就狠狠地拒绝原假设。

————————————————————————————————————————

你可能感兴趣的:(信也科技面经)