信也科技面试—— 风控模型

公司具体名字没听清楚，介绍说是拍拍贷集团下面孵化出的子公司，现在已经完全从集团中独立出来了。

职位是风控部门下的建模工作，一面面试官应该是模型组组长，二面是CRO，三面是HR。

项目介绍：特征提取，模型参数调优，模型效果。

海外模型中，app数据怎么处理，最后模型选出的排在前面的变量是哪些？

使用LR模型的话是否会做变量分箱或者其他预处理？

我：不推荐对连续变量做分箱，该操作并不能提高模型性能，反而还会有因分箱导致的问题。比如分箱年龄为21-25，26-30，那么25和26原本在模型中差别并不大，分箱后却是在两个区间。

面试官：根据历史经验，使用变量分箱可以增加模型稳定性，不受训练样本过拟合影响。比如：训练样本的年龄分布偏小，如果线上数据年龄偏大模型给出的结果就不准确。

面试官点评：

1 项目做的并不深刻，甚至有的项目具体的数据和结果都想不起来了。（看来以后做项目有时间的话要对数据挖掘得深一点，尽可能地挖掘所有可能的特征。并且对重要的特征和模型结果做详细记录。）

2 因为主要使用xgboost这种模型，所以对特征预处理掌握得不太够。（样本量多的时候用gbdt，样本量少的时候比如1w左右用logistic regression）

3 离业务比较远，并不了解自己的工作会对实际业务产生什么影响。（从主动和策略沟通开始吧，以后也许就会有机会负责业务了。）

面试官：像xgboost这种模型是怎么学习的？

我：自己看paper，之前在学校里没学过。

面试官：如果在建模方面要做一些创新工作会是什么？

我：可以尝试引入一些在推荐领域的模型。比如wide & deep。

面试官：wide & deep这个我们也有研究过。我希望候选人不仅可以完成日常的工作，同样也能做一些创新探索类的工作。

成立于2017年，现在完全独立于集团，所以业务系统和建模数据都是自己独立的一套，不和集团共享。

他们模型上线采用将python代码打成jar包的方式。虽然不需要额外的开发人员参与，但是有因为python或者coding不佳导致性能问题的隐患。并且这个技术存在于十几年前，现在似乎要被淘汰了。

业务：1 线下消费分期，比如给外卖员的电瓶车提供分期付款，客户资质不错，还款率比较高。2 海外现金贷，比如印度市场。

PS:

从模型组组长说组内的项目通常是看谁的排期合适就分配给谁，并且希望候选人可以独立完成一整个流程以及做一些创新类工作探索的要求来看。我推测情况如下：

目前组内成员都已经有一定资历（工作年份），可能在传统风控建模工作经验和技能方面已经达到瓶颈，所以组长才会希望通过做一些创新探索来提高。所以他想要的候选人也是情况和他们差不多的。