模型常见问题排查

模型问题排查问题关键2个环节:

环节1:因子分布异常

  1. 缺失率异常
  2. 均值异常
  3. 极值异常
  4. 方差异常
  5. 因子时间趋势性变化

出现以上现象需要进行2个分析:成因分析和影响分析,完毕之后再形成解决方案。

 

环节2:模型输出 PSI异常:

PSI公式参考:https://www.zhihu.com/question/24490261/answer/229524690

(1) 均匀尺度评分表现为高分区堆积

(2) 均匀尺度评分表现为低分区堆积

(3) 均匀尺度评分表现为下凹形态

(4) 均匀尺度评分表现为上凸形态

 

PSI异常原因:

(1) 系统bug,通常此类问题是由于bug造成,应仔细核对因子分布。

(2) 另外的原因是由于样本在某个维度上分布有变异,这种变异通常需要查明原因,不同的原因处理方式不同,例如是否有时间趋势性因子,是否产品结构有调整,是否人群特性有变化等等。

 

这四类形态背后的主要成因:

(1) 高分或者低分堆积通常是因为有时间性趋势因子或者是因子结构发生变化,该因子稳定向一个方向偏斜,会造成高分或者低分堆积。

(2) 中间凸起,通常是因为训练集的因子信息充分,测试或者线上数据该因子有明显的缺失或者信息不充分。

(3) 中间凹陷,通常是因为训练集的因子信息不充分,测试或者线上数据该因子缺失率减少或者是信息更为充分。

(4) 以上分布成因并不绝对,bug也会造成以上分布形态,需要检查数据追根朔源。

 

之前遇到的具体问题:

1. 模型上线后由于对方提单时年收入少一个0,100000变成10000,造成模型偏差;

2. 之前积累的早期芝麻数据缺失率在40%,目前线上缺失率在10%,造成目前线上模型出现下凸形态;

3. 模型因子之中有很多具有时间趋势性的因子,这些因子单个看强度都不大,但是综合起来之后,评分会形成翘尾现象(保险)

4. 按照随机抽取的方式抽取样本,训练模型结果是均匀分布,但是按照时间卡样本会出现分布偏差,这个主要原因是由于时间趋势性因子造成。

5. 按照地区抽取样本会出现有些地区会出现翘尾现象,其他地区会出现翘首现象(保险),这个主要是因为2个因素造成,其中一个因素是标签是否地区政策差异,另外一个是该地区的特性的确如此。

这种问题通常不需要处理,这种偏斜反映了地区之间标签的差异,即使把地区因子去掉也有些因子的特性可以近似的组合出地区信息,并且如果采用隔离交叉训练可以减少地区之间的相互影响,但是合并后的结果依然会存在偏斜现象,其根本原因是标签浓度在地区分布上具有较强的信息增益。

6. 训练集因子计算结果同在线因子计算采用了不同的字典编码,造成因子值的细微差异,造成模型偏差。

 

你可能感兴趣的:(数据挖掘模型)