分群建模/评分卡和xgb分数校准

分析建模,日常问题整理(三十)


2019.3.19~2020.6.12


  • 1 dat.fillna('-99') 也可以是个字典,不同的列名对应不同的填充内容。
    dat.fillna({''A:'-99','B':'-999'})

  • 2 pd.Series判断是否单调的方法。
    d['X1'].is_monotonic_increasing
    d['X1'].is_monotonic_decreasing

  • 3 GMM高斯混合模型
    风控模型上可以对客户分群,在群上定制建模,提高模型预测精度。
    高斯混合模型(GMM)聚类实践
    GMM与K-means聚类效果实战
    细分构建更好的预测模型

  • 4 轮廓系数
    Silhouette Coefficient是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可用来在相同原始数据的基础上用来评价不同算法、或不同参数对聚类结果所产生的影响。越是接近1,则说明样本聚类越合理。

  • 5 分群后模型概率值不具备可比性。如样本1的0.5和样本2的0.5是不一样的,需进行分数校准。
    分群评分卡的分数校准参考信用评分卡模型分数校准
    xgb分数校准可将分群的模型分别计算总样本得到概率,将几个概率重新做模型,得到可比的总体分数。

你可能感兴趣的:(分群建模/评分卡和xgb分数校准)