概率校准

概率校准

分类器输出的概率,通过校准可以达到更好的效果,常用于CTR和风控领域。
概率校准简介
模型校准-知乎

校准评估-reliability diagram、Logarithmic Loss、Brier score
  • reliability diagram
    根据模型的输出将样本分成10个桶,即预测为0至0.1的样本归为一个桶,预测为0.1至0.2的样本归为一个桶等等,以这10个桶作为横坐标;计算每个桶内的正样本占比作为纵坐标,以此绘制的曲线reliability diagram可用于评估。
    reliability diagram 接近对角线说明效果好。

  • Logarithmic Loss
    概率校准_第1张图片
    也即为交叉熵损失。

  • Brier score
    概率校准_第2张图片
    也即为mse损失。

校准算法-Platt Calibration

将模型输出放入逻辑回归中训练,最后将逻辑回归的结果作为模型的 f ( x ) f(x) f(x)校准结果。

校准算法-Isotonic Regression

将一组无序的数变为有序,一组数为 {1,3,2,2} ,遍历发现3>2,将这两个数转为均值,即 {1,2.5,2.5,2},然后又发现2.5>2,于是将3,2,2转为三者的均值,即 {1,2.5,2.5,2.5}
为了保证不引入偏差,用作校准的数据集应该和训练模型的数据集不同。

你可能感兴趣的:(算法之路)