搭建金融信贷风控中的机器学习模型-(5)逻辑回归模型与尺度化

        在分类场景中,逻辑回归模型是常用的算法。它具有结构简单、可解释性强、概率输出软分类等特点。

1.逻辑回归模型

        在分类模型中,目标变量是离散、无序型的变量。例如违约与非违约。
伯努利概型
        某个事件有“发生”与“不发生”两种互斥的状态。假设该事件发生的概率为p,不发生的概率为1-p,则有:,,合并后有:,在违约预测场景中,单个个体的违约事件可以看成伯努利概型:,参数就是需要预测的目标概率,概率的取值范围为0~1,线性回归并不适用,逻辑回归使用的sigmoid函数作为目标函数:
的特点:

  • 单调性
  • 有界性
  • 可导性
    逻辑回归模型的优缺点:
    优点:
  • 结构简单
  • 可解释性强
  • 支持增量训练模型
  • 给出概率而非判别类型,可用于更加复杂的决策
  • 工程化容易,方便测试、部署、监控、调优
    缺点:
  • 预测精度一般
  • 对变量要求高:
    o 输入变量为数值型
    o 不能用缺失值
    o 对异常值敏感
    o 变量尺度差异大时,对结果有影响,需要归一化
    o 变量间的线性相关性对模型有影响,需要变量挑选或正则化

2.构建模型

进入模型的变量需要满足以下条件:
1.变量不存在较强的线性相关性和多重共线性:单变量分析与多变量分析可以有一定约束
2.变量具有显著性:变量p值足够小,例如低于0.1
3.变量具有合理的业务含义
模型截距项含义

3.尺度化

        得到符合要求的模型后,通常将概率转化为分数,分数的单调性与概率相反,即分数越高,违约概率越小,信用资质越好。尺度化的公式为:
,其中,
:point to double odds
PDO的作用:
假设当前的好坏比为,对应的分数为,当好坏比上升一倍变为,即,此时的分数为,因此的含义为好坏比上升一倍时,分数上升个单位。取值满足所有评分的取值为正。

(如有不同见解,望不吝赐教!!)

你可能感兴趣的:(搭建金融信贷风控中的机器学习模型-(5)逻辑回归模型与尺度化)