初探机器学习与评分卡模型

机器学习简介

什么是机器学习
  • 如果一个系统能够通过执行某个过程改变它的性能,这就是学习(什么是学习)
  • 不用编程去指定机器做什么,而是让机器有能力自己学习
  • 首先定义任务T,经验E,表现P,如果机器有一个任务T,随着经验E的增多,表现P也会变好,则表示机器正在经验E中学习
三要素
  • 模型(机器学习的成果,条件概率分布或决策函数)
  • 策略(计算模型的方式)
  • 算法
生活中的机器学习应用
  • 垃圾邮件分类
  • AlphaGo围棋AI
  • 医疗行业
  • 人声识别
监督学习
学习一个模型,使模型对给定输入做出相应的预测输出,流程如下图

这里写图片描述

其中自变量x为自变量,是实例的特征向量;y为因变量,是实例的结果。
监督学习主要解决分类与回归两类问题
监督学习实例

已知房价,平米数的训练集如下:

平米数 房价(万)
50 50
80 70
100 90
130 110
150 ???

给定一个平米数,预测该面积房价。

无监督学习
从数据中自主学习,分析数据的类别结构

评分卡介绍

什么是评分卡(信贷场景中)
  • 以分数的形式来衡量风险几率的一种手段
  • 对未来一段时间内违约/逾期/失联概率的预测
  • 通常评分越高越安全
  • 根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡
为什么要开发评分卡
  • 风险控制的一个环节,根据已有数据提供逾期概率指标参考
评分卡的特性
  • 稳定性
  • 预测能力
  • 等价于逾期概率
评分卡开发的常用模型
  • 逻辑回归
  • 决策树
  • 组合模型

基于逻辑回归的评分卡理论依据

一个事件发生的几率(Odds),是指该事件发生的概率与该事件不发生概率的比值。若一个客户违约概率为p,则其正常的概率为1-p,由此可得:

Odds=p1p

此时,客户违约的概率p可以表示为:
p=Odds1+Odds

评分卡表达式为:
Score=ABlog(Odds)

其中A、B为常数。由于log函数在 (0+) 单调递增,所以当用户违约几率Odds越大时,Score评分越低。
通过给定
(1)某特定Odds时的Score值 S0
(2)该特定Odds值翻倍时Score增加值 PD0 ;
通过给定值 S0 PD0 带入评分卡表达式,可求得A、B。
通过以上分析,求该用户评分Score的问题则转化为求用户违约对数几率 log(Odds) 的问题。
依照二元逻辑回归构造预测函数
hθ(x)=g(θTx)=11+eθT<

你可能感兴趣的:(机器学习,欺诈,数据)