信用卡违约客户的预测模型的选择(一)相关技术介绍

在进行建模之前,前期需要准备的包括数据提取、清洗,字段验证选择,分类模型的选择。
  • 变量处理方法

数据处理方法包括最小-最大规范化、标准化、特征化处理等,根据数据字段特点也可避免前期数据处理,直接借用挖掘函数计算。
最小-最大规范化,即归一化
proValue=(v-min(x))/(max(x)-min(x)),min(x),max(x)分别为v所在列的最小值和最大值。对数据进行归一化处理,即利用归一化处理将数据处理为0至1或-1至1之间的数据,归一化处理使得处理后的数据更加有利于预测准确性的提高,但是由于改变了数值的取值范围也增加了分类器的复杂度。

标准化处理,即规范化

proValue=(v-mean(x))/std(x),mean(x)为v所在列的均值,std(x)为v值所在列的标准差,经过标准化处理将x序列转化为n(0,1)正态分布,由于受离散值得影响,均值mean(x)有时使用序列中位数median(x)替代。

在数据处理与训练数据集和测试数据集的划分优先级上,应首先进行数据集的划分。例如,如果对某数据集进行归一化,再按照比例进行测试集和训练集的划分,则两个数据集容易存在相关性,不利于对通过训练得到的权重进行检验,无法保证训练和测试的独立性。

  • 变量筛选方法

特征选择

包括主成分分析和多因子分析。用于对多变量的降维,通过降维后将相关性强的变量组合为多类,代表一个因子或主成分。通过低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。

向前选择法

首先增加一个变量,计算整个模型的F值和P值。继续增加变量观察模型F值和P值的变化,当增加后P值减小则保持该变量,当增加后P值增大则删除该变量。该方法较使用于线性分析、logisitic分析,通过衡量模型的预测值与实际值之间的误差变化,衡量模型的优劣,而误差的变化直接反应在P值的变化上。

向后选择法

从模型设计的全部变量开始,逐步剔除变量,观察模型的F值和P值,当P值小于显著性水平,则删除,否则保留。其中显著性水平一般取值在0.1左右,越小则模型越严格。

在实际的变量筛选中,一般还会涉及经验判断和相关性分析,根据客观事实和对事物的经验分析,选择重要变量,删除无关变量,可节省时间成本。一般在前期变量筛选之前会对变量之间进行相关性及同质性分析,对强相关变量进行组合处理。

  • 分类模型介绍

线性回归、Logistic回归、决策树、svm支持向量机等。

线性回归


信用卡违约客户的预测模型的选择(一)相关技术介绍_第1张图片
图2-1 线性回归最小二乘法
最小二乘法评定模型效果,通常包括模型的F值和P值,各系数值的F和P值。 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。

MSR代表由于x的变化而引起Y的变化,称为回归平方和。MSE反应的是观测值和回归值之间的离差平方和,称为误差平方和。
用来检验模型系数是否显著,p-value衡量系数的显著性水平,p值越小表明该系数值越显著。

Logistic回归

一般线性回归和logistic回归同属于多元线性回归,一般线性回归的目标变量是连续的,而逻辑回归的目标变量是类别变量。
假设目标变量是两个层次的类别变量,即0/1变量,如果我们建立一般线性模型:
 
因为Y只能去0或者1,而E(Y)的值是连续的,所以用E(Y)来预测因变量Y显然存在不足。E(Y)代表Y值得期望值,代表Y=1的概率,即
 
等式右边取值线性,为了易于分类,转化公式为0~1之间,于是我们对p值进行logistic转换:
 
   
则概率公式转换为:
 
  p~(0,1),根据阀值对其进行二分类。
信用卡违约客户的预测模型的选择(一)相关技术介绍_第2张图片
图2-2 逻辑斯蒂回归

svm支持向量机

支持向量机是一种监督式的机器学习方法,可分两部分来理解它,首先是支持向量,即在多维空间建立用于分类的支持向量。
 
图2-3 超平面示意图
如图所示,将二元变量进行划分,得到支持向量。在多维向量中我们会得到超平面,即分类函数f(x)=wT+b。
显然对于某个变量点 ,当f( =0,则该点位于超平面上。我们基于这样的原则进行分类,当f( >0时,分类为1,当f( 0时,分类为0。
我们应寻找这样的分类器,使得其尽可能精确地对变量进行分类。即寻找两类别至超平面的最大几何间隔w。如上图所示在三个分类器中,实现代表的分类器具有最大的几何间隔。
在进行模型分类时使用线性回归的情况比较少,需视变量情况确定。在进行基于训练集的训练后得到各系数值。在对测试变量进行预测,为进行二值(0,1或1,-1)分类或多值分类,需基于预测值设计分类器。
  • 结果验证

目前常用的模型评估方法包括准确率与召回率比较,以及AUC值。

在样本分类后会得到如下变量,真正(True Positive)代表被预测为正的正样本,真负(True Negative)代表被预测为负的负样本,假正(False Positive)代表被预测为正的负样本,假负(False Negative)代表被预测为负的正样本。

AUC值即area under the curve(ROC) ROC曲线是从(00)至(1.0,1.0)漫游的足迹线,代表了随着假正率增加,真正率变化情况,或者说随着真正率增加,假正率的变化情况。
有一个普遍使用的工具,称为混淆矩阵,用于呈现分类情况。
 
预测值
样本值
真正(TP)
假负(FN)
假正(FP)
真负(TN)
  1. 真正率(True Positive Rate, TPR)=TP/(TP+FN),表示正样本被正确分类的比例。真负率(True Negative Rate, TNR)=TN/(FP+TN),表示负样本被正确分类的比例。假负率(False Negative Rate, FNR)=FN/(FN+Tp),表示正样本中被分类错误的比例。假正率(False Positive Rate, FPR)=FP/(FP+TN),表示负样本中被分类错误的比例。

你可能感兴趣的:(信用卡违约客户的预测模型的选择(一)相关技术介绍)