信息、信息熵、条件熵、互信息,信息增益、信息增益比、基尼系数、相对熵、交叉熵,KL散度,woe,IV值,混淆矩阵(TPR,FPR,F1),ROC,AUC,ks曲线,ks值

信息

根绝香农的信息是用来消除随机不确定性的东西,在机器学习中,假设其输出为Y,对于一个分类yi,我们知道他的占比是P(yi),那么对于任何一个样本,我们瞎蒙一个结果来预测Y=yi,都可以有P(yi)概率蒙对。因此我们可以得到的信息是:

信息熵

信息熵很好李拦截,信息熵首先是个熵,表示一个混乱程度,在信息论中表示信息的随机性和不确定性。所以只需要在给我们提供的信息前面增加一个条件,就可以表示我们拿到的信息的不确定性。

条件熵

我们已经知道了自然条件下的Y的熵,但实际预测时,我们并非是根据已经知道的Y的分布去瞎猜结果,而是知道样本X,X可以对预测Y提供一定的信息,因此就可以得到条件熵:

对于一个特征X,其每个取值x下Y的信息熵乘以x所占的样本比例,既可得特征X的条件熵。

信息增益

直观的说,有了X作为预测y 的辅助,可以增加一些信息量,反过来讲,也就是降低了信息的不确定性,即降低了熵值。因此,可以得到信息增益的概念

互信息

如果不把X看做预测Y的特征,而是把X,Y看做成地位相等事件,可以看到信息增益的概念和互信息是一致的:

信息增益比(增益率)

信息增益对于偏向于值很多的特征,而值很多的特征明显并不能提供泛化的分类能力,因此引入了信息增益比(增益率)的概念。

need-to-insert-img

基尼系数

Y本身的Gini系数为

need-to-insert-img

表征从Y中随机抽取两个样本,两个样本结果不一样的概率。那么如果按照属性X,对Y进行分类以后,属性X的Gini系数为:

need-to-insert-img

其中,Xv代表X属性某一分类内的样本数,Gini(Yv)代表Y在的Xv内的Gini系数。

相对熵

相对熵(relative entropy)是衡量两个密度分布之间的距离的度量,也称为KL 距离,KL散度。它可以:

① 衡量两个概率分布的差异。

② 衡量利用概率分布Q 拟合概率分布P 时的能量损耗,也就是说拟合以后丢失了多少的信息,可以参考前面曲线拟合的思想。

相对熵的定义:

need-to-insert-img

对于一组样本X,Y的联合分布若是p(x,y),边际分布分别为P(x)P(y),则X,Y的互信息是联合分布p(x,y)对P(x)P(y)的相对熵:

need-to-insert-img

交叉熵

交叉熵公式:

need-to-insert-img

对相对熵的公式进行分解可以看到交叉熵和相对熵的关系

need-to-insert-img

WOE

woe(weight of evidence)是表征一个分组内好坏样本区分度的度量

need-to-insert-img

其中yi代表组内好样本数(yes),yT代表全部好样本数,ni表示组内坏样本数(no),nT表示组内坏样本数(no)。可见woe的取值可以是负无穷到正无穷

IV值

由于woe有负值,并不能非常直观的表示分类的预测能力(一个分类的预测能力是负值?),因此用iv值表示一个分类的预测能力

need-to-insert-img

一个特征的整体预测能力为:

need-to-insert-img

iv值得取值范围为0到正无穷

混淆矩阵

在训练完并确定截断点以后,将样本的真实值以及预测值建立一个四格矩阵

need-to-insert-img

其中TP为正确的正预测(true positive),TN正确的负预测(true negative),FP错误的正预测(false positive),FN错误的负预测(false negative)。

查全率(召回率):正确的正预测占所有真实正值的比例TPR = TP/(TP+FN)

查准率:正确的正预测占所有正预测的比例:FPR=TP/(TP+FP)

准确率:accurucy = (TP+TN)/(TP+TN+FP+FN)

查全率和查重率各有所重,如果需要权衡两者重要性,那么用F1

need-to-insert-img

如果查全率和查准率的权重不同。并且

need-to-insert-img

那么加权的F数为

need-to-insert-img

ROC和AUC

在未设定截断点(任务不明确)情况下,我们可以观察这个学习器利用所有可能的截断点(就是所有样本的预测结果)对样本进行分类时的效果,注意要先对所有可能的截断点进行排序,方便对比观察。 

纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率

横轴:FPR=负例分错的概率 = FP/(FP+TN)

如果是随机分类,没有进行任何学习器,FPR=TPR,即正例分对和负例分错概率相同,预测出来的正例负例和正例负例本身的分布是一致的,所以是一条45°的直线。因此,ROC曲线越向上远离这条45°直线,说明用了这个学习器在很小的代价(负例分错为正例,横轴)下达到了相对较大的查全率(TPR)。

作图步骤:

1. 根据学习器的预测结果(注意,是正例的概率值,非0/1变量)对样本进行排序(从大到小)-----这就是截断点依次选取的顺序

2. 按顺序选取截断点,并计算TPR和FPR---也可以只选取n个截断点,分别在1/n,2/n,3/n等位置

3. 连接所有的点(TPR,FPR)即为ROC图

need-to-insert-img

AUC(area under ROC curve),表示ROC曲线下面的面积,是表征学习结果好坏的度量。

KS曲线,KS值 

K-S曲线,又称作洛伦兹曲线。实际上,K-S曲线的数据来源以及本质和ROC曲线是一致的,只是ROC曲线是把真正率TPR和假正率FPR当作横纵轴,而K-S曲线是把真正率TPR和假正率FPR都当作是纵轴,横轴则由选定的阈值来充当。

K-S 曲线就能衍生出KS值,即是两条曲线之间的最大间隔距离。KS值越大表示模型 的区分能力越强。

仅供内部使用,未经授权,切勿外传

0 人赞了它

浏览 16 次 共 1 人浏览

评论(0)

信息、信息熵、条件熵、互信息,信息增益、信息增益比、基尼系数、相对熵、交叉熵,KL散度,woe,IV值,混淆矩阵(TPR,FPR,F1),ROC,AUC,ks曲线,ks值_第1张图片

写点你要说的

你可能感兴趣的:(信息、信息熵、条件熵、互信息,信息增益、信息增益比、基尼系数、相对熵、交叉熵,KL散度,woe,IV值,混淆矩阵(TPR,FPR,F1),ROC,AUC,ks曲线,ks值)