信息

根绝香农的信息是用来消除随机不确定性的东西，在机器学习中，假设其输出为Y，对于一个分类yi，我们知道他的占比是P(yi)，那么对于任何一个样本，我们瞎蒙一个结果来预测Y=yi，都可以有P(yi)概率蒙对。因此我们可以得到的信息是：

信息熵

信息熵很好李拦截，信息熵首先是个熵，表示一个混乱程度，在信息论中表示信息的随机性和不确定性。所以只需要在给我们提供的信息前面增加一个条件，就可以表示我们拿到的信息的不确定性。

条件熵

我们已经知道了自然条件下的Y的熵，但实际预测时，我们并非是根据已经知道的Y的分布去瞎猜结果，而是知道样本X，X可以对预测Y提供一定的信息，因此就可以得到条件熵：

对于一个特征X，其每个取值x下Y的信息熵乘以x所占的样本比例，既可得特征X的条件熵。

信息增益

直观的说，有了X作为预测y 的辅助，可以增加一些信息量，反过来讲，也就是降低了信息的不确定性，即降低了熵值。因此，可以得到信息增益的概念

互信息

如果不把X看做预测Y的特征，而是把X，Y看做成地位相等事件，可以看到信息增益的概念和互信息是一致的：

信息增益比（增益率）

信息增益对于偏向于值很多的特征，而值很多的特征明显并不能提供泛化的分类能力，因此引入了信息增益比（增益率）的概念。

need-to-insert-img

基尼系数

Y本身的Gini系数为

need-to-insert-img

表征从Y中随机抽取两个样本，两个样本结果不一样的概率。那么如果按照属性X，对Y进行分类以后，属性X的Gini系数为：

need-to-insert-img

其中，Xv代表X属性某一分类内的样本数，Gini(Yv)代表Y在的Xv内的Gini系数。

相对熵

相对熵（relative entropy）是衡量两个密度分布之间的距离的度量，也称为KL 距离，KL散度。它可以：

① 衡量两个概率分布的差异。

② 衡量利用概率分布Q 拟合概率分布P 时的能量损耗，也就是说拟合以后丢失了多少的信息，可以参考前面曲线拟合的思想。

相对熵的定义：

need-to-insert-img

对于一组样本X,Y的联合分布若是p(x,y),边际分布分别为P(x)P(y)，则X,Y的互信息是联合分布p(x,y)对P(x)P(y)的相对熵：

need-to-insert-img

交叉熵

交叉熵公式：

need-to-insert-img

对相对熵的公式进行分解可以看到交叉熵和相对熵的关系

need-to-insert-img

WOE

woe(weight of evidence)是表征一个分组内好坏样本区分度的度量

need-to-insert-img

其中yi代表组内好样本数（yes），yT代表全部好样本数，ni表示组内坏样本数（no），nT表示组内坏样本数（no）。可见woe的取值可以是负无穷到正无穷

IV值

由于woe有负值，并不能非常直观的表示分类的预测能力（一个分类的预测能力是负值？），因此用iv值表示一个分类的预测能力

need-to-insert-img

一个特征的整体预测能力为：

need-to-insert-img

iv值得取值范围为0到正无穷

混淆矩阵

在训练完并确定截断点以后，将样本的真实值以及预测值建立一个四格矩阵

need-to-insert-img

其中TP为正确的正预测（true positive），TN正确的负预测（true negative），FP错误的正预测（false positive），FN错误的负预测（false negative）。

查全率（召回率）：正确的正预测占所有真实正值的比例TPR = TP/（TP+FN）

查准率：正确的正预测占所有正预测的比例：FPR=TP/（TP+FP）

准确率：accurucy = （TP+TN）/(TP+TN+FP+FN)

查全率和查重率各有所重，如果需要权衡两者重要性，那么用F1

need-to-insert-img

如果查全率和查准率的权重不同。并且

need-to-insert-img

那么加权的F数为

need-to-insert-img

ROC和AUC

在未设定截断点（任务不明确）情况下，我们可以观察这个学习器利用所有可能的截断点（就是所有样本的预测结果）对样本进行分类时的效果，注意要先对所有可能的截断点进行排序，方便对比观察。

纵轴：TPR=正例分对的概率 = TP/(TP+FN)，其实就是查全率

横轴：FPR=负例分错的概率 = FP/(FP+TN)

如果是随机分类，没有进行任何学习器，FPR=TPR，即正例分对和负例分错概率相同，预测出来的正例负例和正例负例本身的分布是一致的，所以是一条45°的直线。因此，ROC曲线越向上远离这条45°直线，说明用了这个学习器在很小的代价（负例分错为正例，横轴）下达到了相对较大的查全率（TPR）。

作图步骤：

1. 根据学习器的预测结果（注意，是正例的概率值，非0/1变量）对样本进行排序（从大到小）-----这就是截断点依次选取的顺序

2. 按顺序选取截断点，并计算TPR和FPR---也可以只选取n个截断点，分别在1/n，2/n，3/n等位置

3. 连接所有的点（TPR，FPR）即为ROC图

need-to-insert-img

AUC(area under ROC curve)，表示ROC曲线下面的面积，是表征学习结果好坏的度量。

KS曲线，KS值

K-S曲线，又称作洛伦兹曲线。实际上，K-S曲线的数据来源以及本质和ROC曲线是一致的，只是ROC曲线是把真正率TPR和假正率FPR当作横纵轴，而K-S曲线是把真正率TPR和假正率FPR都当作是纵轴，横轴则由选定的阈值来充当。

从K-S 曲线就能衍生出KS值，即是两条曲线之间的最大间隔距离。KS值越大表示模型的区分能力越强。

仅供内部使用，未经授权，切勿外传

0 人赞了它

浏览 16 次共 1 人浏览

信息、信息熵、条件熵、互信息，信息增益、信息增益比、基尼系数、相对熵、交叉熵，KL散度，woe，IV值，混淆矩阵（TPR，FPR，F1），ROC，AUC，ks曲线，ks值_第1张图片

写点你要说的

信息、信息熵、条件熵、互信息，信息增益、信息增益比、基尼系数、相对熵、交叉熵，KL散度，woe，IV值，混淆矩阵（TPR，FPR，F1），ROC，AUC，ks曲线，ks值

信息

信息熵

你可能感兴趣的:(信息、信息熵、条件熵、互信息，信息增益、信息增益比、基尼系数、相对熵、交叉熵，KL散度，woe，IV值，混淆矩阵（TPR，FPR，F1），ROC，AUC，ks曲线，ks值)