5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率

1.成本敏感分类

1.适用情况

不同类的预测错误成本不同

2. 如何使用

s1.建立成本矩阵
如下,由于主对角线表示预测正确,因此成本为0.其他地方的成本依靠具体情况而定,这里我们设置都为1.
5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第1张图片
s2.在预测的时候我们与概率向量相乘,选择期望成本最低的预测

3. 何时使用

依具体情况,合适的成本矩阵且在合适时候使用将提升效果

  • 在训练时忽略,预测阶段考虑
  • 在预测阶段忽略,训练阶段考虑
  • 都考虑

2.上升图

1. 如何获得上升系数?

5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第2张图片
5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第3张图片

2. 上升图的含义?

在开始时,假设我们有10000个样本,回应数是1000.
因此理论下这一写样本呈现一个直线上升的趋势,因此就有了直线。

由于我们通过机器学习方法,得到了上升系数,因此得到了曲线
5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第4张图片

3. ROC曲线?

1.为什么使用ROC曲线?

ROC曲线在找出最优的不同分类器上很有用。

2. ROC曲线含义?

描绘分类器的性能而不考虑类分布或误差成本。
y轴:肯定类的数量/百分比 。灵敏度。TP/(TP+FN)
x轴:否定类的数量/百分比。特异度。FP/(TN+FP)

锯齿状ROC线依赖于具体测试样本内容
5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第5张图片

3. 怎么看ROC曲线?

因为我们总想使得程序分类正确,因为总趋向选择越靠近y轴的。(也因此说roc越大越好)

举例,A、B是两种方法得到的ROC曲线。

  • 在A、B交叉点之前,意味着数据量小,A靠近Y轴,因此选A方法
  • 在A、B交叉点之后,意味着数据量略大,B靠近Y轴,因此选择B方法
  • 在交叉点时,组合使用
    5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第6张图片

4. 总结

recall=TP/(TP+FN)
5.7计算成本---成本敏感分类 上升图 ROC曲线 反馈率-精确率_第7张图片

你可能感兴趣的:(数据挖掘,使用机器学习技术,机器学习)