机器学习笔记-模型评估与选择

评估方法:

西瓜书里面的几种方法:

1.留出法。

随机划分,拿大部分去训练,小部分去测试。

存在的问题是划分会导致训练和测试的分布与真实分布产生偏差,不同划分可能对结果产生影响。

2.交叉验证法

多次划分取评估的平均值。

特例:留1法,k=m。当m比较大时,成本太高。

3.自助法

在原样本  D中有放回的采样m次, 得到D',m为样本的数目。采集到的样本有些是重复的,而有些采样不到。约36.8%采不到。


性能度量

分类问题:错误率、精度

查准率(precision)和查全率(recall):

P-R 曲线

EPB(break-even point):查准率=查全率

F1:2*P*R(P+R)=2*TP(ALL+TP-TN)。调和平均

Fbeta:加权调和平均

ROC. AUC

ROC:    横坐标: false postive rate。纵坐标:true positive rate

你可能感兴趣的:(机器学习笔记-模型评估与选择)