机器学习 周志华 第二章 模型评估与选择 章节习题

模型评估与选择 章节习题

  • 2.1
  • 2.2
  • 2.3
  • 2.4
  • 2.5
  • 2.6
  • 2.7
  • 2.8
  • 2.9

自己写的或者找的课后习题解答,预计错误会很多。

2.1

数据集包含1000个样本,其中500正例,500反例,划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,估算有多少种划分方式
( 150 500 ) ∗ ( 150 500 ) {150 \choose 500}*{150 \choose 500} (500150)(500150)

2.2

留一法:样本中正反例各一半,每次选出一个正例样本作为测试集之后,训练集正反比为49:50(选反例50:49),学习算法会将测试集预测为反例,错误率100%。
10折交叉验证:数据集   D \ D  D分为10个不同的子集。每个子集   D i \ D_i  Di 都尽可能保持数据分布一致性,即通过分层采样获得(5正例5反例),算法进行随机猜测,错误率为50%。

2.3

  F 1 \ F1  F1是基于查准率与查全率的调和平均,定义为:
1 F 1 = 1 2 ⋅ ( 1 P + 1 R ) \frac{1}{F1}=\frac{1}{2}\cdot(\frac{1}{P}+\frac{1}{R}) F11=21(P1+R1)
学习器A的   F 1 \ F1  F1值比B的   F 1 \ F1  F1值高,计算   B E P \ BEP  BEP时P与R相等,可得A的   B E P \ BEP  BEP大于B的   B E P \ BEP  BEP

2.4

查准率:   P = T P T P + F P \ P=\frac{TP}{TP+FP}  P=TP+FPTP

查全率:   R = T P T P + F N \ R=\frac{TP}{TP+FN}  R=TP+FNTP

真正例率:   T P R = T P T P + F N \ TPR=\frac{TP}{TP+FN}  TPR=TP+FNTP

假正例率:   F P R = F P F P + T N \ FPR=\frac{FP}{FP+TN}  FPR=FP+TNFP

易得真正例率=查全率。
假正例率实际上就是1-对反例的查全率。

2.5

2.6

试述错误率与ROC曲线的关系。
错误率越低,在绘制ROC曲线时,前半部分(即预测结果正例部分)越不容易出现反例,曲线越接近垂直,后半部分(预测结果反例部分),曲线越接近平行,即:错误率越低,ROC曲线下的面积越大。

2.7

由代价曲线的绘制方式可知,ROC曲线上每一点都对应代价平面上一条线段,即每一条ROC曲线都能绘制出一条对应的代价曲线,每一条代价曲线也都能确定出一条ROC曲线(感觉实际操作很困难)。

2.8

Min-max 规范化 优点:

  1. 可以自定义规范化后的取值区间,方便操作
  2. 原本数据的变化率按比例原封不动的复制到新数据中
  3. 实现简单

缺点:

  1. 容易受高杠杆点和离群点影响
  2. 加入新值超出最大最小范围时重新计算之前所有结果

z-score规范化 优点:

  1. 显示出数据相对平均值的变化率
  2. 对离群点敏感度较低

缺点:

  1. 规范化后数据的上界下界不确定,下一步操作相对比较困难。
  2. 加入新值超出最大最小范围时重新计算之前所有结果
  3. 计算量相对较大

2.9

  χ 2 \ χ^2  χ2效验过程:

两学习器分类差别联系表

算法B\算法A 正确 错误
正确   e 00 \ e_{00}  e00   e 01 \ e_{01}  e01
正确   e 10 \ e_{10}  e10   e 11 \ e_{11}  e11

效验两学习器分类差别,假设两学习器性能相同,则应有   e 01 \ e_{01}  e01=   e 10 \ e_{10}  e10
效验考虑变量:
τ χ 2 = ( ∣   e 01 −   e 10 ∣ − 1 ) 2   e 01 +   e 10 τ_{χ^2}=\frac{(|\ e_{01}-\ e_{10}|-1)^2}{\ e_{01}+\ e_{10}} τχ2= e01+ e10( e01 e101)2
给定显著度   α \ α  α,以上变量小于临界值   χ α 2 \ χ_{α}^2  χα2时,不能拒绝假设,即认为两学习器性能没有显著差别;否则拒接假设,认为两者性能有显著差别。

你可能感兴趣的:(机器学习 周志华 第二章 模型评估与选择 章节习题)