西瓜书第二章习题及答案

西瓜书第二章习题及答案_第1张图片

注释:

1、留出法:即我们常用到的将数据集3-7分,2-8分,划分为训练集和测试集。
2、在使用留出法划分数据集的时候需要注意要保留数据分布一致性。

解答:
根据注释2,我们在划分的过程中,训练集的数据应当包含 500 ∗ 70 500*70 50070%=350的正例和 500 ∗ 30 500*30 50030%=150的反例,其余为测试集。要保证数据是随机划分的,根据概率论知识有 C 500 350 ∗ C 500 350 C_{500}^{350}*C_{500}^{350} C500350C500350(或者 C 500 150 ∗ C 500 150 C_{500}^{150}*C_{500}^{150} C500150C500150)种划分方式。

西瓜书第二章习题及答案_第2张图片

注释:

1、先搞清楚10折交叉验证法和留一法是如何划分的,对应书本P26。

解答:
(1)对于10折交叉验证法:
西瓜书第二章习题及答案_第3张图片
按照最理想的划分方式, D 1 − D 10 D_1-D_{10} D1D10每个集合都是正反样例个数一样,训练集中正反例的个数一样,那么此时进行随机猜测,则预测结果要么是正确,要么是错误,即错误率和准确率都为50%。

(2)对于留一法(k=m):
每次划分只有一个样本,这个用来进行测试的样本要么是正例,要么是反例。题目中总样本是正反例数目一样,所以根据题目给的条件,当测试样本为正例时,预测结果为反例(因为此时训练集中反例样本比正例样本多);同理当测试样本为反例时,预测结果为正例。因此,当使用留出法时,它的正确率为0%,错误率为100%。

在这里插入图片描述注释:
1、F1 = 2 ∗ P ∗ R P + R \frac{2*P*R}{P+R} P+R2PR ,BEP(Break-Even Point): 是 P=R时的取值。
2、在PR曲线上,每个(P,R)点都对应一个F1值。
解答:
F 1 A F1_A F1A = 2 ∗ P 1 ∗ R 1 P 1 + R 1 \frac{2*P1*R1}{P1+R1} P1+R12P1R1 , F 1 B F1_B F1B = 2 ∗ P 2 ∗ R 2 P 2 + R 2 \frac{2*P2*R2}{P2+R2} P2+R22P2R2
(1)P = R时, F 1 A F1_A F1A = P1, F 1 B F1_B F1B = P2,由题知 F 1 A F1_A F1A > F 1 B F1_B F1B, 所以P1>P2,x即 B E P A BEP_A BEPA> B E P B BEP_B BEPB
(2)P!=R时,根据注释2,可以看出F1和BEP并没有相关的关系,所以推不出大小关系。

在这里插入图片描述

答:

分类结果混淆矩阵:

预测结果
真实情况 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

TPR = T P T P + F N \frac{TP}{TP+FN} TP+FNTP , FPR = F P T N + F P \frac{FP}{TN+FP} TN+FPFP

P = T P T P + F P \frac{TP}{TP+FP} TP+FPTP , R = T P T P + F N \frac{TP}{TP+FN} TP+FNTP
从公式上看,TPR = P。

在这里插入图片描述
式(2.22)
西瓜书第二章习题及答案_第4张图片

参考链接

题目2.6-2.10参考文章:参考链接

你可能感兴趣的:(机器学习-西瓜书)