【机器学习】西瓜书课后习题参考答案—第二章

记录西瓜书课后习题的思考与参考答案。

术语学习

错误率 error rate
精度 accuracy
误差 error
训练误差 training error
经验误差 empirical error
泛化误差 generalization error
过拟合 overfitting
欠拟合 underfitting
模型选择 model selection
测试集 testing set
测试误差 testing error
留出法 hold-out
采样 sampling
分层采样 stratified sampling
保真性 fidelity
交叉验证法 cross validation
k折交叉验证 k-fold cross validation
留一法 Leave-One-Out
自助法 bootstraping
自助采样法 bootstrap sampling
包外估计 out-of-bag estimate
参数 parameter
调参 parameter tuning
验证集 validation set
性能度量 performance measure
均方误差 mean squared error
查准率 precision
查全率 recall
真正例 true positive
假正例 false positive
真反例 true negative
假反例 false negative
平衡点 Break-Even Point
调和平均 harmonic mean
宏F1 macro-F1
微F1 micro-F1
阈值 threshold
截断点 cut point
受试者工作特征 Receiver Operating Characteristic
AUC Area Under ROC Curve
非均等代价 unequal cost
代价矩阵 cost matrix
总体代价 total cost
代价敏感 cost-sensitive
代价曲线 cost curve
统计假设检验 hypothesis test
规范化 normalization
二项检验 binomial test
置信度 confidence
t检验 t-test
双边 two-tailed
成对t检验 paired t-test
列联表 contingency table
偏差-方差分解 bias-variance decomposition
偏差-方差窘境 bias-variance dilemma

2.1 数据集包含 1000 个样本,其中 500 个正例、 500 个反例,将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估,估算有多少种划分方式。

答:
需注意,训练集/测试集的划分要尽可能保持数据分布的一致性,因此,训练集包含350个正例样本,350个反例样本
抽取正例共 C 500 350 C^{350}_{500} C500350种方式,抽取反例共 C 500 350 C^{350}_{500} C500350种方式,因此共 ( C 500 350 ) 2 (C^{350}_{500})^2 (C500350)2种。

2.2 数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

答:
分类错误率定义为
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ≠ y i ) E(f;D)=\frac1m\sum^m_{i=1}\mathbb{I}(f(\bm{x}_i \ne y_i) E(f;D)=m1i=1mI(f(xi=yi)
10折交叉验证法,每次训练时训练集中有45个正例和45个反例,预测时随机猜测新样本(5个正例和5个反例)的标签,错误率期望为50%。
留一法,每次训练时有49个正例和50个反例,新样本(1个正例)会被预测为反例,错误率为100%,每次训练时有50个正例和49个反例,新样本(1个反例)会被预测为正例,错误率为100%。

2.3 若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。

答:
直观感受就是两者没有必然的联系。

“平衡点”BEP就是这样一个度量,P-R曲线上“查全率=查准率”时的取值。
F1是基于查全率和查准率的调和平均。
F 1 = 2 × P × R P + R = 2 × T P 样例总数 + T P − T N F1 = \frac {2 \times P \times R}{P + R} = \frac {2 \times TP}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TPTN2×TP
P = T P T P + F P P = \frac {TP}{TP+FP} P=TP+FPTP
R = T P T P + F N R = \frac {TP}{TP+FN} R=TP+FNTP

反例,假设学习器A的输出值(范围0-1)均为学习器B的2倍,那么学习器B的输出值范围就是0-0.5,那么在同样的阈值(假设为0.5)下,学习器B的F1值为0,学习器A的F1值大于0,而两个学习器的BEP应该是相等的。
从P-R曲线图上可以设想两条曲线A,B,它们都过同一点,且为BEP,但是F1值需要在给定的P和R下进行比较。

参考链接1,参考链接2,他们的分析思路值得借鉴。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

答:
T P R = T P T P + F N TPR = \frac {TP}{TP+FN} TPR=TP+FNTP 真正例率,代表真实正例中预测对的
F P R = F P T N + F P FPR = \frac {FP}{TN+FP} FPR=TN+FPFP 假正例率,代表真实反例中预测错的
P = T P T P + F P P = \frac {TP}{TP+FP} P=TP+FPTP 查准率,代表预测为正例的样本中有多少是对的,precision
R = T P T P + F N R = \frac {TP}{TP+FN} R=TP+FNTP 查全率,代表真实正例中有多少被预测对了,也叫召回率recall
存在的关系:
R和TPR说的是一回事
一般来说,P高时,R往往偏低,R高时,P往往偏低。

2.5 试证明式(2.22)。

先过。

2.6 试述错误率和ROC曲线的联系。

答:
错误率是在阈值固定的情况下得出的,ROC曲线是在随着阈值变化的情况下得出的。ROC曲线上的每一个点,都对应着一个错误率。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。

答:
ROC曲线上点的坐标为(FPR,TPR),可以求得FNR=1-TPR,此时可以在代价平面上绘制一条(0,FPR)到(1,FNR)的线段,取所有线段下界,形成代价曲线。
在代价曲线上每一点做切线,都会和y=0,以及y=1有个交点,分别是FPR,FNR,然后得到TPR,对应ROC曲线上的一个点。

2.8 Min-max 规范化和z-score 规范化的优缺点。

答:
Min-max 规范化优点1、计算相对简单一点。2、当新样本进来时,只有在新样本大于原最大值或者小于原最小值时,才需要重新计算规范化之后的值。缺点在于1、容易受高杠杆点和离群点影响。

z-score 规范化优点在于。1、对异常值敏感低。缺点在于1、计算更负责。2、每次新样本进来都需要重新计算规范化。

2.9 计算 χ 2 \chi^2 χ2检验过程。

答:

  1. 分均值已知与均值未知两种情况,求得卡方检验统计量
  2. 根据备选假设以及α,求得所选假设的拒绝域
  3. 根据求得的拒绝域,看是否落于区间,判断假设成立与否。

2.10 试述在Friedman 检验中使用式(2.34) (2.35) 的区别。

答:
复习完概率论数理统计再来作答。

你可能感兴趣的:(大橙子学机器学习,机器学习,人工智能,深度学习)