题: 数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
答:留出法将数据集划分为两个互斥的集合,为了保持数据的一致性,应该保证两个集合中的类别比例相同(定义要求)。故可以用分层采样的方法。训练集包含350个正例与350个反例,测试集包含150个正例与150个反例。
2.2
题:数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
答:采用10折交叉验证法:通过分层采样产生10个互斥子集,每个子集包括10个样本,正反例各半(尽可能保持数据分布的一致性)。每次取其中9个子集做训练,1个子集做测试。因此错误率为50%。
采用留一法时,如果留出来测试样本的1个是正例,则训练样本中正负样本的比例是49:50,这时模型会将测试样本识别为负例;如果流出来的测试样本是负例,则训练样本中正负样本比例是50:49,这时模型会将测试样本识别为正例。故留一法得到测试结果错误率是100%。
题:若学习器A的F1值比学习器B的高,试分析A的BEP值是否比B高
答:BEP(平衡点:break-even point):是PR曲线上的平衡点的坐标值,它是“查准率=查全率”时的取值,F1为调和平均,若A的F1高于B,则((2*Pa*Ra)/(Pa+Ra))>((2*Pb*Rb)/(Pb+Rb))。Pa = Ra = BEPa , Pb = Rb = BEPb ,故BEPa>BEPb,即假设成立
2.4
题:试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
答:真正例率TPR = TP / ( TP + FN ):真正例占真实正例中的比例
假正利率FPR = FP / ( TN + FP ):假正例占真实反例中的比例
查准率 P = TP / (TP + FP):真正例占预测正例中的比例
查全率 R = TP / (TP + FN):真正例占真实正例中的比例
2.5
题:试证明下式:
AUC=1-lrank, 其中Lrank 是排序损失
答:略(一脸懵逼)
2.6
题:试述错误率与ROC曲线之间的关系
答:错误率=预测失败/样例总数。根据混淆矩阵可知,E=1-(TP+TN)/样例总数
ROC中越接近(1,0)点的越完美,常常需要计算错误率实现P、R的折中
2.7
题:试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。
答:ROC曲线的坐标为(FPR , TPR),可相应计算出FNR = 1 - TPR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,包含着该条件下的总体代价。ROC曲线是连续的,故必然有确定的一条代价曲线与之对应
反之:反之,对代价曲线上的任何一点作切线,可以得到对应的FPR与FNR,即可以得到ROC曲线上一个点的坐标。因此代价曲线也有一条对应的ROC曲线存在。
2.8
.。。。不懂
2.9
题:试述卡方检验过程。
答:
1)分均值已知与均值未知两种情况,求得卡方检验统计量
2)根据备选假设以及α,求得所选假设的拒绝域
3)根据求得的拒绝域,,看是否落于区间,判断假设成立与否。