《机器学习》周志华第二章模型评估与选择:思维导图与课后答案

一.要点


注:书P40倒数第二自然段最后两行内容和P41中2.4.3前面的两行相矛盾。式2.32应该是服从自由度为4的t分布

二.课后题

  1. 训练集数目为700,其中正例350,反例350.
    那么有(C350500)2
    余下的不用管
  2. 10折交叉验证:分层抽样。所以每折有5+,5-个样例。留下来做测试的也是5+,5-的样例。所以随机。错误率50%
    留一法:不管怎么分,因为测试集占了一个样例。同类样例在训练集中必然比另外一类的数目少。故而始终将测试集判断成相反样例。错误率100%
  3. 不妨令A的BEP值比B的低。那么,此时对A有P1=R1,F11=P1,对B有P2=R2,F12=P2;P1
    原本是想这么搞的。但看清“此时”这个前提条件了吗?你咋晓得计算F1时P=R?推不过去,所以无法确定
  4. TPR=TP/(TP+FN)=R
    FPR=FP/(TN+FP)
    P=TP/(TP+FP)
    功夫不负有心人,P和FPR只要多试几次总能找出关系,再不济还有样例总数在,总能找出来的,我就不算了
  5. 由图可知。总面积减去ROC曲线上的面积就可以得到。具体的可以参考下https://blog.csdn.net/icefire_tyh/article/details/52065867这位的
  6. ROC曲线纵坐标TPR,横坐标FPR,可以得到错误率
  7. 看思维导图,有注明。在样本数目无限时,反推也是可以得到唯一ROC曲线的
规范化 优点 缺点
Min-max 1.操作简单2.都是正的3.不用频繁更新 出现极端值会导致情况不可靠
z-score 1.出现极端值场面控制得住2.在0附近 每次都得更新

你可能感兴趣的:(西瓜书,机器学习)