【西瓜书+南瓜书】task01: 第1、2章(2天)【机器学习】

【西瓜书+南瓜书】task01: 第1、2章(2天)

  • 第一章 绪论
    • 1.1 引言
    • 1.2 基本术语
    • 1.3 假设空间
    • 1.4 归纳偏好
    • 1.5 发展历程(机器学习)
    • 1.6 应用现状
  • 第二章 模型评估与选择
    • 2.1 经验误差与过拟合
    • 2.2评估方法
      • 2.2.1留出法
      • 2.2.2 交叉验证法**
      • 2.2.3自助法 bootstrapping
      • 2.2.4调参
    • 2.3 性能度量
      • 2.3.1 错误率与精度
      • 2.3.2 查准率P、查全率R、F1
          • 二分类
          • 多分类:
      • 2.3.3 ROC \ AUC
    • 2.4 比较验证
      • 2.4.1假设验证 (南瓜书公式2.27)
      • 2.4.1交叉验证t检验
      • ...
    • 2.5 偏差 方差(南瓜书公式2.41)

第一章 绪论

1.1 引言

1.2 基本术语

1.3 假设空间

    归纳vs.演绎 
    归纳学习

1.4 归纳偏好

没有免费的午餐NFL 定理:(南瓜-公式1.2)
无论学习算法a多聪明, 算法b多笨,他们的期望性都是相同的。
所以不能脱离具体问题空谈什么学习算法更好都是毫无意义的。

1.5 发展历程(机器学习)

    推理期
        连接主义(1950s)
        符号主义(1960s)

    知识期(1970s)
    机器学习(1980s):符号主义
    | 机械学习、示教学习+类比学习、归纳学习(监督or无监督)
        决策树
        BP算法

    统计学习(1990s)
        SVM

    深度学习(2000s):连接主义
        神经网络

1.6 应用现状

第二章 模型评估与选择

2.1 经验误差与过拟合

    过拟合vs.欠拟合

2.2评估方法

| 训练集S+测试集T

2.2.1留出法

2.2.2 交叉验证法**

【西瓜书+南瓜书】task01: 第1、2章(2天)【机器学习】_第1张图片

        特例: 留一法leave-one-out (LOO) 往往比较准确,但未必永远最准确(NFL定理)

2.2.3自助法 bootstrapping

    | 用于 :小数据集,难以划分训练、测试集上

2.2.4调参

        训练集划分为:训练集+验证集,基于验证集的性能调参
        实数范围内取值,对每个参数选定范围和步长

2.3 性能度量

| 均方误差

2.3.1 错误率与精度

        分类错误率

2.3.2 查准率P、查全率R、F1

【西瓜书+南瓜书】task01: 第1、2章(2天)【机器学习】_第2张图片

二分类

【西瓜书+南瓜书】task01: 第1、2章(2天)【机器学习】_第3张图片

        P选尽可能对的,R选尽可能全的。P与R是矛盾的。P高则R低,P低则R高。
        平衡点Break-Event Point (BEP) : P=R.  
        学习器C的BEP是0.64, B的是0.72,A是0.80,学习器A最优

将BEP优化一下,可以得到F1
在这里插入图片描述

多分类:
  • 宏查准、宏查全、宏F1
    | 分成N个二分类后 分别计算P\R\F1 然后求均值
  • 微查准、微查全、微F1
    | 分成N个二分类后 分别 求均值 然后算P\R\F1

2.3.3 ROC \ AUC

【西瓜书+南瓜书】task01: 第1、2章(2天)【机器学习】_第4张图片

  • ROC : 直观的反应模型性能,但是难以比较不同模型的差异。

             横轴(TPR)真正例率
                 TPR=TP/(TP+FN)
             纵轴(FPR)假正例率
                 FPR=FP/(TN+FP)
    
  • AUC :ROC曲线的下方的面积求和而得, 考虑样本预测的排序质量,与排序误差有紧密联系。(南瓜书公式2.20)公式2.21

2.4 比较验证

2.4.1假设验证 (南瓜书公式2.27)

2.4.1交叉验证t检验

2.5 偏差 方差(南瓜书公式2.41)

你可能感兴趣的:(机器学习,机器学习,决策树,算法)