Task01:概览西瓜书+南瓜书第1、2章

第一章 绪论

机器学习:

  • 定义:通过计算,利用经验(以数据的形式存在),改善性能。
  • 主要内容:从数据中产生“模型”的算法(学习算法)
  • 目标:模型适用“新样本”(泛化能力)

1997年,Mitchell给出了一个形式化的定义:

  • 假设用P来评估计算机程序在某任务类T上的性能
  • 若一个程序利用经验E在T中任务上获得了性能改善
  • 则我们就说关于T和P,该程序对E进行了学习

根据训练数据是否有标记信息:

  • 监督学习
    • 分类:预测离散值
    • 回顾:预测连续值
  • 无监督学习
    • 聚类:直接将样本(西瓜,不拥有标记信息)分为若干组(称为“簇”),簇是自动形成的。
      有利于我们了解数据内在规律

第二章 模型评估与选择

训练误差(经验误差):学习器在训练集上的误差
泛化误差:在新样本上的误差

我们最终需要的肯定是泛化误差最小的学习期,但是我们不可能知道新样本是什么样的,所以只能使得经验误差最小
感觉类似于操作系统中,使用LRU来代替OPT

过拟合:

  • 将个体的独特特性,当作了一般特性。
  • 关键障碍(无法彻底避免)

欠拟合:

  • 一般特性尚未学好。
  • 容易克服,加大学习能力

评估方法:对数据集D进行处理,从中产生训练集S和测试集T

  1. 留出法
  2. 交叉验证法
  3. 自助法

性能度量:

  1. 错误率与精度
  2. 查准率、查全率与F1

参考
《机器学习》 周志华著
《机器学习公式详解》 谢文睿 秦州著

你可能感兴趣的:(啃西瓜,机器学习)