吃瓜教程—Task01

西瓜书第1、2章

  • 第一章 绪论
    • 1.1 引言
    • 1.2 基本术语
    • 1.3 假设空间
    • 1.4 归纳偏好
  • 第二章 模型的评估与选择
    • 2.1 经验误差与过拟合
    • 2.2 评估方法
      • 2.2.1 留出法
      • 2.2.2 交叉验证法
      • 2.2.3 自助法
      • 2.2.4 调参和最终模型
    • 2.3 性能度量
      • 2.3.1 错误率和精度
      • 2.3.2 查准率、查全率与F1

第一章 绪论

1.1 引言

人工智能:让机器变得像人一样拥有智能的学科
机器学习:让计算机像人一样能从数据中学习出规律的一类算法
深度学习:神经网络类的机器学习算法

人工智能>机器学习>深度学习

人工智能具体应用领域:
计算机视觉(CV):让计算机拥有视觉能力
自然语言处理(NLP):让计算机拥有语言能力
推荐系统(RS):让计算机精确分析出人的喜好

1.2 基本术语

数据集data set:机器学习的基础是数据,数据的集合
示例instance/样本sample:每条数据描述了一个对象的信息,该对象称之为示例,一般用x表示
属性attribute/特征feature:数据描述的是样本在某些方面的性质,称之为属性
属性值attribute value:属性的取值
属性空间attribute space/样本空间sample space/输入空间input space:对于一个样本而言,假如它有n种属性,则组成了一个n维空间,称之为样本空间
特征向量feature vector:示例的别名
学习learning/训练training:从数据集中学得模型的过程
训练数据training data:学习过程中使用的数据
训练样本training sample:训练数据中的样本
训练集training set:数据集分为两部分,一部分用于训练模型
假设hypothesis:学得的模型对应了数据集中某种潜在的规律,称之为假设
真相/真实ground-truth:数据集本身的潜在的规律。学习的过程就是逼近真相的过程
学习器learner:模型的别称
标记label:有关示例结果的信息,一般用y表示
样例example:具有标记信息的示例
标记空间label space/输出空间:所有标记的集合构成的空间
分类classification:一种典型的学习任务,将数据集按一定规律分为若干类
回归regression:一种典型的学习任务,预测数据集对应的结果
测试testing:学得模型后,对其进行预测的过程。机器学习是一个反复的过程,需要重复多次学习、测试、调整,才能得到准确率最高的模型
测试样本testing sample:被预测的样本
聚类clustering:无监督学习的一种,将训练集的数据分为若干组,而这些组事先是不知道的
簇cluster:聚类得到的数据分类
监督学习supervised learning:训练数据拥有标记信息
无监督学习unsupervised learning:训练数据没有标记信息
泛化generalization能力:学得模型适用于新样本的能力。或者说,模型预测数据的精准度
独立同分布independent and identically distributed:简称i.i.d。假设样本是从一个很大的数据空间中,独立的从其内在分布上得到的

1.3 假设空间

假设指模型所对应数据集中在的规律,所以假设空间应该是指所有可能的模型对应的规律的集合,也就是特征和结果之间可能的关系的集合。

1.4 归纳偏好

  1. 任何一个机器学习算法都必有归纳偏好。
  2. 奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则:若有多个假设与观察一致,则选择最简单的那个
  3. 算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能
  4. 没有免费的午餐:对于一个学习算法A,若它在某些问题上比学习算法B好,那么必然存在一些问题B比A好。【具体问题具体分析】

第二章 模型的评估与选择

2.1 经验误差与过拟合

  1. 误差:学习器的实际预测输出与样本的真实输出之间的差异
  2. 训练误差(经验误差):学习器在训练集上的误差
  3. 泛化误差:模型在新样本上的误差
  4. 过拟合:将训练样本自身特点当做潜在样本的一般性质
  5. 欠拟合:对训练样本的一般性质尚未学好
  • 机器学习的难点之一是如何缓解过拟合,使模型泛化能力增强
  • 欠拟合可以通过增加“学习量”来解决
  • 应当选择泛化误差最小的模型

2.2 评估方法

2.2.1 留出法

  • 直接将数据集划分为两个互斥的集合,一个为训练集,另一个为测试集。
  • 划分时应分层采样,划分比例常为2/3~/5,要多次随机划分,重复进行实验评估取平均值。

2.2.2 交叉验证法

  • 将数据集划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下的子集作为测试集,可以进行k次训练与测试。
  • 交叉验证法又称为k折交叉验证,k常用取值5、10、20。
  • 随机重复划分p次,称为p次k折交叉验证。

留一法:k等于样本数时的特例

  • 优点:留一法中评估的模型和最终的模型很相似,因为它们训练时只相差一个样本,因此用留一法进行评估能够更好的估计最终模型的范化误差。
  • 缺点:但是在样本数据比较多的时候,留一法要计算的次数会非常多,计算复杂度高。

2.2.3 自助法

数据集样本数为m,有放回的重复抽取m次形成一个训练集,数据集中从未被抽取的样本组成测试集

  • 优点:自助法中,有约1/3的未在训练集中出现的数据作为测试集,测试样本充足,且训练集样本数与最终训练样本数一致,适合数据集较小或难以有效划分时使用。
  • 缺点:改变了数据集分布,引入估计偏差

2.2.4 调参和最终模型

学习算法的参数常在实数范围取值,无法将所有可能的模型都训练出来,需要按一定规则选择一部分参数来进行训练,如选择一个范围和步长,使可选参数数量从无穷多个减少到有限个,然后才能实际进行模型训练

2.3 性能度量

衡量模型泛化能力的评价标准就是性能度量

2.3.1 错误率和精度

错误率:分类错误的样本数占总测试样本数的比例
精度:分类正确的样本数占总测试样本数的比例

2.3.2 查准率、查全率与F1

真实\预测 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

查准率: p = T P T P + F P p=\frac{TP}{TP+FP} p=TP+FPTP
查准率: p = T P T P + F N p=\frac{TP}{TP+FN} p=TP+FNTP

你可能感兴趣的:(人工智能,算法)