Datawhale吃瓜教程Task01

第1章 绪论

一、基本术语

  1. 数据集(data set)

2. 示例(instance)/样本(sample)

  3. 属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质

     属性值(attribute value):属性上的取值

     属性空间(attribute space)/样本空间(sample space): 属性张成的空间

  1. 特征向量(feature vector):一个示例->空间中一个点->一个坐标向量
  2. D={x1,x2,...,xm}

  xi=(xi1,xi2,...,xid)

  D为包含m个样本的数据集

  每个样本xi由d个属性描述,对应d维样本空间X的一个向量

  1. 标记(label)

   yi:样本xi的标记

   标记空间(label space):所有标记的集合

  1. 分类(classification):预测离散值

回归(regression):预测连续值

预测任务是希望通过对训练集进行学习,建立一个从样本空间到标记空间的映射

  1. 聚类(clustering)

簇(cluster)

聚类学习中使用的训练样本通常不拥有标记信息

  1. 监督学习(supervised learning)  e.g.分类和回归

  无监督学习(unsupervised learning)  e.g.聚类

  1. 泛化(generalization)能力:学得的模型适用于新样本的能力

   通常假设样本空间中全体样本服从一个未知“分布”(distribution),每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed, i.i.d.)

第2章 模型评估与选择

一、经验误差与过拟合

1. 错误率(error rate):分类错误的样本数占样本总数的比例

   E=a/m

   精度(accuracy):1-a/m  即“精度=1-错误率”

  1. 误差(error):实际预测输出和样本真实输出之间的差异

   训练误差(training error)/经验误差(empirical error):在训练集上的误差

   泛化误差(generalization error):在新样本上的误差

  1. 过拟合(overfitting):学得“过于好”,以至于很可能把训练样本内部的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降

  欠拟合(underfitting)

  • 评估方法
  1. 测试集(testing set)

   测试误差(testing error)

   测试样本应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过

  1. 留出法(hold-out):直接将数据集D划分为两个互斥的集合(训练集S和测试集T)
  1. 训练集测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。 e.g.分类任务中至少要保持样本类别比例相似;“分层采样”(stratified sampling)
  2. Train_test_split的划分方式多样可能导致模型评估的结果有差别,因此单次使用留出法不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
  3. 窘境:

S大T小=>模型可能接近用D训练出来的模型,但评估结果可能不够准确稳定;

S小T大=>模型与用D训练出来的模型可能差别较大,从而降低评估结果的保真性(fidelity)。

常见做法:将大约2/3~4/5的样本用于训练,剩余作为测试集

  1. 交叉验证法(cross validation)

   将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集作为训练集,剩下的一个作为测试集,可以得到k组训练-测试集,最终返回k个测试结果的均值。评估结果的稳定性和保真性很大程度上取决于k的取值。

为了减小因样本划分方式不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。

当k=m时(m为D所含样本总数),为特例:留一法(Leave-One-Out,LOO):

留一法不受随机样本划分方式的影响,由于使用的训练集和初始数据集相比只少了一个样本,在绝大多数情况下留一法中被实际评估的模型与期望评估的用D训练出来的模型很相似。因此,留一法的结果往往被认为比较准确。

留一法的缺陷在于:数据集较大时训练m个模型的计算量unbearable

  1. 自助法(bootstrapping)

   对含m个样本的数据集D重复放回采样m次,样本在m次采样中始终不被采到的概率是(1-1/m)m,一直没被采到的样本用于测试集。

自助法在数据集较小、难以有效train_test_split时很有用,因能从初始数据集中产生多个不同的训练集而对集成学习等方法有很大好处。

然而,自助法产生的数据集改变了初始数据集的分布,会引入估计误差。

在初始数据量足够时,留出法和交叉验证法更常用。

  1. 调参(parameter tuning)与最终模型

   算法的参数(超参数)和模型的参数

三、性能度量(performance measure):衡量模型泛化能力的标准

回归任务最常用的性能度量是“均方误差”(mean squared error,MSE)

更一般地,  D为数据分布,p(·)为概率密度函数

 

  1. 错误率与精度

   错误率

 

   精度

 

  1. 查准率、查全率与F1

  TP:预测为正,真实为正

  FP:预测为正,真实为反

  TN:预测为反,真实为反

  FN:预测为反,真实为正

  查准率(precision)

  查全率(recall)

 

  查准率与查全率是一对矛盾的度量

  综合考虑查准率和查全率的性能度量:

  ①比较学习器P-R曲线下面积的大小(不容易估算)

  ②平衡点(Break-Even Point, BEP):学习器的查准率=查全率时的取值,大更优

  ③F1度量:

 

  ④Fβ(F1度量的一般形式),能表达出对查准率、查全率的不同偏好

 其中β>0度量了查全率对查准率的相对重要性,β=1时退化为F1,β>1时查全率有更大影响,β<1时查准率有更大的影响。

  • 偏差与方差

偏差

 

方差

 

噪声

 

泛化误差

 

即泛化误差可分解为偏差、方差、噪声之和。

一般来说,偏差和方差有冲突。

训练不足时,拟合能力不够强,偏差主导泛化错误率;随着训练程度加深,拟合能力增强,方差逐渐主导泛化错误率。

你可能感兴趣的:(机器学习)