学习:假设P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上,P获得了提高,就说该程序对E进行了学习。通俗讲就是通过一个程序性能得到了提高,这个过程就叫学习。
示例/样本:一条记录,一个行向量
属性/特征:一个列向量/特征向量
属性值:一个列向量中的一个具体值
属性空间:所有属性的集合
样本维数:属性的个数或特征向量的个数
训练集:用来训练的样本集合 通常称为Train
假设:学的模型关于数据的某种潜在规律,通常为假设函数
学习器:学习算法在给定数据和参数空间上的实例化
标记:分类任务中的类别,Y值
样例:有标记的示例
分类任务:预测的是离散值的任务
回归任务:预测的是连续值的任务
无监督任务:训练数据无标记,无Y
有监督任务:训练数据有标记,有Y
泛化能力:模型适用于整个样本空间的能力(实际性能)
版本空间:与训练集一致的假设的集合(可能有多个)
例如,对于样本
存在
两个假设,称这两个假设为这个样本空间的假设空间/版本空间。
归纳偏好:机器学习算法在学习过沉重对于某种类型假设的偏好。例如,奥卡姆剃刀原则就是算法喜欢简单模型的一种偏好。
奥卡姆剃刀原则:若有多个假设与观察一致,选择最简单的一个。
NFL的启示:脱离具体数据与具体任务的算法毫无意义。
错误率 E = a/m(其中a为分类错误的样本的个数,m为总样本的个数)
精度 = 1 - E
错误率与精度一般用于分类任务中
过拟合:学习器把训练样本自身的特点当做了一般性质
欠拟合:学习器对训练样本的一般性质没有学好
例如
注意:欠拟合一般比较好克服,可以通过改变学习算法、增加模型的训练次数等方式改进
过拟合一般难以克服;
克服过拟合的一般方法:①增加数据 ②特征选择/提取,如PCA ③正则化
一 、处理Data的方法:
2.21 留出法
思想:将Data划分为两个互斥的集合,一个用于训练,另一个用于测试
为了保持数据分布的一致性,避免因数据划分而导致偏差,通常用分层抽样的方法进行采样,一般T:S=7:3
注意:单次使用留出法评估结果往往不稳定可靠,一般采用若干次随机划分、重复进行试验评估后取平均值作为结果。
2.22 交叉验证法
思想:将Data划分为k个大小相似的互斥集合,用k-1个子集来训练,留一个用来测试,对于测试结果取平均作为结果。
注意:
采样时:为了保持数据分布的一致性,避免因数据划分而导致偏差,通常用分层抽样的方法进行采样(与留出法采样一致)。
取结果:几折交叉验证就会存在几个测试结果,对这些结果取平均值。
k折交叉验证可获得k组训练/测试集,可以进行k次训练和测试,最终返回k个测试结果。
例如:
留一法(1折交叉验证)
2.23自助法(重复采样)
自助法适用性: 数据小 难以有效分S T时使用
注意:自助法产生的数据集会改变原始数据集的分布,从而引入估计偏差
2.24调参
超参数:一般数量较少,人工给定
模型参数:一般数量很多,用模型进行学习
均方误差:用于回归任务
其中式(2.2)为离散值时均方误差;式(2.3)为连续值时均方误差
2.31错误率与精度(适用于类平衡数据)
其中 式(2.4)(2.5)为离散值时的错误率与精度;式(2.6)(2.7)为连续值时的错误率与精度
2.32查准率P(准确率/精度)、查全率R(召回率)与F1(适用于类不平衡数据)
一般来说查准率与查全率是矛盾的,于是就有了P-R图
一般衡量标准
P-R曲线下方的面积,面积越大模型越好
BEP(平衡点):平衡点越往右上,模型越好
F1度量:
Fβ度量:
2.33 ROC与AUC(用来度量概率分类器的排序性能)