1、统计学习的定义:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往指的是统计机器学习。
2、统计学习的对象:数据(数字、文字、图像、视频、音频数据以及它们的组合),这些数据用向量或者向量组来表示;
步骤:数据--》提取数据特征--》抽象出数据的模型--》发现数据中的知识--》回到数据中分析与预测
统计学习的提起假设是同类数据具有一定的统计规律性;
3、统计学习的目的:
考虑学习什么样的模型如何学习模型,以使模型能对未知的新数据进行准确的预测与分析,同时考虑尽可能的提高学习效率;
4、统计学习的方法:基于数据构建统计模型从而对数据进行预测与分析。
统计学习(监督学习)的三要素:
假设空间:假设要学习的模型属于某个函数的集合,这个集合就是假设空间;
策略:应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据和未知测试数据在给定的准则下有最优预测。策略就是优化函数。
算法:最优模型的选取由算法实现,常见的算法是梯度下降算法。
5、统计学习的研究:
统计学习的研究一般包括了统计学习方法、统计学习理论及统计学习应用三个方面。
6、统计学习的重要性:不言而喻了。
统计学习包括了监督学习、半监督学习、非监督学习及强化学习。
监督学习的任务是学习一个模型,使模型能够对任意给定个的输入,对其相应的输出做出一个好的预测。
1、基本概念:
输入空间/输出空间:在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间和输出空间。
特征空间:每个具体的输入是一个实例,也就是一个样本,通常由特征向量表示。所有的特征向量存在的空间称为特征空间。
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题;
联合概率分布(与概率论中的多维随机变量的分布是一个概率)
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。
当X,Y为离散随机变量时,P(X,Y)是分布函数;
当X,Y为连续随机变量时,P(X,Y)是分布概率密度;
假设空间:(函数的集合)
监督学习的目的就在于找到一个最好的模型用于输入和输出的映射;模型属于由输入空间到输出空间的映射的集合就是假设空间。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示;
2、监督学习问题的形式化
监督学习利用训练数据集成学习一个模型,再用模型对测试样本集进行预测。
分为了两个问题:学习与预测,其关系如下所示:
在监督学习中,假设训练数据与预测数据是依联合概率分布P(X,Y)独立同分布产生的。
统计学习方法都是有模型、策略和算法构成的,即统计学习方法由三要素构成,可以简单地表示为:
方法=模型+策略+算法
1、模型
统计学习首先要考虑的问题是学习什么样的模型,而模型可以分为决策函数型和条件概率型。
模型的假设空间包含了所有可能的条件概率分布或决策函数,这些函数的参数向量θ称为参数空间。
模型就是选定的函数簇,比如所有的一元一次函数、一元二次函数、对数函数等等。而统计学习第一步就是要找到一个最合适的函数簇。
2、策略(优化函数)
有了模型的假设空间之后,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目的在于从假设空间汇总选取最优模型。
意思就是从,更据一个评估的指标(比如说距离这个指标)来从假设函数中选取最优的函数,这个策略就是我们常见的机器学习的优化函数。
损失函数:
从给定的假设空间中选出一个函数,对于输入的样本映射为f(X),它与真实值Y可能一致也可能不一致,用损失函数或者代价数来度量预测错误的程度。
损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X));
统计学习常见的损失函数有:
(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数
风险函数(期望损失):
损失函数值越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:
损失函数的期望就是风险函数。
如果事先可以知道P(X,Y)的联合分布那就可以根据公式直接的计算出条件概率分布律P(Y|X)了,也就不用学习了,但是问题是并不知道P(X,Y)。所以这就是问题的关键所在。
经验风险:
模型f(X)在训练集上的平均损失函数称为经验风险或经验损失。
更加大数定律,当样本容量N趋于无穷是,经验风险趋于期望风险。但是,由于现实中训练集样本的数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正,可以使用监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化(ERM)
经验风险最小化策略认为,经验风险最小的模型是最优的模型,即在训练集上的平均损失函数最小时,就是模型最佳的时候。
当样本容量足够大时,经验风险最小化能保住有很好的学习效果,在现实中被广泛的采用,比如极大似然估计。
当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合”现象,为了防止这个现象,就采用结构风险最小化。
结构风险最小化(SRM)
结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。
比如,贝叶斯估计中的最大后验概率估计(MAP)就是结构风险最小化的一个例子。
3、算法
当我们选好模型了,并知道要用什么“指标”来评估模型了,接下来就是如何去选取最优的函数了。
算法就是完成选出最优函数的方法,是指学习模型的具体计算方法。
如果最优化问题有显示的解析解,这个最优化问题就比较简单,但通常情况下解析解不存在,这就需要用数值计算的方法求解。
如何保证找到全局最优解,并使得求解过程非常高效,就成为了一个重要的问题。
统计学习可以利用已有的最优化算法,有时也需要开发独自的最优算法。
统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。
1、训练误差和测试误差
当损失函数给定时,基于损失函数的模型训练误差和模型的测试误差就自然成为学习方法评估的标准。
通常将学习方法对未知数据的预测能力称为泛化能力。
2、过拟合与模型选择
过拟合现象:如果一味的追求提高对训练数据的预测能力,所选模型的复杂度则往往会比“真模型”更高,这种现象称为过拟合。
具体表现为模型对已知数据预测很好,但对未知数据预测得很差的现象。
模型选择的经典方法是正则化。
1、正则化是结构风险最小化策略的实现,是在经验风险上加一个正则项或罚项。
正则化更据的不同的模型可以选取不同的正则项。
正则化符合奥卡姆剃刀原理,即在所有可能选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型,也就是和应该选择的模型。
2、交叉验证:另一种 常用的模型选择方法是交叉验证
如果给定的样本数据充足,进行模型选择的一种简单的方法是随机地将数据集切分为三部分,分别是训练集、验证集和测试集。
训练集:用来训练模型;
验证集:验证模型的选择;
测试集:用于最终对学习方法的评估;
如果数据样本不足时,为了选择好的模型,可以采用交叉验证方法。
交叉验证的思想是:重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试及模型选择。
3、简单交叉验证
首先,随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(比如70%:30%);
然后,用训练集在各种条件下(如不同的参数个数)训练模型,从而得到不同的模型;
最后,在测试集上评价各个模型的测试误差,选出测试误差最小的模型;
4、S折交叉验证
首先,随机的将已给数据切分为S个互不相交的大小相同的子集;
然后,利用S-1个子集的数据训练模型,利用余下的子集测试模型;
接着,将这一过程对可能的S中选择重复进行;
最后,选出S次测评误差最小的模型;
5、留一交叉验证
S折交叉验证的特殊情形是S=N,称为留一交叉验证,往往在数据缺乏的情况下使用。这里的N是给定数据集的容量。
学习方法的泛化能力是指该方法学习到的模型对未知的数据的预测能力,是学习方法本质上重要的性质;
1、泛化误差
模型f对未知数据预测的误差即为泛化误差;
泛化误差反映了学习方法的泛化能力,如果一种学习方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习到的模型的期望风险。
2、泛化误差的上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。
泛化误差是样本容量的函数,当样本容量增加时,泛化上界趋于0;
泛化误差是假设空间容量的函数,假设空间容量越大,模型就越南学,泛化误差上界就越大;
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
1、生成方法
生成方法有数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
2、判别方法
判别方法有数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
3、两者的比较
分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。
1、分类系统的结构
分类问题的系统结构如下,分为了学习和分类两个系统:
2、分类器的性能指标
分类准确率:分类正确的样本数 / 总体样本数;
精确率:分类正确的正类样本数 / 全部分类为正类的样本数;
召回率:分类正确的的样本数 / 全部正类样本的数目;
F1值:是精确率和召回率的均值;
3、常见的统计学习分类方法:
k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等;
标注(tagging)也是监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。
1、标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或转态序列。
标注问题的目标在于学习一个模型,使它能够对观测序列或转态序列作为预测。
3、常见的标注统计学习方法有:隐马尔可夫模型、条件随机场;
4、应用场景:信息抽取、自然语言处理等领域;
5、标注问题举例:
回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
2、回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间的关系类型即模型类型分为线性回归和非线性回归。
3、回归问题最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最下二乘法求解。