统计学习
统计学习的特点
- 以计算机及网络为平台
- 以数据为研究对象
- 目的是对数据进行预测和分析
- 以方法为中心(统计学习方法构建模型并应用模型进行预测和分析)
- 多学科领域的交叉学科
Herbert A. Simon对“学习”的定义:
如果一个系统能够通过执行某个过程改进它的性能,这就是学习
统计学习的目的
统计学习是通过构建概率统计模型,对数据进行预测和分析。因此需要考虑:
- 学习什么样的模型
- 如何学习模型
- 如何尽可能提高学习效率
统计学习的方法
在监督学习的情况下,统计学习的方法可以概括如下:
从给定的、有限的、用于学习的训练数据(training data)出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取
实现统计学习方法的步骤:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,及学习的算法
- 利用学习的最优模型对新数据进行预测或分析
从以上步骤中,可以看到,统计学习方法包含模型的假设空间、学习的策略以及学习的算法,即统计学习方法的三要素:模型(model)、策略(strategy)和算法(algorithm)
监督学习
监督学习的基本概念
监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
- 输入空间:输入所有可能取值的集合
- 特征空间:所有特征向量存在的空间
- 输出空间:输出所有可能取值的集合
- 假设空间:由输入空间到输出空间的映射的集合
这里需要注意:特征空间的每一维对应对一个特征。有时假设输入空间与特征空间相同而不与区分;有时输入空间与特征空间不同,就需要将输入空间映射到特征空间。模型是定义在特征空间上的。
问题的形式化
监督学习的过程分为学习和预测两个过程。在学习过程中,学习系统利用训练集,通过训练得到一个模型;在预测过程中,预测系统对于给定的输入,利用训练的模型,给出相应的输出。
统计学习三要素
模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。其中,由条件概率表示的模型为概率模型,由决策函数表示的模型为非概率模型。
决策函数
假设空间定义为决策函数的集合,这里的和定义为输入空间和输出空间上的变量。在这种情况下,一般是一个由参数向量决定的函数族。
条件概率
假设空间定义为条件概率的集合,这里的和定义为输入空间和输出空间上的随机变量。在这种情况下,一般是一个由参数向量决定的条件概率分布族。
策略
损失函数与风险函数
这里先引入概念:损失函数度量模型一次评测的好坏,风险函数度量平均意义下模型预测的好坏
- 损失函数是和的非负实值函数,记作
- 风险函数是损失函数的期望,记作
常用的损失函数有:
- 0-1损失函数:
- 平方损失函数:
- 绝对损失函数:
- 对数损失函数:
在现实中,由于不可能知道联合概率分布(否则就不用学习了),因此引入经验风险。根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险。
经验风险最小化
经验风险最小化(ERM)的策略认为经验风险最小的模型是最优模型,因此经验风险最小化就是求解最优化问题:
- 经验风险最小化在样本容量足够大时有较好的效果
- 极大似然估计(MLE)就是经验风险最小化的一个例子(当模型是条件概率分布,损失函数是对数损失函数时)
结构风险最小化
但是当样本容量较小时,采用经验风险最小化的策略可能会产生过拟合(over-fitting)现象。结构风险最小化(SRM)通过引入正则化项来防止过拟合,其定义为:
其中是模型的复杂度,用来惩罚复杂模型。结构风险最小化就是求解最优化问题:
- 结构风险小的模型往往对训练数据和测试数据有较好的预测
- 最大后验概率估计(MAP)就是结构风险最小化的一个例子(当模型是条件概率分布,损失函数是对数损失函数,复杂度由先验概率表示时)
算法
统计学习算法通常可以转化为求解最优化问题的算法,而最优化问题通常不存在解析解,因此就要利用数值计算的方法求解。为了高效地求解最优化问题,就要设计高效的最优化算法。
模型评估与模型选择
训练误差与测试误差
训练误差是模型关于训练数据集的平均损失;测试误差是模型关于测试数据集的平均损失。这里需要注意,统计学习方法具体采用的损失函数未必是评估时使用的损失函数。
过拟合与模型选择
如果一味地想要提高模型对训练数据集的预测能力,模型的复杂度往往会比真实模型的复杂度高,这时就会出现过拟合(over-fitting)的现象。由于训练数据中本身存在噪声,因此一味的追求训练数据的预测能力会使得测试数据的预测误差增大。在学习中,要防止过拟合,选择复杂度适当的模型。
正则化与交叉验证
正则化
模型选择的典型方法就是正则化。正则化项一般是模型复杂度的单调递增函数。
交叉验证
交叉验证是另一种常用的模型选择方法。
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
泛化能力
泛化误差
学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力。统计学习理论试图从理论上对学习方法的泛化能力进行分析。
泛化误差事实上就是所学习到的模型的期望风险。
泛化误差上界
即泛化误差的概率上界。
- 样本容量的函数:样本容量增加时,泛化误差上界趋于0
- 假设空间容量的函数:容量越大,泛化误差上界越大
生成模型与判别模型
生成方法学习联合概率分布,然后求出条件概率分布。典型的生成模型:朴素贝叶斯、隐马尔可夫模型。
- 可以还原出联合概率分布
- 学习收敛速度更快
- 存在隐变量时,依然可以使用
判别方法直接学习决策函数或者条件概率分布。典型的判别模型:k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
- 直接面对预测,学习的准确率更高
- 可以对数据进行抽象、定义并使用特征,可以简化学习问题
分类问题
对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)。对于分类的四种情况,记作:
- TP:True Positive
- FN:False Negative
- FP: False Positive
- TN: True Negative
精确率:所有被预测为正类的样本中,真正样本所占的比例。
召回率:所有真正样本中,被预测为正类的样本所占的比例。
F1值:精确率与召回率的调和平均数。
标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或者状态序列。评价指标与分类问题相同。标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
回归问题
回归模型是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合。回归学习最常用的损失函数是平方损失函数,此时可使用最小二乘法求解。