本章概要
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。
3.本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发, 假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
4.统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。
5.分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、[Math Processing Error]近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。它们又可以归类为生成方法与判别方法。
1.2 监督学习
1.2.1 基本概念
-
输入空间、特征空间与输出空间
根据输入、输出变量的不同类型,对预测任务给予不同的名称:回归问题、分类问题、标注问题...
-
联合概率分布
监督学习假设输入变量X和输出变量Y遵循联合概率分布P(X,Y):
-
假设空间
1.3 统计学习三要素
方法=模型+策略+算法
1.3.1 模型
在监督学习的过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
本书中称由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。
1.3.2 策略
有了模型的假设空间,统计学习接着需要考虑的是按照什么准则学习或选择最优的模型。
1. 损失函数和风险函数
用损失函数(代价函数)来度量预测错误的程度。
损失函数越小,模型就越好。损失函数的期望称为风险函数或期望损失。
学习的目标就是选择期望风险最小的模型,而由于联合分布未知,因此期望损失不能直接计算,导致监督学习是一个病态问题。
经验风险(经验损失):模型关于训练数据集的平均损失
根据大数定律,当样本容量N趋于无穷时,经验风险 趋于期望风险 ,因此很自然的想法是用经验风险估计期望风险。但由于训练样本有限,用经验风险估计往往不理想,需要对经验风险进行一定的矫正。
2. 经验风险最小化与结构风险最小化
经验风险最小化的策略认为:经验风险最小的模型是最优的模型。(极大似然估计MLE就是经验风险最小化的一个例子,当模型为条件概率分布,损失函数是对数损失函数时,经验最小化就等价于MLE)
但当样本容量很好使,会产生“过拟合overfitting”。由此诞生结构风险最小化(SRM),结构风险最小化等价于正则化,在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。贝叶斯估计中的最大后验概率估计(MAP)就是SRM的一个例子。当模型为条件概率分布,损失函数时对数函数时,SRM和MAP等价。
1.3.3 算法
算法指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
这是,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
1.4 模型评估与模型选择
1.4.1 训练误差与测试误差
测试误差反映了学习方法对测试数据集的预测能力,这种能力称为泛化能力(generalization ability)
1.4.2 过拟合与模型选择
模型选择的原则:逼近真模型,参数向量与真模型参数向量接近
过拟合:一味提高对训练数据的预测能力,复杂度比真模型更高
训练误差和测试误差与模型的复杂度之间的关系:
为了避免过拟合,引入两种常用的模型选择方法:正则化与交叉验证。
1.5 正则化与交叉验证
1.5.1 正则化
岭回归:
LASSO:
正则化符合奥卡姆剃刀原理:
1.5.2 交叉验证
另一种常用的模型选择方法是交叉验证(cross validation).
但是在实际应用中,数据常常不充足,为了选择好的模型,可以采用交叉验证方法,基本思想:重复地使用数据。
-
简单交叉验证
-
S折交叉验证
-
留一交叉验证
S折交叉验证的特殊情形,只留一个样本作为测试集
1.6 泛化能力
1.6.1 泛化误差
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。
现实中采用最多的办法:通过测试误差来评价泛化能力,但这种评价依赖于测试数据集。
统计学习理论试图从理论上对学习方法的泛化能力进行分析。
泛化误差:就是所学到的模型的期望风险
1.6.2 泛化误差上界
学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。
书中以二分类问题的泛化误差上界为例,得到:
证明要用到Hoeffding不等式,略。
这就是说,训练误差小的模型,其泛化误差也会小。
1.7生成模型和判别模型
生成方法(所学到的模型称为生成模型,包括朴素贝叶斯,隐马尔可夫):由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型。
判别方法 (所学到的模型称为判别模型,包括k近邻、感知机、决策树、逻辑斯蒂回归模型、最大熵、支持向量机、提升方法和随机场等):直接学习决策函数或者条件概率分布作为预测的模型。
生成方法的特点:联合概率分布、收敛快、隐变量
判别方法的特点:准确率高、可以进行抽象、定义特征、简化学习问题
1.8 分类问题
分类问题是监督学习的一个核心问题,输出变量Y取有限个离散值时,预测问题便成为分类问题。
分为问题定义:
评价分类器性能的指标一般是分类准确率(accuracy):
对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)和F1值。
1.9 标注问题
标注也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,又是更复杂的结构预测问题的简单形式。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场
1.10 回归问题
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。特别是当输入变量的值发生变化时,输出变量的值随之发生变化。回归问题的学习等价于函数拟合。