第一章 统计学习方法概述
1.1 统计学习
统计学习(statistical learning)是关于计算机基于数据概率模型并运用模型进行预测和分析的学科。统计学习也称为统计机器学习,现在人们提及的机器学习一般都是指统计机器学习。
统计学习的对象是数据(data),关于数据的基本假设是同类数据具有一定的统计规律性(前提):比如可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律等。
统计学习的目的:对现有的数据进行分析,构建概率统计模型,分析和预测未知新数据,同时也需要考虑模型的复杂度以及学习模型的效率等等。
统计学习方法:监督学习(supervised learning),非监督学习(unsupervised learning),半监督学习(semi-supervised learning)以及强化学习(reinforcement learning)等组成。
统计学习方法包括模型的假设空间,模型选择的准则以及模型学习的算法,称为统计学习的三要素,简称为模型(model),策略(strategy)和算法(algorithm)。
1.2 监督学习
是本书主要讨论的重点,是统计学习中内容最丰富,应用最广泛的部分。
监督学习的部分可简单的视为将输入向量输入模型,从而得到输出向量,输入向量属于输入空间,有时也将输入向量映射为特征向量(feature vector),有时也假设输入空间与特征空间为相同空间。
考虑输入变量与输出变量为离散的或是连续的,对预测任务给予不同的名称:
输入->输出 | 预测任务名称 |
连续->连续 | 回归问题 |
连续->离散,离散->离散 | 分类问题 |
离散->离散 | 标注问题 |
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据被看做是依联合概率独立同分布产生的。遵循联合概率分布的假设是监督学习关于数据的基本假设。监督学习的模型可以是概率模型(由条件概率分布P(Y|X)表示)或非概率模型(决策函数(decision function)Y=f(X))。
1.3 统计学习三要素
方法 = 模型 + 策略 + 算法
1.3.1 模型:根据要学习的是联合概率分布(或条件概率分布)还是决策函数,分为概率模型和非概率模型。
1.3.2 策略:值按照何种标准学习或选择选择最优模型。
评定预测值与真实值之间的差别,用一个损失函数(loss function)来度量预测错误的程度,记为L(Y,f(X))。常用的损失函数有:0-1损失函数(0-1 loss function 如分类正确为0,错误为1);平方损失函数(quadratic loss function 差值的平方);绝对损失函数(absolute loss function 绝对值);对数损失函数(logarithmic loss function)等。损失函数越小,模型就越好(mark 不考虑overfitting?)。
经验风险最小化(empirical risk minimization, ERM):即求解损失函数最小化:
当模型是条件概率分布,损失函数式对数损失函数时,ERM等价于极大似然估计(maximum likelihood estimation)。
结构风险最小化(structural risk minimization, SRM):当样本容量很小时,容易产生过拟合(overfitting)问题,SRM就是为了防止过拟合。SRM等价于正则化(regularization)(mark)。SRM就是在ERM的基础上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term):
即需要满足经验风险和模型复杂度同时小。当模型是条件概率分布,损失函数时对数损失函数,模型复杂度由模型的先验概率表示时,SRM就是贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)。
1.3.3 算法:学习模型所用的方法(暂时没什么好写的)
1.4 模型评估与模型选择
模型的选择时需要做到对已知数据有较好的拟合能力,同时对未知数据有较好的预测能力。即要做到经验风险小且防止过拟合。
(M=0,1数据拟合效果差,M=9过拟合,M=3是较好的预测模型,M表示多项式的最高次数)
1.5 正则化与交叉验证
结构风险 = 经验风险 + 正则化
正则化:结构风险中的罚项,可以选择参数向量的L1范数,参数向量的L2范数等。
正则化的作用是选择经验风险和结构风险同时较小的模型。
正则化符合奥卡姆剃刀定律(Occam's Razor, Ockham'sRazor):能够较好的解释已知数据且较为简单的模型才是好的模型。
数据集常被切分为三个部分:训练集(training set),验证集(validation set)和测试集(test set),分别用户训练模型,模型的选择以及模型的评估。但在数据不充足的前提下,再切分数据明显是不科学的。因此引入交叉验证的方法,交叉验证分为:
简单交叉验证:将数据集简单切分为训练集和测试集两部分
S折交叉验证:将数据集切分为S个大小相同的子集,选择S-1个子集训练模型,剩下的一个子集测试模型;重复S次后再选取。
留一交叉验证:用于数据缺乏的情况下。是S折交叉验证的特殊情形S=N。
1.6 泛化能力
(mark) 这一部分感觉暂时没什么用,就先不写了。
1.7 生成模型与判别模型(mark 这部分之后再细讲)
生成方法(generative approach)学到的模型称为生成模型(generative model),由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即P(Y|X)=P(X,Y)/P(X),典型的生成模型有朴素贝叶斯模型和隐马尔可夫模型。
判别方法(discriminative approach)学到的模型称为判别模型(discriminative model),由数据直接学习决策函数f(X)或条件概率分布P(Y|X),典型的判别模型包括:k近邻算法,感知机,决策树,逻辑斯谛回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。
当存在隐变量时,仍可用生成方法学习,此时判别方法就不能用了(mark why?)。
1.8 分类问题
分类模型是一个分类器(classifier),学习分类模型即学习分类器。
评价分类器性能的指标一般为分类准确率(accuracy),即正确分类样本占总样本的比率。
对于二分类问题常用的指标是精确率(precision)和召回率(recall),F1值表示精确率和召回率的调和平均。
可用于分类的统计学习方法包括:k近邻,感知机,朴素贝叶斯,决策树,决策列表,逻辑斯谛回归模型,支持向量机,提升方法,贝叶斯网络,神经网络,winnow等。
1.9 标注问题(mark 暂时放一下)
标注(tagging)是分类问题的推广。
1.10 回归问题
回归(regression)用于预测输入变量和输出变量之间的关系,即选择输入变量到输出变量间的映射函数,等价于函数拟合,选择函数曲线拟合已知数据且很好的预测未知数据。
按照输入变量的个数,分为一元回归和二元回归;按照模型类型,分为线性回归和非线性回归。
总结:这是对统计学习的一章概要,主要是了解而不是理解,既然要深入学习统计,感觉先纵观一下也是十分必要的,这一部分也有一些还不太理解的地方,毕竟只是大体看了一下,感觉在具体学习统计方法的时候,再逐步回头看这些东西的话,应该会有更加深入的理解。
本书中介绍的统计学习方法:感知机,k近邻法,朴素贝叶斯,决策树,逻辑斯谛回归与最大熵模型,支持向量机,提升方法,EM算法,隐马尔可夫模型和条件随机场。