- 统计学习三要素对理解统计学习方法起到提纲挈领的作用
- 主要讨论监督学习
- 分类问题、标注问题和回归问题都是监督学习的重要问题
- 本书中介绍的统计学习方法包括…。这些方法是主要的分类、标注以及回归方法。他们又可归类为生成方法与判别方法。
输入和输出对称为样本
注意在介绍输入空间,输出空间等概念的时候,以及这一章的很多部分都会有个帽子,监督学习中
, 监督学习可以概括如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给的训练数据以及未知测试数据在给定评价标准意义下有最准确的预测。
,理解下这里的假设。
统计学习方法三要素:模型,策略,算法
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优的模型
- 利用学习的最优模型对新数据进行预测或分析
在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数:衡量模型的推理结果与我们实际标签的差距
损失函数(loss function)或代价函数(cost function)
损失函数定义为给定输入 X X X的预测值 f ( X ) f(X) f(X)和真实值 Y Y Y之间的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
风险函数(risk function)或期望损失(expected loss)
这个和模型的泛化误差的形式是一样的
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失(期望损失),但是因为 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以前面的用词是期望,以及平均意义下的。
这个表示其实就是损失的均值,反映了对整个数据的预测效果的好坏,P(x,y)转换成 ν ( X = x , Y = y ) N \frac {\nu(X=x, Y=y)}{N} Nν(X=x,Y=y)更容易直观理解, 但是真实的数据N是无穷的。
经验风险(empirical risk)或经验损失(empirical loss)
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i)) Remp(f)=N1∑i=1NL(yi,f(xi))
模型 f f f关于训练样本集的平均mean损失
根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险
结构风险(structural risk)
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1∑i=1NL(yi,f(xi))+λJ(f)
J ( f ) J(f) J(f)为模型复杂度, λ ⩾ 0 \lambda \geqslant 0 λ⩾0是系数,用以权衡经验风险和模型复杂度。
损失函数数值越小,模型就越好
L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
L ( Y , P ( Y ∣ X ) ) L(Y,P(Y|X)) L(Y,P(Y∣X))
经验风险最小化(ERM)与结构风险最小化(SRM)
训练误差和测试误差是模型关于数据集的平均损失。
统计学习方法具体采用的损失函数未必是评估时使用的损失函数`,这句理解下。参考下在数据科学比赛中给出的评分标准,与实际学习采用的损失函数之间的关系。
这部分讲到了最小二乘法,举例:
这个问题中训练数据为 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } T=\{(x_1, y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),⋯,(xN,yN)}
模型为
f M ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j f_M(x,w)=w_0+w_1x+w_2x^2+\cdots+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j fM(x,w)=w0+w1x+w2x2+⋯+wMxM=j=0∑Mwjxj
经验风险最小化策略下
L ( w ) = 1 2 ∑ i = 1 N ( f ( x i , w ) − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N(f(x_i,w)-y_i)^2 L(w)=21i=1∑N(f(xi,w)−yi)2
将模型和训练数据带入到上式得到
L ( w ) = 1 2 ∑ i = 1 N ( ∑ j = 0 M w j x i j − y i ) 2 = 1 2 ∑ i = 1 N ( w ⋅ x i − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N\left(\sum\limits_{j=0}^Mw_jx_i^j-y_i\right)^2=\frac{1}{2}\sum\limits_{i=1}^N(w\cdot x_i-y_i)^2 L(w)=21i=1∑N(j=0∑Mwjxij−yi)2=21i=1∑N(w⋅xi−yi)2
这个问题要求 w = ( w 0 ∗ , w 1 ∗ , ⋯ , w M ∗ ) w=(w_0^*,w_1^*,\cdots,w_M^*) w=(w0∗,w1∗,⋯,wM∗)
对 w w w求偏导令其为零,得到一系列方程,求解可以用梯度下降或者矩阵分解。
求解线性方程组 A x = b Ax=b Ax=b,可以表示为 x = A / b x=A/b x=A/b,问题展开之后可以涉及到矩阵分解。
TODO: 这个例子展开一下
现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力
统计学习理论试图从理论上对学习方法的泛化能力进行分析
学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的, 简称为泛化误差上界(generalization error bound)
注意泛化误差的定义,书中有说事实上,泛化误差就是所学习到的模型的期望风险
监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)
generative approach
discriminative approach
Classification, Tagging, Regression
分类和回归其实都是相对而说,分类模型其实也可以用于回归,只是用于任务的不同