内容概要:
内容概括:简要叙述统计学习方法的基本概念
主要内容:监督学习
统计学习方法三要素
正则化
交叉验证
学习的泛化能力
生成模型与判别模型
监督学习方法的应用
方法=模型+策略+算法
损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏
L ( Y , f ( X ) ) = { 1 Y ≠ f ( x ) 0 Y = f ( x ) L(Y,f(X))=\begin{cases} 1 & Y \neq f(x) \\ 0 & Y = f(x) \end{cases} L(Y,f(X))={10Y=f(x)Y=f(x)
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2
L ( Y , f ( X ) ) = ∣ ( Y − f ( X ) ) ∣ L(Y,f(X))=\mid(Y-f(X))\mid L(Y,f(X))=∣(Y−f(X))∣
L ( Y , f ( X ) ) = − log P ( Y ∣ X ) L(Y,f(X))=-\log P(Y\mid X) L(Y,f(X))=−logP(Y∣X)
损失函数值越小,模型就越好,因为模型输入输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数期望是:
期 望 = ∫ − ∞ + ∞ 损 失 函 数 × 概 率 d x d y R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ χ × γ L ( y , f ( x ) ) P ( x , y ) d x d y 期望=\int_{-\infty}^{+\infty}损失函数\times概率\,dxdy \\ R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\chi\times\gamma} L(y,f(x))P(x,y)dxdy 期望=∫−∞+∞损失函数×概率dxdyRexp(f)=Ep[L(Y,f(X))]=∫χ×γL(y,f(x))P(x,y)dxdy
R e x p ( f ) R_{exp}(f) Rexp(f)就是风险函数。即基于联合分布,损失函数的期望就是风险函数。学习的目标就是选择风险函数最小的模型。
给定一个训练数据集,模型f(X)关于训练集的平均损失称为经验风险(经验损失),记作 R e m p R_{emp} Remp。
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i)) Remp(f)=N1i=1∑NL(yi,f(xi))
期望风险是模型关于联合分布的期望损失。经验风险是模型关于训练样本的平均损失。由大数定律,当样本的容量N趋于无穷大时,经验风险趋近于期望风险,所以很自然的想用经验风险代替期望风险,但是现实中N很有限甚至很小,所以用经验风险估计期望风险很不理想。所以要对经验风险进行矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
经验风险最小化和结构风险最小化
结 构 风 险 = 经 验 风 险 + 罚 项 R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) 其 中 λ ≥ 0 是 系 数 , J ( f ) 是 模 型 复 杂 度 。 模 型 越 复 杂 , J ( f ) 越 大 。 结构风险=经验风险+罚项\\ R_{srm}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)\\ 其中\lambda\geq0是系数,J(f)是模型复杂度。模型越复杂,J(f)越大。 结构风险=经验风险+罚项Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)其中λ≥0是系数,J(f)是模型复杂度。模型越复杂,J(f)越大。
min f ∈ Γ 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f\in \Gamma}\, \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f) f∈ΓminN1i=1∑NL(yi,f(xi))+λJ(f)
R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) , N 是 训 练 集 。 R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^N L(y_i,\hat{f}(x_i)),N是训练集。 Remp(f^)=N1i=1∑NL(yi,f^(xi)),N是训练集。
ϱ t e s t = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) , N ′ 是 测 试 集 。 \varrho _{test}=\frac{1}{N\prime}\sum_{i=1}^{N\prime} L(y_i,\hat{f}(x_i)),N\prime是测试集。 ϱtest=N′1i=1∑N′L(yi,f^(xi)),N′是测试集。
e t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i ≠ f ^ ( x i ) ) , 其 中 I 是 指 示 函 数 。 e _{test}=\frac{1}{N\prime}\sum_{i=1}^{N\prime} I(y_i\neq\hat{f}(x_i)),其中I是指示函数。 etest=N′1i=1∑N′I(yi=f^(xi)),其中I是指示函数。
r t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i = f ^ ( x i ) ) r _{test}=\frac{1}{N\prime}\sum_{i=1}^{N\prime} I(y_i=\hat{f}(x_i)) rtest=N′1i=1∑N′I(yi=f^(xi))
假定在假设空间中存在一个“真”模型,但我们不知道“真”模型是哪个,但我们选择的模型应尽可能接近“真”模型。
模型选择方法:正则化与交叉验证。
min f ∈ Γ 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) ; 当 损 失 函 数 是 平 方 损 失 : L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 ) + λ 2 ∣ ∣ w ∣ ∣ 2 \min _{f \in \Gamma} \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f);\\ 当损失函数是平方损失: L(w) = \frac{1}{N}\sum_{i=1}^N (f(x_i;w)-y_i)^2)+\frac{\lambda}{2} \mid\mid w\mid\mid ^2 f∈ΓminN1i=1∑NL(yi,f(xi))+λJ(f);当损失函数是平方损失:L(w)=N1i=1∑N(f(xi;w)−yi)2)+2λ∣∣w∣∣2
若第一项经验风险较小,则模型可能较复杂,即第二项较大,正则化的作用就是选择两项都较小的模型。
正则化项可以是参数向量的 L p \,L_p\, Lp范数。
L p L_p Lp范数:
∑ i = 1 n x i p p \sqrt[p]{\sum_{i=1}^n x_i^p} pi=1∑nxip
对 单 个 f : P ( R ( f ) − R ^ ( f ) ≥ ε ) ≤ e x p ( − 2 N ε 2 ) 对 所 有 集 合 F : P ( ∃ f ∈ F : R ( f ) − R ^ ( f ) ≥ ε ) ≤ d e x p ( − 2 N ε 2 ) 等 价 的 , 对 任 意 f ∈ F , 有 : P ( R ( f ) − R ^ ( f ) < ε ) ≥ 1 − d e x p ( − 2 N ε 2 ) 令 δ = d e x p ( − 2 N ε 2 ) 则 : P ( R ( f ) < R ^ ( f ) + ε ) ≥ 1 − δ , 证 毕 。 对单个f:P(R(f)-\hat{R}(f)\geq \varepsilon)\leq exp(-2N\varepsilon^2)\\ 对所有集合F:P(\exists f\in F: R(f)-\hat{R}(f)\geq \varepsilon)\leq d \,exp(-2N\varepsilon^2)\\ 等价的,对任意f\in F,有:P(R(f)-\hat{R}(f)< \varepsilon)\geq 1-d\,exp(-2N\varepsilon^2)\\ 令\delta=d\,exp(-2N\varepsilon^2)\\ 则:P(R(f)<\hat{R}(f) +\varepsilon)\geq 1-\delta,证毕。 对单个f:P(R(f)−R^(f)≥ε)≤exp(−2Nε2)对所有集合F:P(∃f∈F:R(f)−R^(f)≥ε)≤dexp(−2Nε2)等价的,对任意f∈F,有:P(R(f)−R^(f)<ε)≥1−dexp(−2Nε2)令δ=dexp(−2Nε2)则:P(R(f)<R^(f)+ε)≥1−δ,证毕。
以上图片:
————————————————
版权声明:本文为CSDN博主「DamianGao」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ghr19961014/article/details/104549797/
生成模型
判别方法
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
P = T P T P + F N P=\frac{TP}{TP+FN} P=TP+FNTP
F 1 = 2 T P 2 T P + F P + F N F_1=\frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP