1.3 统计学习方法的三要素

1.3 统计学习方法的三要素

  • 监督学习的三要素
    • 模型
    • 策略
  • 无监督学习

统计学习方法的三要素为 模型+策略+算法


监督学习的三要素

模型

假设空间(Hypothesis Space):所有可能的条件概率分布或决策函数,用 F \mathcal{F} F表示。

  • 若定义为决策函数的集合: F = { f ∣ Y = f ( X ) } \mathcal{F}=\{f \mid Y=f(X)\} F={fY=f(X)}
  • F \mathcal{F} F由一个参数向量决定的函数族构成: F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\} F={fY=fθ(X),θRn}
  • 参数空间: Θ = { θ ∣ θ ∈ R n } \Theta=\left\{\theta \mid \theta \in \mathbf{R}^{n}\right\} Θ={θθRn}

例如,线性回归:

  • 实例: x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(n))T
  • 决策函数: f ( x ) = w ( 1 ) x ( 1 ) + w ( 2 ) x ( 2 ) + ⋯ + w ( n ) x ( n ) + b f(x)=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)}+b f(x)=w(1)x(1)+w(2)x(2)++w(n)x(n)+b
  • 向量形式: f ( x ) = w ⋅ x + b f(x)=w \cdot x+b f(x)=wx+b,其中, w = ( w ( 1 ) , w ( 2 ) , ⋯   , w ( n ) ) w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}\right) w=(w(1),w(2),,w(n))
  • 参数空间:所有可能的w和b组合的一个空间

  • 若定义为条件概率的集合: F = { P ∣ P ( Y ∣ X ) } \mathcal{F}=\{P \mid P(Y \mid X)\} F={PP(YX)}
  • F \mathcal{F} F由一个参数向量决定的条件概率分布族构成: F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } \mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\} F={PPθ(YX),θRn}

例如,逻辑回归:

  • 实例: x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(n))T
  • 条件概率分布: { P ( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x + b ) 1 + exp ⁡ ( w ⋅ x + b ) P ( Y = 0 ∣ x ) = 1 1 + exp ⁡ ( w ⋅ x + b ) \left\{\begin{array}{l} P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} \\ P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} \end{array}\right. {P(Y=1x)=1+exp(wx+b)exp(wx+b)P(Y=0x)=1+exp(wx+b)1

策略

损失函数:度量模型一次预测的好坏,记作 L ( Y , f ( X ) ) L(Y, f(X)) L(Y,f(X))

  • 0-1损失函数: L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{ll}1, & Y \neq f(X) \\0, & Y=f(X)\end{array}\right. L(Y,f(X))={1,0,Y=f(X)Y=f(X)
  • 平方损失函数: L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2
  • 绝对损失函数: L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)
  • 对数损失函数: L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y \mid X))=-\log P(Y \mid X) L(Y,P(YX))=logP(YX)

风险函数:度量平均意义下模型预测的好坏 R exp ⁡ ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y \begin{aligned} R_{\exp }(f) &=E_{P}[L(Y, f(X))] \\&=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) d x d y \end{aligned} Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
经验风险:模型f(X)关于训练集的平均损失 R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{e m p}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) Remp(f)=N1i=1NL(yi,f(xi))其中训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),(xN,yN)}

N → ∞ N \rightarrow \infty N 时,根据大数定律,经验损失就会趋于风险函数,所以在一定程度上,用经验损失作为风险函数的估计是合理的

R emp  ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ⟶ R exp ⁡ ( f ) = E P [ L ( Y , f ( X ) ) ] , N → ∞ R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \longrightarrow R_{\exp }(f)=E_{P}[L(Y, f(X))], \quad N \rightarrow \infty Remp (f)=N1i=1NL(yi,f(xi))Rexp(f)=EP[L(Y,f(X))],N min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) fFminN1i=1NL(yi,f(xi))
但在现实生活中,样本容量N一般是有限的,甚至会很小,所以仅仅用经验风险来估计风险函数,效果并不理想,所以需要对其进行矫正

结构风险:
R s r m = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{s r m}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) Rsrm=N1i=1NL(yi,f(xi))+λJ(f)
结构风险最小化:
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)

无监督学习

  • 模型:函数 z = g θ ( x ) z=g_{\theta}(x) z=gθ(x),条件概率分布 P θ ( z ∣ x ) P_{\theta}(z \mid x) Pθ(zx)或条件概率分布 P θ ( x ∣ z ) P_{\theta}(x \mid z) Pθ(xz)
  • 策略:优化目标函数
  • 算法:通常是迭代算法

注:以上笔记素材来自于 [B站_简博士_十分钟 机器学习 系列视频 《统计学习方法》]

你可能感兴趣的:(统计学习方法,学习方法,逻辑回归)