统计学习方法笔记——第一章(1)

概论

1.统计学习方法三要素:模型(model)、策略(strategy)、算法(algorithm)
2.实现步骤

  1. 得到有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测或分析

3.统计学习基本分类

  1. 监督学习
    从标注数据中学习预测模型的机器学习问题,本质是学习输入到输出的映射的统计规律。
    1. 回归问题:输入变量与输出变量均为连续变量
    2. 分类问题:输出变量为有限个离散变量
    3. 标注问题:输入变量于输出变量均为变量序列
      训练数据集(trainging data)中学习模型,对测试数据集(test data)进行预测
      记:输入变量为** X X X,输出变量为 Y Y Y,输入变量取值 x x x,输出变量取值 y y y**
      输入实例 x x x的特征向量
      x = ( x ( 1 ) , x ( 2 ) , . . . , x ( i ) , . . . , x ( n ) ) T x=(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)})^T x=(x(1),x(2),...,x(i),...,x(n))T
      x ( i ) x^{(i)} x(i)表示 x x x的第 i i i个特征, x i x_i xi表示第 i i i个输入变量,即
      x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T xi=(xi(1),xi(2),...,xi(n))T
      训练数据、测试数据由输入(特征向量)与输出对组成,输入输出对又称样本(sample)或者样本点
      T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\} T={(x1,y1),(x2,y2),...,(xn,yn)}
      监督学习的模型可以是概率模型或者非概率模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或者决策函数 Y = f ( x ) Y=f(x) Y=f(x)表示。具体的输入进行预测时,表示为 P ( y ∣ x ) P(y|x) P(yx)或者 y = f ( x ) y=f(x) y=f(x)
      监督学习分为学习和预测两个过程,分别由学习系统和预测系统完成。
      学习系统利用给定的训练数据集,用过学习/训练得到模型,表示为条件概率分布 P ^ ( Y ∣ X ) \hat P(Y|X) P^(YX)或者决策函数 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X),描述输入与输出随机变量之间的映射关系。
      预测过程中,预测系统对于测试样本集中的输入 x N + 1 x_{N+1} xN+1,由模型 y N + 1 = a r g max ⁡ y P ^ ( y ∣ x N + 1 ) y_{N+1}= \underset{y}{arg\max} \hat P(y|x_{N+1}) yN+1=yargmaxP^(yxN+1)或者 y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\hat f(x_{N+1}) yN+1=f^(xN+1)给出相应的输出 y N + 1 y_{N+1} yN+1
  2. 无监督学习
    无监督学习是指从无标注数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或者潜在结构。目的是找出给定的评价标准下的最优模型。
    记:输入空间为 X \mathcal{X} X,隐式结构空间为 Z \mathcal{Z} Z,学习模型表示为函数 z = g ( x ) z=g(x) z=g(x),条件概率分布 P ( z ∣ x ) P(z|x) P(zx)或者 P ( x ∣ z ) P(x|z) P(xz) x ∈ X x\in\mathcal{X} xX为输入, z ∈ Z z\in \mathcal{Z} zZ为输出。
    假设空间:包含所有可能的模型的集合
    训练数据表示为
    U = { x 1 , x 2 , . . . , x N } 其中 x i 是样本 U=\{x_1,x_2,...,x_N\}其中x_i是样本 U={x1,x2,...,xN}其中xi是样本
    无监督学习可用于对已有数据的分析和对未来数据的预测,分析时使用学习得到的模型,即函数 z = g ^ ( x ) z=\hat g(x) z=g^(x),条件概率分布 P ^ ( z ∣ x ) \hat P(z|x) P^(zx)或者 P ^ ( x ∣ z ) \hat P(x|z) P^(xz)
    学习过程中,学习系统从训练数据集学习得到最优模型,表示为 x = g ^ ( x ) x=\hat g(x) x=g^(x),条件概率分布 P ^ ( z ∣ x ) \hat P(z|x) P^(zx)或者 P ^ ( x ∣ z ) \hat P(x|z) P^(xz)
    预测过程中,预测系统对于给定的输入 x N + 1 x_{N+1} xN+1,进行聚类或降维,或者由模型 P ^ ( x ∣ z ) \hat P(x|z) P^(xz)给出输入的概率 P ^ ( x N + 1 ∣ z N + 1 ) \hat P(x_{N+1}|z_{N+1}) P^(xN+1zN+1),进行概率估计。
  3. 强化学习(暂略)

4.统计学习方法三要素

  1. 模型
    即所有要学习的条件概率分布或者决策函数。
    假设空间高喊所有可能的条件概率分布或决策函数。一般有无穷多个。
    F = { Y = f ( X ) } \mathcal{F}=\{Y=f(X)\} F={Y=f(X)}表示假设空间, F \mathcal{F} F通常是由一个参数向量决定的函数族:
    F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\{f|Y=f_\theta (X),\theta\in R^n\} F={fY=fθ(X),θRn}
    假设空间也可以定义为条件概率的集合:
    F = { P ∣ P ( Y ∣ X ) } \mathcal{F} = \{P|P(Y|X)\} F={PP(YX)}
    F \mathcal{F} F通常是由一个参数向量决定的条件概率分布族:
    F = { P ∣ P ( Y θ ∣ X ) , θ ∈ R n } \mathcal{F}=\{P|P(Y_\theta|X),\theta\in R^n\} F={PP(YθX),θRn}
  2. 策略
    接下来要考虑按照什么样的准则学习或者选择最优模型。
    这里引入了损失函数风险函数的概念。损失函数衡量模型一次预测的好坏,风险函数衡量平均一一下的预测好坏。
    1.损失函数(Loss Function)
    损失函数是 f ( X ) f(X) f(X) Y Y Y的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
    常用的损失函数有以下几种:
  3. 0-1损失函数(0-1 loss function)
    L ( Y , f ( x ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(x))= \begin{cases} 1,Y\neq f(X)\\ \\ 0,Y= f(X)\\ \end{cases} L(Y,f(x))= 1,Y=f(X)0,Y=f(X)
  4. 平方损失函数(quadratic loss function)
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=({Y-f(X)})^2 L(Y,f(X))=(Yf(X))2
  5. 绝对损失函数(absolute loss function)
    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|{Y-f(X)}| L(Y,f(X))=Yf(X)
  6. 对数损失函数或似然损失函数
    L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y,P(Y|X))=-\log{P(Y|X)} L(Y,P(YX))=logP(YX)

2.风险函数(Risk FUnction)
损失函数数值越小,模型就越好
模型的输入是输出(X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),损失函数的期望是
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × ( Y ) L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_P[L(Y,f(X))] =\int_{\mathcal{X}\times\mathcal(Y)}L(y,f(x))P(x,y)dxdy Rexp(f)=EP[L(Y,f(X))]=X×(Y)L(y,f(x))P(x,y)dxdy
R e x p R_{exp} Rexp就是理论上 f ( X ) f(X) f(X)关于 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失,成为风险函数,或者期望损失(expected loss),由于 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以 R e x p ( f ) R_{exp}(f) Rexp(f)无法直接计算。
模型关于训练数据集的平均损失成为经验风险(empirical risk)或者经验损失(empirical loss),记为 R e m p ( f ) R_{emp}(f) Remp(f):
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}{L(y_i,f(x_i))} Remp(f)=N1i=1NL(yi,f(xi))
根据大数定律,当样本容量 N → ∞ N\rightarrow\infty N时, R e m p ( f ) → R e x p ( f ) R_{emp}(f)\rightarrow R_{exp}(f) Remp(f)Rexp(f)

3.经验风险最小化
4.结构风险最小化

  1. 算法

你可能感兴趣的:(统计学习方法,机器学习,笔记,机器学习,数据分析,概率论)