统计学习方法·笔记·第一章·概论

《统计学习方法》

第一章 概论

  • 统计学习(statistical learning)也称统计机器学习。
  • 学习: “如果一个系统能够执行某个进程来改进它的性能,这就是学习”—Herbert A.Simon
  • 统计学习的研究对象:数据。从数据出发,提取数据的特征,抽象数据的模型,发现数据中的知识,又回到数据分析预测中去。
  • 方法:基于数据构建概率统计模型从而对数据预测与分析。
  • 三要素: \quad
    模型的假设空间 → \to 模型
    根据某个评价准则选取一个最优模型 → \to 策略
    最优模型选取由算法实现 → \to 算法

统计学习的分类

一般包括监督学习、无监督学习、强化学习。有时包括半监督学习、主动学习。

1、监督学习(supervised learning)

本质是学习输入到输出的映射统计规律。

输入实例x的特征向量记做:

x = ( x ( 1 ) , x ( 2 ) . . . x ( i ) . . . x ( n ) ) x = ( x^{(1)},x^{(2)}...x^{(i)}...x^{(n)}) x=(x(1),x(2)...x(i)...x(n))
x i x_i xi x ( i ) x^{(i)} x(i)不同,前者是多个输入变量中的第i个变量。
x i = ( x i ( 1 ) , x i ( 2 ) . . . x i ( i ) . . . x i ( n ) ) x_i =( x_i^{(1)},x_i^{(2)}...x_i^{(i)}...x_i^{(n)}) xi=(xi(1),xi(2)...xi(i)...xi(n))
训练集表示为:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } T =\{ {(x_1,y_1),(x_2,y_2),...(x_N,y_N)}\} T={(x1,y1),(x2,y2),...(xN,yN)}
测试数据也由输入与输出组成。
X,Y可以是连续也可以是离散。输入与输出变量均为连续时:回归问题 ;输出变量为有限个离散变量时:分类问题;输入变量与输出变量均为变量寻列的预测问题称为标注问题。(自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。)

联合概率分布:X,Y具有联合概率分布P是监督学习关于数据的基本假设。

假设空间:由输入空间到输出空间的映射集合就是假设空间。

2、无监督学习(unsupervised learning)

从无标注的数据中心学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。
X是输入空间,Z是隐式结构空间,条件概率 P ( z ∣ x ) P(z|x) P(zx)
训练数据表示为 U = { x 1 , x 2 , . . . , x n } U = \{x_1,x_2,...,x_n\} U={x1,x2,...,xn}

3、强化学习(reinforcement learning)

智能系统在与环境连续互动中学习最优行为策略的机器学习问题。
假设智能系统与环境的互动基于马科尔夫决策过程,智能系统能观测到的是与环境互动的到的数据序列。强化学习的本质是学习最优的序贯决策。

s_t
r_t
a_t
环境
智能系统

从环境观测到一个状态s_t与一个奖励r_t采取一个动作a_t。
目标是长期积累奖励的最大化。
强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组 γ \gamma γ>组成
S是有限状态(state)集合
A是有限动作(action)集合
P是状态转移概率(transiton probility)函数
r是奖励函数(reward function)
γ \gamma γ是衰减系数(discount factor) γ ∈ [ 0 , 1 ] \quad\gamma\in[0,1] γ[0,1]
马尔科夫性:下一个动作只依赖于前一个状态和动作。
价值函数或状态价值函数:策略 π \pi π的从某一个状态s开始长期积累奖励的数学期望。
v π ( s ) = E p i [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . ∣ s t = s ] v_{\pi}(s) = E_{pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+...|s_{t}= s] vπ(s)=Epi[rt+1+γrt+2+γ2rt+3+...st=s]
动作价值函数::策略 π \pi π的从某一个状态s和动作a开始长期积累奖励的数学期望。
q π ( s ) = E p i [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + . . . ∣ s t = s , a t = a ] q_{\pi}(s) = E_{pi}[r_{t+1}+\gamma r_{t+2}+\gamma^{2} r_{t+3}+...|s_{t}= s,a_{t}= a] qπ(s)=Epi[rt+1+γrt+2+γ2rt+3+...st=s,at=a]
目标求解最优策略 π ∗ \pi^{* } π强化学习的方法有基于策略的、基于价值的,这两个属于无模型的方法,还有有模型的方法。

4、半监督学习与主动学习

半监督学习:指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习:指机器不断主动给出实例让老师进行标注,然后利用标注数据学习预测模型的机器学习问题。

其他分类标准下的分类

按模型分类

1、概率模型与非概率模型
2、线性与非线性
3、参数化模型与非参数化模型
参数化模型适合简单问题,现实中的复杂问题,非参数化模型更加有效。

按算法分类

在线学习和分类学习。
在线学习是每次接受一个样本,进行预测,之后学习模型。有些场景要求是在线的。比如数据随时间动态变化,需要算法适应新的模式(不满足独立同分布假设)。利用随机梯度下降的感知基学习算法就是在线学习算法。

按技巧分类

1.贝叶斯学习
利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率)。
P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) P(\theta |D) = \frac{P(\theta )P(D|\theta)}{P(D)} P(θD)=P(D)P(θ)P(Dθ)
2、核方法
用核函数表示和学习。

统计学习三要素

方法 = 模型+策略+算法
在监督学习中论述

1、模型

模型就是要学习的条件概率分布或决策函数。假设空间用 F F F表示。
决策函数: F = { f ∣ Y = f ( X ) } F = \left \{ f|Y = f(X) \right \} F={fY=f(X)}
条件概率分布: F = { P ∣ P ( Y ∣ X ) } F = \left \{ P|P(Y|X) \right \} F={PP(YX)}

2、策略

按照什么样的准则学习或选择最优模型。
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
1、损失函数与风险函数
输出的预测值 f ( X ) f(X) f(X)与真实值 Y Y Y可能一致也可能不一致,损失函数(loss founction)或代价函数(cost function)来度量预测错误地程度。损失函数是 f ( X ) f(X) f(X) Y Y Y的非负实值函数。
常用的损失函数:
(1)0-1损失函数(0-1 loss function)
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( x ) 0 , Y = f ( x ) L\left ( Y,f\left ( X \right ) \right )=\left\{\begin{matrix} 1, Y\neq f(x)\\ 0,Y=f(x)\end{matrix}\right. L(Y,f(X))={1,Y=f(x)0,Y=f(x)
(2)平方损失函数(quadratic loss function)
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2
(3)绝对损失函数(absolute loss founction)
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=\left|Y-f(X)\right| L(Y,f(X))=Yf(X)
(4)对数损失函数(logarithmic loss founction)
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L\left ( Y,P(Y|X) \right )=-logP(Y|X) L(Y,P(YX))=logP(YX)
损失函数值越小,模型就越好。由于模型的输入输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是
R e x p = E P [ L ( Y , f ( X ) ) ] = ∫ x ⋅ y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}= E_{P}[L(Y,f(X))]=\int_{x·y}L(y,f\left ( x \right ))P(x,y)dxdy Rexp=EP[L(Y,f(X))]=xyL(y,f(x))P(x,y)dxdy
这就是风险函数(risk function)或期望损失(expected loss)
联合概率分布是未知的,所以风险函数无法计算。
但是可以计算平均损失或称为经验损失(empirical loss),记做 R e m p R_{emp} Remp:
R e m p ( f ) = 1 N ∑ N i = 1 L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{N}^{i=1}L\left ( y_{i} ,f\left ( x_{i} \right )\right ) Remp(f)=N1Ni=1L(yi,f(xi))
关于训练样本集的平均损失。根据大数定律(在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率),当样本容量N无线区域无穷时,经验风险趋于期望风险。
现实中样本数量有限,这种估计本不理想,要对经验风险惊醒一定的矫正。监督学习的两个基本策略:经验风险最小化和结构风险最小化。

2、经验风险最小化和结构风险最小化
经验风险最小化(empirical risk minimization ERM):经验风险最小的模型师最优模型。
样本容量小时产生过拟合(over fitting)。
结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出,等价于正则化(regularization)。在经验风险的基础上加上了表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)
J ( f ) J(f) J(f)为模型复杂度是定义在假设空间 F F F上的泛函(把假设空间映射为函数)。结构风险小,需要经验风险与模型复杂度同时小。

3、算法

学习模型的具体计算方法。用什么样的计算方法求解最优模型。

你可能感兴趣的:(读书笔记)