第一章 统计学习方法概论

1.1 统计学习

▶︎ 计算机系统通过运用数据及统计方法提高系统性能的机器学习。变量或变量组表述数据,数据分为连续变量离散变量数据多样化包括数字,文字,图像,视频,音频以及组合

▶︎ 统计学习通过构建概论统计模型实现数据数据预测与分析。基本假设:同类数据具有一定的统计规律性。目标:学习什么模型,如何学习模型,提高准确度和学习效率。

▶︎ 统计学习主要分为监督学习非监督学习半监督学习强化学习

1.2 监督学习

▶︎ 基本假设:XY具有联合概率分布,训练数据与测试数据为依照联合概率分布独立同分布产生
▶︎ 假设空间:模型在输入到输出的映射集合中,即假设空间中。输出预测一般为条件概率P(y|x)y=f(x)

  1. 给定一个有限的训练数据集合,假设数据独立同分布
  2. 确定包含所有可能的模型假设空间,即模型集合
  3. 确定模型选择的准则,即学习策略
  4. 实现求解最优模型的算法,即学习算法
  5. 通过学习方法选择最优模型
  6. 利用学习最优模型对新数据进行预测或分析

▶︎ 输入输出变量为XY,具体取值为xy,第i个输入变量为x_i
输入实例x的特征向量为x=(x^{(1)},x^{(2)},...,x^{(n)})^{T}
训练集为T=\{(x_1,y_1), (x_2,y_2),...,((x_N,y_N)\}

▶︎ 分类问题
输出变量为有限个离散值,一般评价指标为分类准确率
二分类问题常用精确率与召回率。
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
精确率:
P={TP\over TP+FP}
召回率:
R={TP\over TP+FN}

▶︎ 标注问题
输入为观测序列,输出为标记序列或状态序列
可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的
P(Y^{(1)}, Y^{(2)},...,Y^{(n)}|X^{(1)}, X^{(2)},...,X^{(n)})
每个X取值为所有可能的观测,对新的观测序列是找到使条件概率最大的标记序列。例如隐马尔可夫模型,条件随机场

▶︎ 回归问题
输入输出均为连续,最常用的损失函数为平方损失函数,最小二乘法

1.3 统计学习三要素

方法=模型+策略+算法

▶︎ 模型
F=\{f|Y=f_{}(X), ∈R^{n}\} or F=\{f|P_{}(Y|X), ∈R^{n} \}
参数空间:参数向量取值于n维欧氏空间R^{n}

▶︎ 策略
损失函数度量模型一次预测的好坏, 风险函数度量平均意义下模型预测好坏

  1. 0-1损失函数
    L(Y,f(X)) = \begin{cases} 0, & \text{Y = f(X)} \\ 1, & \text{Y $\neq$ f(X)} \end{cases}
  2. 平方损失函数
    L(Y,f(X)) =(Y-f(X))^2
  3. 绝对损失函数
    L(Y,f(X)) =|Y-f(X)|
  4. 对数损失函数/对数似然损失函数
    L(Y,P(Y|X)) =-logP(Y|X)

期望损失:模型关于联合分布的期望损失,导致病态问题
R_{exp}(f)=E_p[L(Y,f(X))]=\int_{xy}L(Y,f(X))P(x,y)dxdy
经验损失:模型关于训练样本集的平均损失,样本小时不可靠
R_{emp}(f)={1\over N}\sum_{i=1}^nL(y_i,f(x_i))

经验风险最小化: 适合样本容量非常大,例如极大似然估计,否则出现“过拟合”。
\min_{f\in F} {1\over N}\sum_{i=1}^nL(y_i,f(x_i))

结构风险最小化:防止过拟合,即正则化。例如最大后验概率估计
\min_{f\in F} {1\over N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f)
J(f)为模型复杂度;\lambda≥0权衡经验风险和模型复杂度

▶︎ 算法
求解最优化的算法问题

1.4 模型评估与模型选择

▶︎ 模型评估:统计学习方法具体采用的损失函数未必是评估时使用的损失函数;训练误差的大小能判定问题是不是容易学习,测试误差更为重要反应学习方法对未知预测的能力
▶︎ 模型选择:所选择模型要与真模型参数个数相同且参数向量接近。模型复杂度过高则为过拟合

1.5 正则化与交叉验证

模型选择两种常用方法可帮助选择复杂度适中的模型
▶︎ 正则化:结构风险最小化策略实现,选择经验风险与模型复杂度同时较小的模型
参数向量w的L_2范数
L(w)= {1\over N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+{\lambda\over 2}||w||^2

参数向量w的L_1范数
L(w)= {1\over N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda||w||_1

▶︎ 交叉验证:训练集用来训练模型,验证集用于模型选择,测试集用于方法评估。

1.6 泛化能力

该方法学习到的模型对未知数据的预测能力,因为仅依据测试数据集的评价结果是不可靠的。泛化误差即为所学到的模型的期望风险

▶︎ 泛化误差上界
样本容量和假设空间容量的函数
样本容量增加,趋于0
假设空间容量增加,趋于更大

经验风险最小化函数
f_N=arg\,\min_{f\in F}\hat R(f)
泛化能力
R(f_N)=E[L(Y,f_N(X))]

1.7 生成模型与判别模型

生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测模型,朴素贝叶斯法,隐马尔可夫模型
特点:可还原出联合概率分布,学习收敛速度更快,适用于存在隐变量

判别模型:由数据直接学习f(X)活着条件概率模型,给定X预测Y,k近邻法,感知机,决策树,logistic回归等等
特点:直接面对预测,学习准确度更高,可简化学习问题

你可能感兴趣的:(第一章 统计学习方法概论)