统计学习方法笔记(一)

统计学习方法概论

本系列文为李航博士的《统计学习方法》一书的个人简要笔记,供日后遗忘时翻阅

1统计学习

统计学习/统计机器学习定义:计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析
统计学习目标:考虑学习什么样的模型和如何学习模型,使得模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率

统计学习组成:监督学习、非监督学习、半监督学习和强化学习等
监督学习定义:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知训练数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现

统计学习方法三要素:
1. 模型:模型的假设空间
2. 策略:模型选择的准则
3. 算法:模型学习的算法

2 监督学习

输入/输出空间:输入/输出所有可能取值的集合

实例:每个具体的输入,通常由特征向量表示

输入空间不一定等于特征空间,实例有时从输入空间映射至特征空间,模型实际上都是定义在特征空间上的。
输入/ 输出变量记作 X / Y,变量值分别用 x / y 表示,其中 x=(x(1),x(1),,x(n)) ,其中 x(i) 表示第 i 个特征, xi 表示多个输入变量中的第 i 个, xi=(x(1)i,x(2)i,,x(n)i)T

监督学习从训练数据中学习模型,训练数据由输入(或特征向量)输出对组成,输入与输出对也称为样本 / 样本点

回归问题:输入变量与输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输入变量与输出变量均为变量序列的预测问题

监督学习关于数据的基本假设:监督学习假设输入和输出的随机变量 X 和 Y 遵循联合概率分布 P(X, Y),训练数据与测试数据被看作是依联合概率分布 P(X, Y) 独立同分布产生的

学习预测过程:学习系统利用给定的训练数据集,通过学习 / 训练得到一个模型,此模型表示为条件概率分布或决策函数形式,预测系统对于给定的测试样本集中的输入,由模型给出相应的输出

3 统计学习方法三要素

1 模型

模型:监督学习所要学习的条件概率分布或决策函数
模型的假设空间包含所有可能的条件概率分布或决策函数
决策函数 / 条件概率 表示的模型称为 非概率 / 概率模型

2 策略

策略:按照什么样的准则学习或选择最优的模型
1. 损失函数和风险函数
损失 / 代价函数度量模型预测错误的程度,损失函数是预测值 f(x) 和真实值 Y 的非负实值函数,记作 L(Y,f(X))
常用损失函数有:
0-1损失函数,平方损失函数,绝对损失函数
对数 / 对数似然损失函数 L(Y,P(Y|X))=logP(Y|X)
风险函数 / 期望损失: Rexp(f)=EP[L(Y,f(X))]=χ×γL(y,f(x))P(x,y)dxdy 表示理论上模型 f(X) 关于联合分布 P(X,Y) 的平均意义下的损失
监督学习的目标是选择期望风险最小的模型,同时监督学习是一个病态问题
给定一个训练数据集 T={(x1,y1),(x2,y2),,(xN,yN)}
经验风险 / 经验损失:模型 f(X) 关于训练数据集的平均损失,记作 Remp=1NNi=1L(yi,f(xi))
根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险

经验风险最小化/ERM的策略认为经验风险最小化的模型是最优的模型,求最优模型即求解最优化问题: minfF1NNi=1L(y,f(xi)) 其中 F 是假设空间
样本容量足够大时,经验风险最小化能保证有很好的学习效果,当样本容量很小时,则可能会产生过拟合现象
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计(P48)

结构风险最小化/SRM 是为了防止ERM过拟合而提出来的策略,SRM等价于正则化,SRM在ERM基础上加上表示模型复杂度的正则化项/罚项,在假设空间、损失函数和训练数据集确定情况下,结构风险定义为: Rsrm(f)=1NL(y,f(xi))+λJ(f) J(f) 为模型的复杂度,模型越复杂,复杂度越大,复杂度表示了对复杂模型的惩罚, λ0 是系数,用以权衡经验风险和模型复杂度,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测
当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,SRM等价于MAP/ 最大后验概率估计
结构风险最小化/SRM的策略认为结构风险最小化的模型是最优的模型,求最优模型即求解最优化问题: minfF1NNi=1L(y,f(xi))+λJ(f)

3 算法

统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法/算法求解最优模型,可以认为统计学习的算法就是求解最优化问题的算法。

统计学习方法之间的不同主要来自模型、策略、算法的不同,确定了模型、策略、算法就明确了统计学习的方法

4 模型评估与模型选择

假设学习到的模型是 Y=f^(X) ,训练误差是模型 Y=f^(X) 关于训练数据集的平均损失: Remp(f^)=1NNi=1L(yi,f^(xi)) N为训练样本容量,测试误差是模型关于测试数据集的平均误差,当损失函数为0-1损失时,测试误差就变成了常见的测试数据集上的误差率,测试集上的误差率 + 测试集上的准确率 = 1
测试误差反映了学习方法对未知的测试数据集的预测能力/泛化能力

过拟合:模型的复杂度比假设空间中的真模型复杂度高,对已知数据预测很好但是对未知数据预测很差
下图表示训练误差和测试误差与模型复杂度的关系
统计学习方法笔记(一)_第1张图片

5 正则化与交叉验证

正则化和交叉验证是选择复杂度适当模型的方法
正则化是SRM的实现
正则化形式: minfF1NL(y,f(xi))+λJ(f) 即 经验风险 + 正则化项 , λ0 为调整两者之间关系的系数
模型复杂度正比于正则化项值,正则化项可以是L1、L2范数,详细见机器学习中的范数规则化之(一)L0、L1与L2范数

交叉验证
简单交叉验证
S折交叉验证
留一交叉验证:数据缺乏时使用

6 泛化能力

泛化能力:指模型对未知数据的预测能力,一般通过测试误差评价,但是测试数据集的有限性会有一定影响。
泛化误差:学得模型为是 f^ ,模型对未知数据预测的误差即为泛化误差: Rexp(f^)=EP[L(Y,f^(X))]=χ×γL(y,f^(x))P(x,y)dxdy
模型泛化误差即为模型的期望风险
泛化误差上界代表泛化能力大小,样本容量增加,泛化上界趋于0,假设空间越大,泛化误差上界越大
对于二类分类问题:训练误差小(即经验风险小)的模型,其泛化误差/期望风险也会小(证明见P16)

7. 生成模型与判别模型

监督学习学习的模型形式一般为决策函数 Y=f(X) / 条件概率分布 P(Y|X)
监督学习方法可以分为生成方法和判别方法
生成方法 — 生成模型
判别方法 — 判别模型

生成方法由数据学习联合概率分布 P(X,Y) , 然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型: P(Y|X)=P(X,Y)P(X)
模型表示了给定输入X产生输出Y的生成关系,故称为生成模型
生成模型:朴素贝叶斯、隐马尔科夫模型

判别方法由数据直接学习决策函数或条件概率分布作为预测的模型,即判别模型
判别模型:k近邻发、感知机、决策树、logistic回归模型、最大熵模型、SVM、提升方法、条件随机场等

生成方法特点:生成方法可以还原出联合概率分布,而判别方法不能,生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快的收敛于真实模型:当存在隐变量时,仍可以用生成方法学习,不能用判别方法
判别方法特点:判别方法直接学习的是条件概率或决策函数,直接面对预测,往往学习的准确率更改,由于直接学习 P(Y|X) f(X) ,可以对数据进行各种程度的抽象,定义特征并使用特征,因此可以简化学习问题

8. 分类问题

分类:监督学习中,输出变量 Y 取有限个离散值,输入变量可以是离散或连续值
学得模型/决策函数称为分类器
二分类/多分类
评价分类器性能指标 —
准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比
TP、FN、FP、TN
精确率/查准率: P=TPTP+FP
召回率/查全率: P=TPTP+FN
F1值: F1=2TP2TP+FP+FN

9.标注问题

标注问题是分类问题的一个推广,输入时一个观测序列,输出是一个标记序列或状态序列,具体过程如下:
统计学习方法笔记(一)_第2张图片
统计学习方法笔记(一)_第3张图片
性能评价指标与之前一样
标注常用的统计学习方法有:隐马尔科夫模型、条件随机场
例:自然语言中的词性标注

10. 回归问题

回归模型表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合,学习和预测过程类似于9中的图1.5
输入变量个数决定 一元回归 / 多元回归
线性回归 / 非线性回归
回归最常用的损失函数是平方损失函数
例:股票预测

统计学习方法笔记(一)_第4张图片

你可能感兴趣的:(统计学习方法笔记(一))