统计学习方法概论

1.统计学习

统计学习包括监督学习、非监督学习、半监督学习、强化学习


输入空间:输入变量取值的集合

输出空间:输出变量取值的集合

特征空间:所有特征向量存在的空间


分类问题:输出变量为有限个离散变量的预测问题

回归问题:输入变量和输出变量均为连续变量的预测问题

标注问题:输入变量和输出变量均为变量序列的预测问题


2.监督学习

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据和测试数据是按照联合概率分布独立同分布产生的

监督学习旨在学习一个从输入到输出的用模型表示的映射,模型属于从输入到输出的映射集合,这个集合叫做假设空间

监督学习的模型可以使概率模型或非概率模型,分别由条件概率分布P(Y|X)或决策函数Y=f(X)表示


3.统计学习三要素

统计学习方法=模型+策略+算法

模型:条件概率分布或决策函数,假设空间包含所有可能的条件概率分布或决策函数

策略:选择最优模型


损失函数(代价函数):度量模型一次预测的好坏

期望风险:模型关于联合分布的期望损失,损失函数按照联合分布求期望得到

经验风险:模型关于训练样本集的平均损失

根据大数定理,当样本趋于无穷时,经验风险趋于期望风险

最小化经验风险就是经验风险最小化

结构风险最小化:在经验风险上加上表示模型复杂度的正则化项

算法:求解最优模型


4.模型评估与选择

训练集与测试集

训练误差与测试误差

欠拟合与过拟合

正则化

交叉验证


5.生成模型与判别模型

监督学习方法可以分为生成模型与判别模型

生成模型:从数据中学习联合概率分布P(X,Y),求出条件概率分布P(Y|X),由条件概率做预测

如朴素贝叶斯法、隐马尔可夫模型

判别模型:由数据直接学习决策函数或者条件概率分布作为预测的模型

如k近邻、感知机、决策树、logistic 回归、最大熵模型、支持向量机、提升方法、条件随机场等


6.分类、回归与标注问题

6.1 分类

输出变量Y取有限个离散值,输入变量X可以是离散的或连续的。

可以分为二分类和多分类。

评价指标一般是分类准确率

对于二分类问题常见的评价指标是精确率召回率,此外还有F1值

6.2 标注

输入是一个观测序列,输出是标记序列或者状态序列

常用的统计学习方法:隐马尔可夫模型、条件随机场

应用:自然语言处理中的词性标注、信息抽取

6.3 回归

用于预测输入和输出之间的关系,特别是当输入发生变化时输出随之发生的变化

按照输入变量的个数分为一元回归和多元回归;按照输入和输出之间关系的类型分为线性回归和非线性回归

你可能感兴趣的:(统计学习方法概论)