1.1 统计学习
1.特点
(1)以计算机及网络为平台,是建立在计算机及网络上的;
(2)以数据为研究对象,是数据驱动的学科;
(3)目的是对数据进行预测与分析
(4)以方法为中心,构建模型并应用模型进行预测与分析;
(5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
2.对象
就是数据
3.目的
对数据的预测和分析
学习什么样的模型,怎样学习模型
4.方法
监督学习(supervised learning)
无监督学习(unsupervised learning)
强化学习(reinforcement learning)
5.研究
统计学习方法、理论、应用
一句话讲完:解决实际问题
6.重要性
处理海量数据的有效方法
计算机智能化的有效手段
计算机科学发展的一个重要组成部分
1.2 统计学习的分类
1.基本分类
(1)监督学习
指的是从标注数据中学习预测模型的机器学习问题。
总的来讲,用给标注的数据(数据和标签)分为训练集和测试集,用训练集去训练一个模型,用测试集去测试这个模型,而这个训练出来的模型能反映输入到输出的映射的统计规律。
(2)无监督学习
从无标注数据中心学习预测模型的机器学习问题。
(3)强化学习
指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
(4)半监督学习与主动学习
半监督学习指的是利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习指的是机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
2.按模型分类
(1)概率模型与非概率模型
概率模型:决策树,朴素贝叶斯,隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析以及神经网络。
逻辑回归既是概率也是非概率。
(2)线性模型与非线性模型
线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析。
非线性模型:核函数支持向量机、AdaBoost、神经网络。
(3)参数化模型与非参数化模型
参数化模型:感知机、朴素贝叶斯、逻辑回归、k均值、高斯混合模型。
非参数化模型:决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配。
3.按算法分类
在线学习:每次接受一个样本,进行预测,学习模型,并不断重复。
批量学习:一次接受所有数据,学习模型,进行预测。
4.按技巧分类
(1)贝叶斯学习
(2)核方法
1.3 统计学习方法三要素
方法=模型+策略+算法
1.模型
略
2.策略
(1)损失函数和风险函数
损失函数即度量预测错误的程度
0-1损失函数:
平均损失函数:
绝对损失函数:
对数损失函数:
风险函数即损失函数的期望,也称为期望损失。
学习的目标就是选择期望损失最小的模型。
经验风险:模型关于训练数据集的平均损失函数
(2)经验风险最小化和结构风险最小化
经验风险最小化:验证集风险最小的模型就是最优模型
一般适用于样本数量足够大,若样本数量过小,会产生过拟合。
结构风险最小化:为了防止过拟合
其中,为模型的复杂度,模型越复杂,越大,反之,越小。为系数。
3.算法
指的是学习模型的具体计算方法。
1.4 模型评估与模型选择
1.训练误差与测试误差
训练误差为模型关于训练集的平均损失
测试误差为模型关于测试集的平均损失
2.过拟合与模型选择
过拟合即学习时选择的模型所包含的参数过多,以至于出现模型对训练数据预测很好,对测试数据预测很差的现象。
最优模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。
1.5 正则化与交叉验证
都是防止过拟合
1.正则化
即结构风险最小化策略的实现
其中,为正则化项。
例子,回归问题,损失函数是平方损失,这是正则化为参数向量的范数:
也可以是的范数
2.交叉验证
即把数据集分为训练集、验证集、测试集,一般为6:2:2。
(1)简单的交叉验证
训练集比测试集7:3。
(2)S折交叉验证
把数据切为S个互不相交、大小相同的子集,利用S-1个子集训练模型,利用剩下的子集测试模型,将这过程S种选择重复进行,选择S次评测中测试误差最小的模型。
(3)留一交叉验证
S折交叉验证的特殊情形S=N。
1.6 泛化能力
指学习到的模型对未知数据的预测能力。
1.泛化误差
即模型对未知数据预测的误差。
2.泛化误差上界
略
1.7 生成模型与判别模型
监督学习方法分为生成方法和判别方法,由生成方法训练出来的模型叫生成模型,由判别方法训练出来的模型叫判别模型。
生成方法为由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型为:
典型生成模型:朴素贝叶斯法和隐马尔可夫模型。
判别方法为由数据直接学习决策函数或者条件概率分布作为预测的模型。
典型判别模型:k近邻法、感知机、决策树、逻辑回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
1.8 监督学习应用
分为分类问题、标注问题、回归问题。
1.分类问题
输出变量Y为有限个离散值,预测问题为分类问题。
0-1分类为二分类问题。
当标签>2时,为多分类问题。
评价分类性能:
TP——数据为正,预测为正;
FN——数据为正,预测为负;
FP——数据为负,预测为正;
TN——数据为负,预测为负;
精确率:
召回率:
F1值:
2.标注问题
输入为观测序列,输出为标记序列或状态序列。
常用的统计学习方法:隐马尔可夫模型,条件随机场。
3.回归问题
回归用于预测输入变量与输出变量的关系。
常见例子,从过去的数据中学习一个模型,使得模型可以预测下一个时间点的数据。