统计学习 : 也叫统计机器学习,是关于 计算机 基于 数据 构建 概率统计模型 并运用模型对数据进行 预测 与 分析 的一门学科。
根据定义,我们可以归纳以下五个特点:
数据
统计学习的前提 :(基本假设)同类数据具有一定的统计规律性。
预测与分析 :学习什么模型,如何学习使模型能够准确的预测与分析,同时也要考虑尽可能提高学习效率。
从给定的、有限的、用于学习的 训练数据 集合出发,假设数据是 独立同分布 产生的;
并且假设要学习的模型属于某个函数的集合(假设空间);应用某个 评价准则 ,从假设空间中选取一个 最优模型 (由算法实现),使他对已知的训练数据及位置的测试数据在给定评价准则的条件下有最优预测。
步骤 :
书中给出了以下四个分类角度
方法 == 模型 + 策略 + 算法
模型 : 学习什么样式儿的模型;
策略 :依照什么准则学习,即如何选择最优模型;
算法 : 用什么方法求解最优模型;
我们来串一个这个三要素,大概了解一下三者之间的关系就好:
抓到一个问题拿到一堆数据后,我们第一个考虑的是根据我们要学习什么样儿式儿的模型才能解决我们的问题,当然我们并不能一眼看出最终模型是什么,我们只是有个模型的集合,这个集合就可以理解成假设空间(假设可以用到的模型的空间,哈哈哈哈哈哈我瞎说的不过可以这么理解);
第二步呢就是考虑我们要怎么选择出最优模型。那么什么样的模型可以叫做最优呢,自然是预测值越能靠近真实值越好啦~这里就会提到两个概念,即损失函数和风险函数,Emmm后面再说吧
第三步呢自然就是想办法求解这个最优模型了。
模型就是所要学习的条件概率分布或决策函数。
模型的 假设空间 包含所有可能的条件概率分布或决策函数。
假设空间:F
F是由一个参数向量决定的函数族:F = {f | Y= fθ(X) , θ∈Rn}
参数向量θ取值于n维欧式空间Rn,称为参数空间
F是由一个参数向量决定的条件概率分布族:F = {P | Pθ(Y | X) , θ∈Rn}
参数向量θ取值于n维欧式空间Rn,称为参数空间
策略的意义在于从假设空间中选取最优模型(预测的越准,即预测值越接近真实值越优)。
先引入几个概念:
概念 | 含义 |
---|---|
损失函数 | 度量模型 一次 预测的好坏 |
风险函数 | 度量模型 平均意义 下预测的好坏 |
经验风险 | 模型 f(X) 关于 训练数据集 的平均损失 |
度量预测错误的程度,即Y和f(X)的 非负实值 函数,记作 L(Y,f(X)) 。
损失函数值越小,模型越好。
常见的损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
损失函数的期望,是模型f(X)关于联合分布P(X,Y)的平均意义下的损失:
Rexp(f) = EP[L(Y,f(X))] = ∫x×yL(y,f(x))P(x,y)dxdy
一次预测的好坏对于整个实验来说影响还是小了点儿,对于整个实验我们要选取的是平均意义下的预测最好模型,即寻找期望损失最小的模型;
要求期望损失最低,就要知道联合分布P(x,y)。
然后,联合分布P(x,y)是未知的,也就是说Rexp(f)是不能直接计算的;
那么这个寻找最佳的问题就变成了一个病态的循环:求风险最低 → 联合分布未知 → 需要学习。
期望风险是模型关于联合分布的期望损失,由于联合分布未知所以求期望风险最低的方法不可行;
经验风险是模型关于训练样本集的平均损失,训练样本集数据可知,因此经验风险是可求的;
根据大数定律,当样本容量N趋于无穷时,经验风险Remp(f)趋于期望风险Rexp(f);
辣么,我们是不是可以考虑用经验风险替代期望风险来求出最优模型~
但是这里其实还有一个小问题:
由于训练样本数目有限,需进行一定的矫正,见以下两个概念
当样本容量足够大时效果较好,如极大似然估计;
当样本容量很小时,效果不佳可能过拟合。
为了防止过拟合,如贝叶斯估计中的最大后验概率估计;
相当于:SRM =ERM + 正则化项/罚项
J(f) : 模型的复杂度,表示对复杂模型的惩罚;模型f越复杂,复杂度值越大;
λ : 系数,用以权衡经验风险和模型复杂度
根据以上几个概念:
求解最优模型 → 求解期望风险最小的模型 → 求解经验或结构风险函数
这里指的就是具体计算方法,没什么好说的,后面会慢慢学习。
Y取有限个离散值时,预测问题就变成了分类问题。
此时,X可离散可连续。
常见方法:KNN、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯蒂回归、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow……
输入:观测序列;
输出:一个标记序列或状态序列。
常用方法:隐马模型、条件随机场
预测输入变量和输出变量之间的关系,表示从输入到输出之间的映射关系。
这个就是训练集上的误差,意义不大,不细说了。
这个是测试集上的误差,反应了学习方法对未知的测试数据集的预测能力。
由该学习方法学习到的模型对未知数据的预测能力,常通过测试误差来评价其泛化能力。
学习到的模型对未知数据预测的误差,反应了学习方法的泛化能力。
可通过比较两种方法的泛化误差上界来比较其优劣。
性质:
1.是样本容量的函数:随样本容量增大而减小(趋于0);
2.是假设空间的函数:随假设空间容量增大而增大(模型越难学)。
指学习时选择的模型所包含的参数过多,以至于出现这一模型对于已知数据预测的很好,但对于未知数据预测的很差的现象。
即,训练误差很小而测试误差很大。
方法 | 模型 | 原理 | 示例 |
---|---|---|---|
生成方法 | 生成模型 | 由数据学习联合概率分布,再求出条件概率分布作为预测的模型 | 朴素贝叶斯法、 隐马模型 |
判别方法 | 判别模型 | 由数据直接学习决策函数或条件概率分布作为预测的模型 | K近邻、感知机、逻辑斯蒂归回、最大熵、支持向量机、提升方法和条件随机场等 |
生成方法 | 判别方法 |
---|---|
1.可还原初联合概率分布P(X,Y) | 1.不能还原联合概率分布 |
2.学习收敛速度更快 | 2.学习准确率更高,可以简化学习问题 |
3.存在隐变量时也可用生成方法 | 3.存在隐变量时不能用判别方法 |