基于数据构建概率统计模型并应用与预测与分析的学科;
关于数据的基本假设——同类数据具有一定的统计规律性,可以用随机变量来描述数据中的特征,用概率分布描述数据的统计规律;
假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数的集合,称为假设空间,从中选取最优模型,在给定评价标准下有最优预测;
三方面:
方法、理论、应用;
从标注中学习预测模型
输入的实例用特征向量表示,特征向量存在的空间称为特征空间;
输入输出作为随机变量的取值;
输入与输出对称为样本或样本点,模型训练数据由此组成;
输入与输出变量类型 | 预测问题类型 |
---|---|
均为连续变量 | 回归问题 |
输出变量为有限个离散变量 | 分类问题 |
均为变量序列 | 标注问题 |
假设输入输出的随机变量X和Y遵循联合概率分布P(X|Y),P(X|Y)表示分布函数或分布密度函数;
训练、测试数据都是依联合概率分布P(Y|X)独立同分布产生的;
定义:输入到输出的映射的集合;
模型是假设空间的子集;模型表示为条件概率分布 ^P(Y|X)或决策函数Y= ^f(X)
从无标注数据中学习预测模型,预测模型表示数据的类别、转化或概率;
无监督学习的本质——学习数据中的潜在规律或潜在结构;
模型可以实现数据的聚类、降维或概率估计。
强化学习是指智能模型系统在与环境的连续互动中学习最优行为策略的机器学习问题;
强化学习的本质是学习最优的序贯决策(在时间上有先后之别的多阶段决策方法);
假设互动基于马尔可夫(Markov)决策(由五元组(S,A,P,r,γ(代表未来奖励有所衰减))),其具有马尔可夫性,下一个状态与前一个状态和动作有关,表示为P(s’|s,a);
//action,state,reward,P(transition probability)
策略定义为s动作函数a=f(s)或条件概率分布P(a|s);
价值函数(value function)定义为策略 π从某个状态s开始的长期积累奖励的数学期望;
动作价值函数定义为状态s和动作a的长期积累奖励的数学期望;
强化学习的目标是找出价值函数最大的* π;
强化学习方法有基于策划,价值,模型三种类型;
半监督学习同时使用少量标注数据和大量为标注数据;
主动学习机器不断给出最有价值实例给教师标记,以较小代价获得较好学习效果;(监督学习的给的是随机得到的标注的数据,看作“被动学习”)
概率模型 | 非概率模型 |
---|---|
条件概率分布形式 | 函数形式 |
可的形式存在联合概率分布 | 不可 |
参数化模型 | 非参数化模型 |
---|---|
参数维度确定 | 参数维度随数据量递增 |
在线学习 | 批量学习 |
---|---|
一次接受一个样本并重复操作 | 一次接受所有数据 |
利用贝叶斯定理计算给定数据条件下模型的条件概率,即后验概率;
将模型、未观测要素及其参数用变量表示;
使用先验概率是其特点;
先验概率 | 后验概率 |
---|---|
以往经验和分析得到的概率 | 得到结果信息后修正的概率 |
使用核函数表示和学习非线性模型的机器学习方法;
核方法可以扩展线性模型到非线性模型;
把输入空间的线性不可分问题转化为特征空间的线性可分问题;
技巧:直接定义核函数,即映射之后在空间的内积;
模型就是所要学习的条件概率分布或决策函数(决策函数表示的模型是非概率模型);
损失函数 | 风险函数 |
---|---|
度量模型一次预测的好坏 | 度量平均意义下模型预测的好坏 |
常用损失函数:
0-1损失函数 | 平方损失函数 | 绝对损失函数 | 对数损失函数 |
---|
模型关于训练数据集的平均损失称之为经验风险;
经验风险最小化会导致过拟合情况(导致对已知数据预测很好,未知数据预测不准确);
结构风险:在经验风险加上表示模型复杂度的正则项或杂项;
学习模型的具体计算方法
训练函数 | 测试误差 |
---|---|
判断问题学习的难易程度 | 误差小,预测能力好 |
预测能力又称为泛化能力
过拟合:所选模型复杂度高于“真实模型”(导致对已知数据预测很好,未知数据预测不准确);
选择复杂度合适的模型达到测试误差最小;
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大;
正则化的作用是选择经验风险和模型复杂度同时较小的模型;
交叉验证的基本想法
重复的使用数据;
把给定的数据集切分为训练集和测试集,在此基础上反复进行训练,测试及模型选择;
数据集切分为:
训练集 | 测试集 |
---|---|
70% | 30% |
然后在不同条件下训练模型,选择模型
将数据切分为S和互不相交的子集,S-1个子集的数据训练模型,其余子集用于测试;重复训练,选出S次平均测试误差最小的模型;
S折交叉验证的特殊情况:S=N;
N是给定数据集的容量
泛化能力表示对未知数据的预测能力;
泛化误差反应泛化能力;
一种方法学习的模型泛化误差越小,则其越有效;
泛化误差就是模型的期望风险;
通过泛化误差上界来研究泛化误差;
他是样本容量的函数,样本容量增大时,泛化误差趋于0;
他是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差就越大
监督学习方法 | 生成方法 | 判别方法 |
---|---|---|
对应模型 | 生成模型 | 判别模型 |
原理 | 由数据学得条件概率分布P(X,Y),然后求出条件概率分布P作为预测模型 | 由数据直接学习决策函数f(X)或条件概率分布P |
特点 | 可以还原联合概率分布P(X,Y);学习收敛速度更快;存在隐变量时,任可使用 | 学习准确率更高;进行各种程度的抽象,定义特征,并使用特征,因此可以简化学习问题 |
当输入变量Y取有限个离散值时,预测问题变成了分类问题;
学习到的分类模型或分类决策函数,称为分类器;
分类的类别为多个时,称为多类分类问题;
评价分类模型的指标:
精确率、召回率;
标记问题的输入是一个观测序列;输出是一个标记序列或状态序列;
评价标注模型的指标:
标注准确率、精确率、召回率;
回归模型表示输入变量到输出变量之间映射的函数;
回归问题的学习等价与函数的拟合,选着一条函数曲线,使其很好的拟合已知数据且很好的预测未知数据;
回归问题的分类
输入变量个数 | 一元回归 | 多元回归 |
---|---|---|
输入变量与输出变量的关系 | 线性回归 | 非线性回归 |
回归问题常用的损失函数是:平方损失函数;