统计学习 三要素

模型

1 决策函数集合



2 条件概率集合


策略

有了模型的假设空间,按照什么样的准则学习或者选择最优模型

损失函数:一次预测的好坏 (loss function)
风险函数:平均意义下的模型预测的好坏

损失函数
1 0-1 损失函数
2 平方损失函数
3 绝对损失函数
4 对数损失函数 或 对数似然损失函数


损失函数值越小,模型就越好
损失函数的期望是:


学习的目的就是选择期望风险最小的模型,
一方面根据期望风险最小的学习模型要用到联合分布,联合分布又是未知的,所以监督学习就成为一个循环

现在给一组训练集合:



模型 f(X) 关于训练数据集的平均损失 为 经验风险 或 经验损失


根据大数定律 ,N趋于无穷大时,经验风险 emp 趋于 期望风险 exp 
现实中训练样本有限,用经验风险估计期望风险并不理想
(也就是说,一两次的结果不能说明什么问题,就需要大数据了,监督学习)
这就关系到监督学习的策略,经验风险最小化和结构风险最小化

经验风险最小化

极大似然估计 就是 经验风险最小化的一个列子
当模型条件是概率分布,损失函数是对数函数时,经验风险最小化就等价于极大似然估计

问题来了,当容量样本很小的时候,会产生‘过拟合’现象

结构风险最小化 是为了防止过拟合提出来的

其中 模型越复杂 J(f) 就越大
参数是用来权衡风险和模型复杂读的

贝叶斯估计中最大后概率估计 就是结构风险最小化的一个例子。
当模型是条件概率分布,损失函数是对数损失函数,
模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

算法
1 如果最优化问题有显示的解析式,算法比较简单
2 通常解析式都不存在,就需要数值计算的方法

你可能感兴趣的:(统计学习 三要素)