开坑-统计学习方法概论

1.3 统计学习三要素

方法=模型+策略+算法

模型
策略
算法

模型

所要学习的条件概率分布或决策函数

策略

损失函数和风险函数

-0-1损失函数
-平方损失函数 (Y-f(x))^2
-绝对损失函数 |Y-f(x)|
-对数损失函数 -logP(Y|X)

经验风险最小化和结构风险最小化

经验风险最小化(empirical risk minimization,ERM),样本足够大时有很好的学习效果
例如，极大似然估计，模型是条件概率分布，损失函数是对数损失函数时等价于极大似然估计
结构风险最小化(structural risk minimization,SRM)防止过拟合提出的策略，等价于正则化(regularization),例如贝叶斯估计中的最大后验概率估计

算法

统计学习问题归结为最优化问题，如何保障寻找到全局最优解？

1.4 模型评估

training error本质上不重要，test error反映学习方法对未知的测试数据集的预测能力

1.5 正则化与交叉验证

正则化复合奥卡姆剃刀原理
-简单交叉验证 70% training set, 30% test set
-S折交叉验证 S-fold cross validation
-留一交叉验证 leave-one-out

1.6 泛化能力

泛化误差上界是假设空间容量的函数，假设空间容量越大，模型就越难学

image.png

1.7 生成模型与判别模型

监督学习方法分为生成方法和判别方法
生成方法给定输入X产生输出Y的生成关系，朴素贝叶斯和隐马尔科夫模型，求P(Y|X)；还原出联合概率分布，收敛速度更快，同时存在隐变量时，仍可以用生成方法学习，而判别方法不行
判别方法由数据直接学习决策函数，关心的是对给定的X，应该输入做怎样的Y；学习准确率更高，可以对数据进行各种程度上的抽象，定义特征并使用特征，可以简化学习问题。

1.8 分类问题

accuracy
二分类的评价指标，精确率(precision)和召回率(recall)
TP-将正类预测为正类数
FN-将正类预测为负类数
FP-将负类预测为正类数
TN-将负类预测为负类数
precision P = TP / (TP+FP)
recall R = TP / (TP+FN)
F1为precision和recall的调和均值，鸡
F1 = 2TP / (2TP+FP+FN)

1.9 标注问题

标注问题是分类问题的一个推广，也是更复杂的结构预测问题的简单形式，即对一个观测序列找到使条件概率最大的标记序列。
分为学习和标注两个过程，常用的统计学习方法有：隐马尔科夫，条件随机场

1.10 回归问题

表示输入变量到输出变量之间的映射