开坑-统计学习方法概论

1.3 统计学习三要素

方法=模型+策略+算法

  1. 模型
  2. 策略
  3. 算法

模型

所要学习的条件概率分布或决策函数

策略

损失函数和风险函数

-0-1损失函数
-平方损失函数 (Y-f(x))^2
-绝对损失函数 |Y-f(x)|
-对数损失函数 -logP(Y|X)

经验风险最小化和结构风险最小化

经验风险最小化(empirical risk minimization,ERM),样本足够大时有很好的学习效果
例如,极大似然估计,模型是条件概率分布,损失函数是对数损失函数时等价于极大似然估计
结构风险最小化(structural risk minimization,SRM)防止过拟合提出的策略,等价于正则化(regularization),例如贝叶斯估计中的最大后验概率估计

算法

统计学习问题归结为最优化问题,如何保障寻找到全局最优解?


1.4 模型评估

training error本质上不重要,test error反映学习方法对未知的测试数据集的预测能力


1.5 正则化与交叉验证

正则化复合奥卡姆剃刀原理
-简单交叉验证 70% training set, 30% test set
-S折交叉验证 S-fold cross validation
-留一交叉验证 leave-one-out


1.6 泛化能力

泛化误差上界是假设空间容量的函数,假设空间容量越大,模型就越难学


开坑-统计学习方法概论_第1张图片
image.png

1.7 生成模型与判别模型

监督学习方法分为生成方法和判别方法
生成方法给定输入X产生输出Y的生成关系,朴素贝叶斯和隐马尔科夫模型,求P(Y|X);还原出联合概率分布,收敛速度更快,同时存在隐变量时,仍可以用生成方法学习,而判别方法不行
判别方法由数据直接学习决策函数,关心的是对给定的X,应该输入做怎样的Y;学习准确率更高,可以对数据进行各种程度上的抽象,定义特征并使用特征,可以简化学习问题。


1.8 分类问题

accuracy
二分类的评价指标,精确率(precision)和召回率(recall)
TP-将正类预测为正类数
FN-将正类预测为负类数
FP-将负类预测为正类数
TN-将负类预测为负类数
precision P = TP / (TP+FP)
recall R = TP / (TP+FN)
F1为precision和recall的调和均值,鸡
F1 = 2TP / (2TP+FP+FN)


1.9 标注问题

标注问题是分类问题的一个推广,也是更复杂的结构预测问题的简单形式,即对一个观测序列找到使条件概率最大的标记序列。
分为学习和标注两个过程,常用的统计学习方法有:隐马尔科夫,条件随机场


1.10 回归问题

表示输入变量到输出变量之间的映射

你可能感兴趣的:(开坑-统计学习方法概论)