李航《统计学习方法》第一章 机器学习三要素

chapter1 统计学习方法概论

统计学习三要素

model 模型

假设空间 决策函数的集合 f={f|Y=f(X)}
参数空间 /theta

strategy 策略:

1)如何选择模型?考量:
i.损失函数
e.g.如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是exp-Loss,那就是牛逼的 Boosting了;如果是log-Loss,那就是Logistic Regression了;还有等等。不同的loss函数,具有不同的拟合特性
ii.风险函数: 损失函数的期望
学习的目标是选择期望风险最小的模型,而一般用经验风险(样本集的平均损失)来估计期望风险

2)监督学习常用的两种策略:
i.经验风险最小化:选择经验风险最小的模型
e.g.模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率分布
ii.结构风险最小化:引入正则化项/惩罚项,防止过拟合
e.g.模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

惩罚项一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。
e.g.模型参数向量的 L0 范数、 L1 范数、 L2 范数、迹范数、Frobenius范数,核范数,etc。

algorithm

求解最优化问题的算法
e.g.梯度下降法,牛顿法

模型评估

泛化能力i.e.预测能力
训练误差
测试误差
过拟合vs欠拟合

监督学习

监督学习方法可分为
- 生成方法 generative approach
主要学习联合概率分布P(X,Y)
e.g.朴素贝叶斯,隐马尔科夫
优点:学习收敛速度更快,样本容量增加时速度更快,适用于存在隐变量的情况
- 判别方法 discriminative approach
直接得出决策函数Y = f(X)或P(Y|X)
e.g. k-means, 感知机,决策树,逻辑回归,最大熵,支持向量机,提升方法,条件随机场
优点:准确率更高,便于数据的抽象和特征提取

监督学习包括

  • 分类问题(Y离散)
    二类分类问题常用评价指标是准确率precision和召回率recall,以及综合二者的F1 score
  • 标注问题
    对输入序列进行标记
    常用方法:隐马尔科夫,条件随机场
  • 回归问题
    等价于函数拟合,常用损失函数为平方损失函数,此时可用最小二乘法求解

统计学review

  • 大数定理
    在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值
    切比雪夫定理的一个特殊情况、辛钦定理和伯努利大数定律都概括了这一现象都称为大数定律

  • 极大似然概率
    使用情况:模型已定,参数未知
    f(x1,x2,...,xn|Θ)
    假设所有采样独立同分布,f为模型, θ 为模型参数
    定义似然函数:
    L(Θ|x1,x2,...,xn)=f(x1,x2,...,xn|Θ)
    使函数值最大化(对 Θ 取一阶导数)的 Θ 值就是 Θ 的最大似然估计
    求法:
    因为独立同分布
    L(Θ|x1,x2,...,xn)=f(x1,x2,...,xn|Θ)=ni=1f(xi|Θ)
    两边取对数(因为对数函数是单调增函数,与L有相同的最大值点,而求ln的值相对简单些^[1])
    lnL(Θ|x1,x2,...,xn)=ni=1lnf(xi|Θ)
    对参数 Θ 求导,令一阶导数为零,就得出最大似然估计值
    Θmle=argmax1nlnL
    更多参考

  • 贝叶斯估计
    李航《统计学习方法》第一章 机器学习三要素_第1张图片

假设 Θ 存在一个先验分布g
那么 Θ 的后验分布为
Θ=f(x|θ)g(θ)Θf(x|θ)g(θ)dθ
最大后验概率估计 即为 后验概率分布的众数
ΘMAP(x)=argmaxθf(x|θ)g(θ)
可以看做正则化的最大似然估计,当g是常数时两者等价

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值。最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。

更多参考

  • 最小二乘法
    通过最小化误差的平方和寻找数据的最佳函数匹配

范数review

L0范数

向量中非0的元素的个数
如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0

L1范数

向量中各个元素绝对值之和,i.e. “稀疏规则算子”(Lasso regularization),lasso是套绳的意思,是 L0范数的最优凸近似

L0 v.s. L1
稀疏规则化可以实现特征的自动选择,在预测新样本时自动忽略无用的特征;而且模型更好理解。 L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。

L2范数

向量各元素的平方和然后求平方根, i.e. “岭回归”(Ridge Regression)or “权值衰减weight decay”
用于改善过拟合;有助于处理ill-condition的情况,让优化求解更加稳定和快速。

condition number
假设我们有个方程组AX=b,我们需要求解X。如果A或者b稍微的改变,会使得X的解发生很大的改变,那么这个方程组系统就是ill-condition的,反之就是well-condition的。一般用condition number衡量系统对微小变化的敏感度,定义为矩阵A(A是非奇异的i.e.可逆)的norm(范数)乘以它的逆的norm。condition number值小(在1附近)的就是well-conditioned的,大的(远大于1)就是ill-conditioned的。)

以上参考 博文

习题

1、伯努利模型n次独立实验中k次结果为1,估计结果为1的概率
模型为 P(y=1|x)=θ
1)用极大似然估计
L(θ)=f(x1,x2,...xn|θ)=Cknθk(1θ)nk
直接求一阶导数另其等于零
kθk1(1θ)nk(nk)θk(1θ)nk1=0
得到0,1, kn 三个解
2)用贝叶斯估计中的最大后验概率估计
(参考教材中“模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率分布”)
2、通过经验风险最小化推导极大似然估计,证明模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

你可能感兴趣的:(读书笔记)