西瓜书第三章总结

西瓜书第三章总结

  • 1. 线性回归
    • 线性回归损失函数、代价函数、目标函数
  • 2.逻辑回归
    • 逻辑回归损失函数
  • 3.正则化
  • 4.线性判别分析(LDA)
  • 5.多分类学习
  • 6.类别不平衡问题
  • 参考

1. 线性回归

线性回归试图学得一个线性模型来尽可能准确地预测样本的输出标记,试图学得一个通过属性间的相互组合来进行预测的函数
Alt
Alt

线性回归损失函数、代价函数、目标函数

损失函数是定义在单个样本上的,可理解为一个样本的误差
代价函数是定义在整个训练集上的,是所有样本误差的平均,即损失函数的平均
目标函数即最终需要优化的函数。等于经验风险+结构风险(即代价函数+正则化项)
以损失函数为样本方差为例,线性回归中损失函数为
Alt
代价函数为样本均方误差
Alt
目标函数为
Alt
这里选择的正则化项为L2范数
可以采用梯度下降法或者拟牛顿法求解上述目标函数的最优解

2.逻辑回归

当我们希望线性模型的预测值逼近真实标记时,就得到了线性回归模型,而当我们使用线性模型去逼近真实标记的衍生物时,比如我们认为真实标记是在指数尺度上的变化,那么我们可以将输出标记的对数作为线性模型要逼近的目标,即
Alt
变换一下即
Alt
也就是说试图是用来逼近输出标记y。
更一般地,考虑单调可微函数g(.),令
Alt
,这样得到的模型称为广义线性模型。
线性回归当中我们使用线性模型进行回归学习,如果做分类学习,该怎么做呢?比如二分类任务,即输出标记y∈{0,1},而线性回归模型的预测值z是实数范围内的值,这时候我们可以将z转换为0/1值,最理想的是单位阶跃函数,但单位阶跃函数不连续,无法满足广义线性模型的定义,需要我们找到一个单调可微的函数能近似于单位阶跃函数的作用。
我们发现对数几率函数正好满足我们的需求,
Alt

逻辑回归损失函数

如果我们将上式中的y视为类后验概率估计,则由
在这里插入图片描述
可以得到
Alt

Alt
则样本集的似然函数为
在这里插入图片描述
两边同时取对数即
在这里插入图片描述
求lnL最大值,也就是求-lnL最小值,
在这里插入图片描述
对-lnL关于w求偏导得
Alt

3.正则化

正则化可以理解为一种罚函数法,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。正则化手段包括 Ridge回归(岭回归),Lasso回归以及ElasticNet回归
1.Ridge回归
采用L2范数
在这里插入图片描述
2.Lasso回归
采用L1范数
在这里插入图片描述
Alt
L1范数和L2范数正则化都有助于降低过拟合风险,但前者还会带来一个额外的好处就是它比后者更容易获得稀疏解,即它求得的w会有更少的非零分量。
3.ElasticNet回归
在这里插入图片描述
也即岭回归和Lasso回归的组合。

4.线性判别分析(LDA)

LDA是一种监督学习的降维技术
以二分类问题为例,给定训练样本例集,LDA的思想就是将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,根据投影点的位置来确定样本的类别。
在这里插入图片描述
给定数据集D={(x1,y1),(x2,y2)…},yi∈{0,1},令Xi,μi,Σi分别表示第i类的集合、均值向量、协方差矩阵。若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为wTμ0和wTμ1。协方差分别为w^TΣ0w和 w^TΣ0w。
欲使同类样例的投影点尽可能接近,可以让同类样例的投影点的协方差尽可能小,即
在这里插入图片描述尽可能小
而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即
在这里插入图片描述尽可能大
同时考虑二者,则可得到欲最大化的目标
西瓜书第三章总结_第1张图片
定义类内散度矩阵
西瓜书第三章总结_第2张图片
以及类间散度矩阵
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
则目标函数转化为
西瓜书第三章总结_第3张图片
由拉格朗日乘子法,即
在这里插入图片描述
注意到Sbw的方向恒为μ0-μ1,令
在这里插入图片描述

在这里插入图片描述
将LDA推广到多分类任务中,假定存在N个类,且第i类实例数量为mi,定义全局散度矩阵为
西瓜书第三章总结_第4张图片
类内散度矩阵为每个类别的散度矩阵之和
在这里插入图片描述
从而可以推出
西瓜书第三章总结_第5张图片
采用的方式为
在这里插入图片描述

5.多分类学习

多分类学习的基本思路是拆解法,即将多分类任务拆未若干个二分类任务求解,具体来说,先对问题进行拆分,然后为拆分的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。最经典的拆分策略有三种,一对一,一对其余和多对多。

6.类别不平衡问题

类别不平衡是指分类任务中不同类别的训练样例数目差别很大的情况。现有技术大体分三类:第一类是直接对训练集里的反类样例进行欠采样,即去除一些反例使得正反例数目接近。第二类是对训练集里的正类样例进行过采样,即增加一些正例使得正反例数目接近。第三类是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,采用再缩放。

参考

[1] 周志华.[机器学习]

你可能感兴趣的:(西瓜书)