《机器学习》--线性模型

一、基本形式
线性模型形式简单、易于建模、许多非线性模型是在其基础上通过引入层级结构或高维映射而得,其具有很好的解释性。一般向量形式写为:
f(x) = WTx+b
其中W = (w1,w2,w3,.....wd) ,x = (x1,x2,x3,....xd)

二、线性回归
线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。
f(xi) = WTxi+b,使得f(xi)尽可能等于yi
确定w和b的关键在于如何衡量f(x)和y之间的差别,回归模型常用均方误差来度量,及:
(w,b) =arg min sum(f(xi)-yi)2
=arg min sum(yi - WTxi - b)
2
基于均方误差最小化进行的模型求解方法“最小二乘法”,在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线的距离之和最小,其具体过程为,首先均方误差函数对ω和b求偏导:

image.png

然后,令以上两式为0即可获得ω和b的解。
以上便是求解线性回归模型的过程,它的前提假设是预测值yi与输入xi之间存在着线性关系,但有时在我们处理的问题中可能是预测值的对数与输入值存在线性关系,或者预测值与输入值存在着更为复杂的函数关系,为了解决这种情况,于是便产生了对数线性回归(log-linear regression)和广义线性回归(generalized linear regression)的概念,他们的模型分别如下:

image.png

三、 对数几率回归(Logistic Regression)
线性回归模型产生的预测值是实值,对于分类任务比如需要判断明天是天晴还是下雨就不适用了。对数几率回归的提出正是用来解决分类任务的,它在线性模型的基础上将预测值yi转化为接近于指定的有限个值的输出。最常用的转化方法是通过sigmoid函数,转化为o或1两个值,适用于二分类任务。


image.png

最优解求解后续补充。

四、线性判别分析
线性判别分析(linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法,他的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
求解后续补充。

五、多分类学习
在前面介绍的两个方法中所使用的例子都是二分类任务,但在现实生活中我们遇见的多分类任务更多一些。由于二分类任务的解决方法较为简单,因此在很多情形下,我们可以基于一些策略,利用二分类学习器来解决多分类问题。最经典的拆分策略有三种,分别是:“一对一(One VS One,OvO)”、“一对其余(One vs Rest,OvR)”和“多对多(Many vs Many,MvM)”

1、一对一:给定数据集D假定其中有N个真实类别,从使用分而治之的思路,将这N个类别进行两两配对(一个正类/一个反类),从而产生N(N-1)/2个二分类学习器,每个学习器对一种类别进行判别。在测试阶段,将新样本放入所有的二分类学习器中测试,得出N(N-1)个结果,最终通过投票产生最终的分类结果。训练N个分类器,开销较大。

2、一对其余:给定数据集D假定其中有N个真实类别,每次取出一个类作为正类,剩余的所有类别作为一个新的反类,从而产生N个二分类学习器,在测试阶段得出N个结果若仅有一个学习器预测为正类,则对应的类标作为最终分类结果。优时也要考虑预置置信度的大小确定类别。

3、多对多:给定数据集D假定其中有N个真实类别,每次取若干个类作为正类,若干个类作为反类(通过ECOC码给出编码),若进行了M次划分,则生成了M个二分类学习器,在测试阶段(解码),得出M个结果组成一个新的码,最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。
区别多分类与多标记,多分类是每个样本只属于一个类,多标记是样本可以同时属于多个类

六、类别不平衡
1、过采样(SMOTE)
2、欠采样(EasyEnsemble)
3、阈值平衡(cost-sensitive learning)

你可能感兴趣的:(《机器学习》--线性模型)