机器学习西瓜书(周志华)学习笔记(4)-线性模型

                                              1. 基本形式

       线性模型(linear model)就是要学得一个通过属性的线性组合来进行预测的函数:

                                f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b

       一般用向量形式写成:

                                                f(x)=\omega ^{T}x+b

       其中,x_{i}是x在第i个属性上的取值;\omega=(\omega _{1};\omega _{2};...;\omega _{d})\omega和b学得之后,模型就得以确定。\omega直观表达了各属性在预测中的重要性,使得线性模型具有很好的可解释性。

                                              2. 线性回归(linear regression)

       线性回归学得一个线性模型以尽可能准确地预测实值输出标记。

       对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形作相应的预处理,例如:归一化等;对于离散值的属性,可作下面的处理:

  • 若属性值之间存在“序关系”,则可以将其转化为连续值,例如:身高属性分为“高”“中”“矮”,可转化为数值:{1, 0.5, 0}。

  • 若属性值之间不存在“序关系”,则通常将其转化为向量的形式,例如:性别属性分为“男”“女”,可转化为二维向量:{(1,0),(0,1)}。

       基于均方误差最小化进行模型求解的方法称为”最小二乘法“。如下使得均方误差最小:

                        (\omega ^{*},b ^{*})=argmin\sum_{i=1}^{m}(f(x_{i})-y_{i})^2 =argmin\sum_{i=1}^{m}(y_{i}-\omega x_{i}-b)^2

      线性回归中,最小二乘法用于寻找一条直线,使所有样本到直线上的欧式距离之和最小。

  • 线性回归的最小二乘”参数估计(parameter estimation)“:求解\omega和b使E_{(\omega ,b)}=\sum_{i=1}^{m}(y_{i}-\omega x_{i}-b)^2最小化的过程。

这个求解方法,很容易联想到上式对\omega和b分别求导,再令求导式等于0,就可以求得\omega和b最优解的闭式(closed-form)解。具体公式如下:(公式图片转载自博客https://blog.csdn.net/u011826404/article/details/53573115)

机器学习西瓜书(周志华)学习笔记(4)-线性模型_第1张图片

  • 多元线性回归:对于上式更一般的情形是,样本由d个属性描述。此时我们试图学得:(使得F(xi)相似于yi)

                                                             f(x_i)=\omega ^Tx_i+b

       后面的内容还是以书为准吧,我发现写博客的时间太多,进度太慢了。。。。。。 

你可能感兴趣的:(机器学习西瓜书(周志华)学习笔记(4)-线性模型)