周志华《机器学习》第三章 - 线性模型

第三章 - 线性模型

  • 1.1 基本形式
  • 1.2 线性回归

1.1 基本形式

给定由 d 个属性描述的示例 x = (X1; X2;…; Xd) , 其中xi是 x在第 i个属性上的取值,线性模型 (linear model)试图学得一个通过属性的线性组合来进行预测的函数,即
在这里插入图片描述
一般用向量形式写成
在这里插入图片描述
其中 ω=(ω1 ;ω2;… ;ωd) ω 和 b 学得之后,模型就得以确定.

线性模型形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思想.许多功能更为强大的非线性模型 (nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得.此外,由于 ω 直观表达了各属性在预测中
的重要性,因此线性模型有很好的可解释’性 (comprehensibility) .

1.2 线性回归

线性回归问题就是试图学到一个线性模型尽可能准确地预测新样本的输出值,例如:通过历年的人口数据预测2017年人口数量。在这类问题中,往往我们会先得到一系列的有标记数据,例如:2000–>13亿…2016–>15亿,这时输入的属性只有一个,即年份;也有输入多属性的情形,假设我们预测一个人的收入,这时输入的属性值就不止一个了,例如:(学历,年龄,性别,颜值,身高,体重)–>15k。

有时这些输入的属性值并不能直接被我们的学习模型所用,需要进行相应的处理,对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形作相应的预处理,例如:归一化等;对于离散值的属性,可作下面的处理:

  • 若属性值之间存在“序关系”,则可以将其转化为连续值,例如:身高属性分为“高”“中等”“矮”,可转化为数值:{1, 0.5, 0}。
  • 若属性值之间不存在“序关系”,则通常将其转化为向量的形式,例如:性别属性分为“男”“女”,可转化为二维向量:{(1,0),(0,1)}。

(1)当输入属性只有一个的时候,就是最简单的情形,也就是我们高中时最熟悉的“最小二乘法”(Euclidean distance),首先计算出每个样本预测值与真实值之间的误差并求和,通过最小化均方误差MSE,使用求偏导等于零的方法计算出拟合直线y=wx+b的两个参数w和b,计算过程如下图所示:
周志华《机器学习》第三章 - 线性模型_第1张图片
均方误差有非常好的几何意义?它对应了常用的欧几里得距离或简称"欧氏距离" (Euclidean distance). 基于均方误差最小化来进行模型求解的方法称为"最小二乘法" (least square method). 在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小.
周志华《机器学习》第三章 - 线性模型_第2张图片
周志华《机器学习》第三章 - 线性模型_第3张图片
在这里插入图片描述
(2)当输入属性有多个的时候,例如对于一个样本有d个属性{(x1,x2…xd),y},则y=wx+b需要写成:
在这里插入图片描述
通常对于多元问题,常常使用矩阵的形式来表示数据。在本问题中,将具有m个样本的数据集表示成矩阵X,将系数w与b合并成一个列向量,这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式:
周志华《机器学习》第三章 - 线性模型_第4张图片
周志华《机器学习》第三章 - 线性模型_第5张图片
在这里插入图片描述
同样地,我们使用最小二乘法对w和b进行估计,令均方误差的求导等于0,需要注意的是,当一个矩阵的行列式不等于0时,我们才可能对其求逆,因此对于下式,我们需要考虑矩阵(X的转置*X)的行列式是否为0,若不为0,则可以求出其解,若为0,则需要使用其它的方法进行计算,书中提到了引入正则化,此处不进行深入。

你可能感兴趣的:(周志华《机器学习》第三章 - 线性模型)