多元线性回归

多元线性回归的概念

多元回归:回归分析中包含 两个或两个以上的自变量。

多元线性回归:因变量和自变量之间是 线性 关系。

多元线性回归模型的几何意义

一元线性回归模型的几何意义

在平面直角坐标系中,
多元线性回归_第1张图片
一元线性模型表示二维空间中的一条直线。

二元线性回归模型的几何意义

在空间直角坐标系中,
多元线性回归_第2张图片
二元线性模型表示三维空间中的一个平面。

多元线性回归模型的几何意义

多元线性回归模型:
在这里插入图片描述
多元线性回归模型表示多维空间中的一个超平面。
超平面是直线在高维空间中的推广,是纯粹的数学概念。

多元线性回归模型的向量表示

下图为多元线性回归的估计函数:
在这里插入图片描述
其中,
在这里插入图片描述
m是属性的个数。

例如:
在这里插入图片描述
这里使用上标 1…m 来进行表示,是为了和样本的序号区分开来。

事实上,房屋的面积、房间数量、房屋的楼层数对房价的影响是不一样的,所以需要为不同的属性赋予不同的权值。
在这里插入图片描述
例如上述三个属性对房价的影响的权重分别0为0.6、0.3和0.1。即:
在这里插入图片描述
为了便于推广到向量的形式,
在这里插入图片描述
将 b 用 w0 来表示。并且设 x0 等于1,那么多元线性回归模型就可以表示为这样的形式:
在这里插入图片描述
进而表示为向量形式。
在这里插入图片描述
这里的 W 和 X 都是 m+1 维的向量,在课程中,所有的向量都默认为列向量,因此,使用行向量表示的时候,要加上向量转置符号。
多元线性回归_第3张图片
假设数据集中,一共有 n 个样本,每个样本表示为(xi,yi),下标 i 是样本符号。那下图即为其中一条样本的多元模型的向量形式。
多元线性回归_第4张图片
从而多元线性回归的损失函数如下:
在这里插入图片描述
这与一元线性回归的损失函数一样,是所有样本误差的平方和。

对于函数中的求和符号:
多元线性回归_第5张图片
是从1到n的,表示有n条样本。可以把它看做是一个n 维的向量,将这个损失函数表示为向量的形式:
在这里插入图片描述
这里 X 和 Y 都是 n 维向量。
多元线性回归_第6张图片
其中,X 的每一个分量,又是一个 m+1 维的向量。也就是说 X 是一个 n 行 m+1 列的矩阵。
多元线性回归_第7张图片
现在,又是一个求极值问题了。
在这里插入图片描述
在数学中,使函数f(x)达到最小值时,自变量x的取值可以表示为这样的形式:
多元线性回归_第8张图片
类似的,使函数f(x)达到最大值时,自变量x的取值可以表示为这样的形式:
多元线性回归_第9张图片
类比,这里使损失函数达到最小值可以这样表示:
多元线性回归_第10张图片
它表示当损失函数Loss取得最小值时,权重向量 W 的取值。

使用向量的形式来求解参数模型中的参数向量W

首先,是对损失函数求导,并且进行化简,然后让这个导数等于0。
多元线性回归_第11张图片

在这里插入图片描述
可以得到
在这里插入图片描述
这就是权值向量 W 的解析解,以后编程序实现多元线性回归的时候,直接使用这个结论就可以了。

使用矩阵的形式来求解参数模型中的参数向量W

n个样本的多元线性回归,可以通过这个线性方程组来表示,这里每个方程表示一个样本。
多元线性回归_第12张图片
这和前面使用向量的形式来求解参数模型中的参数向量W中得到结论一致,与此同时,也必须要求 XT X 为满秩矩阵。

然而在现实任务中,它往往不是满秩的,例如如果样本的属性非常多,数目甚至超过了样本数,导致X的列数对于行数,这就会使得XT X 不是满秩矩阵,在这种情况下,可以解出多个 w ,它们都能使得平方损失函数最小化,造成模型的不唯一,为了解决这个问题,就需要改变或者调整学习算法,将在后面的课程中学习。

不同领域中的维数的概念

除了这一点之外,还要注意一点,在数学学习中,n 维向量是指向量中的元素个数为 n 。
多元线性回归_第13张图片
而在机器学习中,也经常这样描述属性中特征的个数,例如,在鸢尾花数据集中,属性有四列,我们就说这个属性的维数是四维的。同样的,在波士顿数据集中,属性有十三列,就说这个属性的维数是十三维的。
多元线性回归_第14张图片
此外,在前面介绍的 numpy 和 TensorFlow 时,所使用的多维数组或者多维张量中,
多元线性回归_第15张图片
对于不同领域中的维数的概念,要具体问题具体分析。

你可能感兴趣的:(机器学习,机器学习)