西瓜书学习笔记(3)—— 线性模型

前言

第二章有点点恶心… …先跳过了,看了网上评价第二章建议回过头来看,所以为了不打击积极性。

3.1 基本形式

线性模型的基本形式:f(x) = w1x1 + w2x2 + w3x3 + … + wnxn + b
向量形式:f(x) = wTx + b

许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得

3.2 线性回归

均方误差:

均方误差是回归任务中最常用的性能度量,均方差最小化便可以作为优化模型的依据,它具有很好的集合意义,对应了常用的欧氏距离,基于均方误差最小化求解的方法称为最小二乘法。

均方误差公式:
西瓜书学习笔记(3)—— 线性模型_第1张图片
均方差公式对w求偏导有:
西瓜书学习笔记(3)—— 线性模型_第2张图片
均方差公式对b求偏导有:
西瓜书学习笔记(3)—— 线性模型_第3张图片
上述两个式子是均方差公式关于w和b的极值函数,令极值为0可以求出最优解,令上述两个式子为0可以计算出w和b最优解的闭式解,这个就是高中熟悉的线性回归方程:
西瓜书学习笔记(3)—— 线性模型_第4张图片
在这里插入图片描述
类似的对于多元线性回归的均方差误差为(式子1):
在这里插入图片描述
该式子表示获取使得等号右边的值最小的时候的w^的值,该式子的形式和线性回归的误差函数相似:
在这里插入图片描述


首先解释(式子1)中为什么没有参数b:
解:书中将X矩阵做了增广,在每一行的最后加上了一项1,完整的X矩阵形式如下图:
西瓜书学习笔记(3)—— 线性模型_第5张图片
然后又将w^ = (w;b),也就是将w矩阵做了一个列增广,那么这样X矩阵中的最后一列1都和w^中的b相乘了,所以(y - Xw^)相当于(y - (wx + b))了这不就是函数的输出与实际的输出做差了么。
其次解释为什么式子1要做矩阵转置再乘矩阵:
解:首先我们知道损失函数是用来衡量这组参数到底合不合适的,因此我们需要用一个值来作为衡量的标准,均方误差就是一个不错的选择,但是我们在式子1中得到的(y - Xw^)是一个矩阵,它的形状大小应该是和y的大小一样的,是d行1列的(d * 1),因此将它做转置后是一行d列的(1 * d),那么将转置结果与自身相乘后就得到(1 * 1)的矩阵或者说值了。就可以用这个值来衡量损失。(个人理解也不知道对不对,但这样会不会算出一个负数呢???没做平方的处理)


接下来求解最优w^和线性回归是一样,对w^求偏导即可,求解结果:
在这里插入图片描述
求解过程(因为涉及矩阵微分,也没学过矩阵论就看看答案好了,截图自南瓜书):
西瓜书学习笔记(3)—— 线性模型_第6张图片
令上述求偏导的结果为0可以计算出优解的闭式解:
在这里插入图片描述
求解过程:
西瓜书学习笔记(3)—— 线性模型_第7张图片
根据这个最优解预测的W^结果可以得到多元线性回归模型:
在这里插入图片描述

3.3 对数几率回归

未完待续

你可能感兴趣的:(西瓜书读书笔记)