线性回归

引自:周志华老师的《机器学习》

线性模型

线性模型试图学习一个通过属性的线性组合来进行预测的函数。
设x有d个属性:


线性模型基本形式

1.线性回归

线性回归试图学习一个线性模型以尽可能的预测实值输出标记。


1.0 误差

如上所述:
预测值:
一元线性回归表达式:,此处c为误差,b为截距项,Y是真实值,即预测值加上误差。

误差

为什么误差服从高斯分布?
因为实际情况下,误差都是随机围绕着0来的,大多数误差经过测量被证实是服从高斯分布的。说明高斯分布对误差假设来说是一种很好的模型。

1.1均方误差

如何确定w和b? 关键在于如何衡量f(x)和y之间的差别。
均方误差是回归任务中常用的性能度量,我们试图让均方误差最小化。即:

线性回归均方误差

均方误差对应了欧氏距离,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
在线性回归中,最小二乘法就是试图寻找一条直线,是所有的样本到直线上的欧氏距离最小。

1.2参数估计

求解w和b使得均方误差最小化的过程,称为线性回归模型的最小二乘“参数估计”
我们将E(w,b)对w和b求导,得到:

求导

1.3 多元线性回归

如果数据集D的样本由d个属性,此时


多元线性回归

称为“多元线性回归”

数据集D表示为 的矩阵。

X

标记y也写成向量形式:
多元线性回归

注意:在现实中 往往不是满秩矩阵,这样的话可以解出多个,他们都可以是均方误差最小化,选择哪一个解作为最终结果,就需要有学习算法的归纳偏好决定,常见的做法是引入正则化项。

1.4 对数线性回归

假设示例的输出标记是在指数尺度上变化,那就可以将输出标记的对数作为线性模型逼近目标,即:

这就是对数线性回归,实际上是求逼近

对数线性回归示意图

1.5 广义线性函数

更一般地,考虑到单调可微函数 ,令,这样得到的模型是广义线性模型,为“联系函数”。对数线性回归是广义线性回归模型的特例。

你可能感兴趣的:(线性回归)