为何线性回归要使用最小二乘作为cost function

临近毕业,找工作压力好大啊!至今未有所斩获!开头先自己祝自己能够找一份好工作。。

在学习线性回归的时候,总是看到 cost function 

式(1)


为何采用最小二乘是最好?为何不采用别的cost function。

在学习了Andrew Ng的机器学习后,在此进行一番推导,如果有错,请各位大神指正。

我们假设正确的结果 y和我们的预测的输出函数有如下关系

式(2)


这里 θTx(i) 为我们的预测函数 h(x). ε(i) 为预测函数和正确结果之间的误差。

因为每个样本都是独立的,因此 ε(i)之间也是相对独立的,而且等同分布。因此我们假设 ε(i) 服从期望为0(因为我们希望线能完美经过每个点,误差为0,所以ε的数学期望为0),方差为σ2高斯分布(正态分布)。记为 ε(i)∼N(0, σ2). 跟据高斯分布的概率密度函数,可得

式(3)

根据式(2),在给定 x(i)且参数为 θ的情况下,y(i) 满足数学期望为 θTx(i),方差为 σ2的搞高斯分布,记为(y(i)|x(i);θ)∼ N(θTx(i), σ2). 这里需要注意的是 (y(i)|x(i) ; θ)满足高斯分布而非(y(i)|x(i) ,θ)满足高斯分布。这里的 θ并不是一个随机变量,而是一个给定的参数 θ。只不过这个参数 θ是需要我们进行估计的。由此,式(3)可以改写为以下公式

式(4)

因为在我们的样本中,y(i) 已经给定了,我们需要找到一个参数 θ,使得我们最右可能去得到 y(i)的分布。根据式(4),我们想要估算其中的未知参数 θ。由此我们可以想到一个非常常用的参数估计方法--最大似然估计。我们写出似然方程

为何线性回归要使用最小二乘作为cost function_第1张图片
式(5)

这里我的理解是这样,可能有所偏差,如有问题,希望有大神指正。因为我们要使得到同一个 θ使所有样本按照给定分布的可能性最大,所以我们对每一个式(4)相乘。得到以上似然方程。接下来就是数学推导。

为何线性回归要使用最小二乘作为cost function_第2张图片

J(θ) 即为此线性回归的cost function。由此我们可以非常自然地推导出为什么线性回归中的cost function是使用最小二乘法。

你可能感兴趣的:(为何线性回归要使用最小二乘作为cost function)