目标函数/损失函数 Loss Function(最小二乘法与最小一乘法)

线性回归这篇文章最后讲到当有多个“学历-工资”数据无法穿过同一条直线的时候,我们最直观的想法就是『折衷』一下,在这三个数据,三条线中间取得某种平衡作为我们的最终结果,类似于图中的红线这样:
目标函数/损失函数 Loss Function(最小二乘法与最小一乘法)_第1张图片
那怎么取平衡呢?那我们现在必须引入误差的存在,也就是我们要承认观测到的数据中有一些因素是不可知的,不能完全的被学历所解释。而这个不能解释的程度,自然就是每个点到红线在Y轴的距离。

但是我们尽管痛苦的承认了有不能解释的因素,但是我们依然想尽可能的让这种『不被解释』的程度最小,于是我们就想最小化这种不被解释的程度。因为点可能在线的上面或者下面,故而距离有正有负,取绝对值又太麻烦,于是我们就直接把每个距离都取一个平方变成正的,然后试图找出一个距离所有点的距离的平方最小的这条线,这就是最小二乘法了,简单粗暴而有效。

最小二乘法

目标函数/损失函数 Loss Function(最小二乘法与最小一乘法)_第2张图片
什么叫最好的模型?最好的模型就是使训练集中每一个真实数据与均值之间的误差的和(假设记作Q)最小(暂不考虑过拟合),那么首先要有个方法来计算Q。下列公式中, yi y i 就是图中的Actual value, yie y i e 就是图中的Predicted value。 yiyie y i − y i e 就是在计算每一个真实的测量数据与均值之间的误差。

Q = min ni(yiyie)2 ∑ i n ( y i − y i e ) 2
这里写图片描述

你可能感兴趣的:(目标函数/损失函数 Loss Function(最小二乘法与最小一乘法))