机器学习(二)——预测房价第一篇

写在前面:本学习基于慕课网的机器学习教程,相关的视频可以到慕课网查看。

1.线性回归


这是一个很简单很简单的一个模型,就是一个线性方程,其有斜率w以及截距w0。当然我们也可以拟合多条这样的线,但是我们会选择那条线作为我们最终拟合的线呢?


所以问题就抛给了如何选择一条合适的线,来最能正确的拟合我们房屋的大小与价格之间的关系?

这里引入一个数学上定义线是否为最适合的选择的一个定义:残差平方和。所谓的残差平方和(RSS),就是实际我们的点到预测的线的距离,可以见下图所示:


可以看到起就是所有点到线上的差值再平方,最后将平方值求和得到的。只要RSS最小,这根线就是我们最好的拟合曲线。

但是,我们上面得到的直线是否就真的满足了我们的需求了呢?其实不是,因为我们读知道,房屋的价格是不可能随房屋的大小一直呈线性关系的,二更有可能是一条曲线。下面便有了不一样的讨论方法,也就是引入高阶的模型。首先,先多一阶,利用二次函数来拟合这样的情况,便会有下面的图像:


我们同样可以求残差平方和的最小值便可得到最好的二次曲线。但实际上,这样的曲线仍然是线性回归。我们认为x的平方是另一个回归量,因为w还是w,而不是w的平方。当然,这样的曲线肯定是比一次的好很多,但既然可以用二次,那运用更高阶的效果是否会更好呢?比如13阶。我们可以看看它拟合的曲线:


确实如我们所愿,其拟合的效果的RSS为0了。但真正实际上的曲线在运用上真的很好吗?我们可以看看下图:


从上面我们可以看到,在途中所示的那个点,前面它的房价是非常的高的,但是仅稍微移动一点,便下降了这么多,你认为这个实际吗?当然不实际,这在机器学习中,被称之为过拟合。可以看到,即使高阶有很好的拟合效果,但却比不上二阶的效果好,这在机器学习上是一个很有趣的问题。

你可能感兴趣的:(机器学习)