线性回归(1)——起源

几乎所有的科学观察都着了魔似的向平均值回归——《女士品茶》

什么是线性回归

线性回归这个概念是由达尔文的表弟高尔顿在研究父代与子代身高关系的时候提出的,我第一次看到这四个字的时候,心中暗骂,这起的什么破名,一点都不直观。什么叫线性?什么叫回归?你在进行什么骚操作啊。然而这两个概念其实准确表达了该算法的核心思想,只要解释明白了这两个概念,我们就搞明白了线性回归。

线性

高尔顿搜集了1078对父亲及其儿子的身高数据,用于研究其两者的关系,他画出了该组数据的散点图,发现这些样本点看起来分布在某条直线的周围,因此他使用一条直线来拟合这些样本点。

父子身高图

这也就是线性最初的意思:所有的样本点可以近似的用一条直线来表示。

回归

高尔顿在画出直线后,对这些数据进行了深入的分析,最终发现了一个很有趣的现象。他发现当父亲高于平均身高时,他们的儿子更可能比他矮;而当父亲矮于平均身高时,他们的儿子身高更可能比他高。他称这种现象为回归现象。

平均身高图

参考上图:

只看x轴,我们可以简单的估计一下,父亲们的平均身高大概在68左右。然后看上图中标黄的部分,身高为64左右的父亲们,他们的儿子身高均值为67.1,普遍比父亲要高,向着均值68的方向贴近。再看绿色部分,身高为72左右的父亲们,儿子们的身高均值为70.9,普遍比父亲矮,向着均值68的方向贴近。

高尔顿将这种子代身高向着父辈的平均身高靠拢的现象称为回归效应。他还说,如果不向着均值的方向回归,高个子的后代更高,矮的更矮的话,用不了几代,我们人类就可以分裂成两个种族——巨人族和矮人族了。不仅身高如此,

几乎所有的科学观察都着了魔似的向平均值回归,这个世界观可以帮我们理解一些荒唐的问题:人类的身高不可能一直越来越高。人类的举重能力不可能越来越大。基因突变不会一直累积,所以变种人不会出现。行尸走肉里那种全球瘟疫不会发生。帅气的爷爷和爸爸,不一定有帅气的孙子。富不过三代。大自然(或者人类社会)以其神秘的力量和节奏调节着地球万物的秩序。——机器学习入门公众号

和机器学习有什么关系?

最后高尔顿一通计算得到了拟合直线的表达式:
$$
y=33.73+0.516x
$$
其中x代表父辈的身高。

戏说:高尔顿把(33.73,0.516)这一对数字卖给算命先生A,告诉A,以后你也别算命了,支个摊子,叫算高先生,帮别人算孩子以后能长多高吧。让顾客告诉你他们的身高,然后代到上面的式子里算一下,结果就是他们孩子的身高。别说,这样算出来的结果虽然不百分百准确,但是八九不离十。因此A先生的算高摊子备受好评。

上面这个瞎编的故事,就是线性回归与机器学习的关系。线性回归是一种机器学习的方法,可以根据训练集(高尔顿收集的1078组身高数据)训练得到一组参数(33.73,0.516),之后利用该参数来预测结果(A先生做的事)。所以线性回归的根本问题就是通过已有训练集的数据,得到线性模型的一组参数。

总结

我们总说机器学习机器学习,机器到底是从什么地方,学到了什么呢?线性回归这个特别基本的方法就很好的回答了这个问题——从一堆样本点里面学到了一组参数。我想这种直观的特点可以解释为什么几乎所有机器学习的书和教程上手的第一个算法是线性回归。

最后,本篇文章是从我个人的博客上面搬运过来的,主要参照reference中的文章书写而来。的公式功能实在不好用,后面几天改天再搬运吧。
本人水平有限,机器学习也是才入门的水平,难免有谬误,欢迎大家指正。

Reference

《线性回归:机器学习史上最大命名错案》——机器学习入门微信公众号

你可能感兴趣的:(线性回归(1)——起源)