最小二乘法原理和推导过程

对于有误差的统计值,我们一般都是采用均值作为使用值。但是这种使用均值代替的方式是不是合理?为什么不用中位数、几何平均数什么的?这需要一个解释。

1.什么是二乘?

对于一列数字,比如10.1、10.3、9.7、9.9、10.5来说,我们要采用一个数字Y来替代他们。要求是这些数与Y的差异要达到最小。在数学上就是:


最小二乘法原理和推导过程_第1张图片

但是数学上对于求绝对值比较排斥,一般直接采用求平方代替。也就是二乘的来源

        那么我们要计划使用的值Y就是关于e的一元函数,也就是说不同的Y,对我们的e都有影响,而我们要想e最小,就让Y的偏导数为0,也就是:

    得到Y为:

这样是说最小二乘法得到Y值就是平均数;

2.最小二乘的推广

通过上边的分析,我们可以得出最小二乘法的数学表达式的推广模式:

最小二乘法原理和推导过程_第2张图片

其中fx是待探索的期望函数,yi表示真实数据。要是函数e最小,则让e对fx的偏导数等于0,如果fx为一个多元函数,那么将其带入。然后分步求导,并让其在各个变量上的偏导数为0,然后得出fx的真实表达式。

3.对于一般线性方程的二乘法学习

我们假设要探索的函数方程为:

最小二乘法原理和推导过程_第3张图片

那么:

最小二乘法原理和推导过程_第4张图片

要使得e的值达到最小,已知x和yi,对于k和b来说采用不同的值,e的值会有不同的变化,那么我们使用e对k和b分别求偏导数。

最小二乘法原理和推导过程_第5张图片

最小二乘法原理和推导过程_第6张图片

然后计算一下(痛苦的过程,别问我怎么知道使用求和性质的,我是百度的,我也不知道这个东西);

最小二乘法原理和推导过程_第7张图片

从另外一个角度思考,对于很多数据来说他们肯定落在一个区域内。通过上述分析,最小二乘法能够得出这些点的误差最小点。那么这些点与这个标志点的距离就可以形成一种分布概率密度函数(曲面),那么曲面的顶点对应的映射点按理就是这个标志点。也就是说概率密度函数在该点的偏导数为0,伟大的数学家高斯通过计算证明了这一点,从而奠定了最小二乘法的权威地位。

你可能感兴趣的:(python,机器学习,人工智能,数据分析,js)