极大使然估计对比最小二乘法思想

极大似然估计概述:小样本预测大样本发生的概率

下面结合一个例子介绍极大似然估计法的思想和方法:

设一个袋子中有黑、白两种球,摸到白球的概率为p,现在要估计p的值。
我们令总体X为
\[
X = \left.
\begin{cases}
0,\quad 从袋中取得一白球,\\
1,\quad 从袋中取得一黑球.\\
\end{cases}
\right.
\]
则X服从01分布\(B(1,p)\)。

我们先进行有放回地摸球10次,其结果可用随机变量\(x_i\)表示,则\(x_1,x_2,⋯,x_10\)是来自总体X的一个样本。其值=(1,0,1,0,0,0,1,0,0,0),则似然函数为\(L(p)=p^3 (1−p)^7\)。

极大似然估计其实是理想地认为,对于极少的样本观测,我们观测到的样本很可能就是发生概率最大的。

似然函数\(L(p)\)是每个样本出现概率的乘积=\(\prod_{i=1}^N {P({x_i})}\),因为显然样本是独立同分布的。
根据极大似然估计的思想,我们需要让\(L(p)\)最大,把这时对应的\(\hat p\)作为我们的估计值。

求解\(L(p)\)的最大值点\(\hat p\),可由一阶导数\[\frac{dL(p)}{dp}=0\]确定。更一般的,我们通常可以假设白球出现次数为k,可以解得\[\hat p = \frac{k}{N}\]
这里带入\(k=3\)得\(\hat p=0.3\),所以我们把0.3作为摸到白球的概率。

值得注意的是,根据似然函数来求解参数的过程,与样本数量是无关的。我们可以使用变量\(x_i\)来描述样本观测值,并将模型参数\(\theta\)用来\(x_i\)表示。当样本较少时,极大似然估计偏差较大。但随着样本的增多(样本逐渐靠近总体分布),偏差慢慢减少为0。这意味着,极大似然估计是非常普适的。

实际上,即使直观上“极大似然估计”似乎是非常自然的想法,但它能在统计学中拥有堪比牛顿力学在物理学中的地位,是因为这种朴素的想法背后蕴含了估计量的泛函不变性、相合性、渐近有效性和渐进正态等诸多逆天的性质。

Note:极大似然估计暗合了切比雪夫大数定律。比如在这个例子中,如果放回次数变得极大,那么根据大数定律也有\(\hat p = \frac{k}{N}\) 。所以在用“局部估计整体”时,可以说使用了极大似然估计法,也可以说根据大数定律。

 

最小二乘法概述

概念:最小二乘法是一种熟悉而优化的方法。主要是通过最小化误差的平方以及最合适数据的匹配函数。
作用:(1)利用最小二乘法可以得到位置数据(这些数据与实际数据之间误差平方和最小)(2)也可以用来曲线拟合
实例讲解:有一组数据(1,6),(3,5),(5,7),(6,12),要找出一条与这几个点最为匹配的直线 : y = A + Bx
有如下方程:
6 = A + B
5 = A + 3B
7 = A + 5B
12 = A + 6B
很明显上面方程是超定线性方程组,要使左边和右边尽可能相等;采用最小二乘法:
L(A,B)=[6-(A + B)]^2 + [5-(A + 3B)]^2 + [7-(A + 5B)]^2 +[12-(A + 6B)]^2使得L的值最小:这里L是关于A,B的函数;那么我们可以利用对A,B求偏导,进而求出A,B的值使得Lmin
 
 
B = -0.064    A = 8.832
y = 8.832 - 0.064*x:也就是说这条直线是最佳的。求得最适合数学模型,然后可以更加准确预测数据。
       将一个可能的、对不相关变量A的构成都无困难的函数类型称作函数模型如抛物线函数或指数函数;参数B是为了使所选择的函数模型同观测值y相匹配。在一般情况中,观测值远多于所选的的参数个数。
 

你可能感兴趣的:(人工智能技术)