最小二乘估计-LSE(Least Square Estimate)

最小二乘估计(Least Square Estimate)


说在前头

  这是我写的第一篇博文。在CSDN潜水很久了,受到了很多前辈的帮助,打算开始学习写博文,能够帮助自己总结知识,学习使用Markdown,还能和大家交流,我是小白一只,如果觉得文中有什么问题,或是排版的建议,欢迎大家不吝指教啦~谢谢!


最小二乘估计

最小二乘估计是一种估计(Estimate)的方法,什么是估计?

估计:字面上的意思即是对事物进行推断,和猜测的含意是很接近的,所以会混着用。

  我们透过已有的信息,对未知的事物进行猜测即是估计,而猜测的方法有很多,你可以毫无根据的瞎猜,也可以依据某些策略进行猜测,这些都叫做估计,但显而易见的是,不同的估计方法(估计策略)会带来性能的差异,而本文要介绍的最小二乘估计(LSE)就是一种估计方法(猜测策略)。


那就开始介绍LSE啦~LSE要解决的问题是:透过观测到的X,Y数据,如何猜测X和Y之间的关系,假设M个X对应某个Y,共有N组观测数据,X和某个Y的关系可以表示成如下形式:
X(1) = [X1(1),X2(1),X3(1)…XM(1)]->Y(1)
X(2) = [X1(2),X2(2),X3(2)…XM(2)]->Y(2)

X(N) = [X1(N),X2(N),X3(N)…XM(N)]->Y(N) **重点:**第n组X,即X(n),有M个数据

X(n)代表是第n组X数据,Xm(n)代表是第n个数据X的第m变量

“->”代表了某种映射关系,如何透过观测数据猜测这种映射关系就是我们关心的。

LSE做了如下假设:(基函数线性组合成目标Y)

假设Y的估计是由X的基函数线性组成的,用h表示(取其hypothesis(假设)之意)

Y的估计=h=w1φ1(X)+w2φ2(X)+w3φ3(X)…wkφk(X)

其中的φ(X)就是基函数代表一个参数不超出X1~XM的函数,举几个例子:

φ(X)= X1

φ(X)= X1 + cos(X2)+sin(XM)

φ(X)只要是X1~XM的函数就行,意即里面的自变量只要不超出X1-XM这个范围即可,可以少,不能多。

wk则是对应φk(X)的权重

如何确定基函数形式,如何确定基函数个数是LSE最关键的部分,可以透过先验知识或问题需求来设定

**比如,**如果问题是求取Y和X的线性关系

那φ(X)就可以设成M+1个分别是:[1,X1,X2…XM]

如果是求取Y的频率分量,那则可以利用cos,sin来构建基函数


讲完以上假设,考虑组数差异,我们可以改写一下式子,加上下标n,变成

Y(n)的估计=h(n)=w1φ1(X(n))+w2φ2(X(n))+w3φ3(X(n))…wkφk(X(n))

代表了用第n组观测数据中的X对某个Y的估计结果

设定好了基函数(这个是最难的,也最关键,因为需要根据对问题的理解来设定)之后,只剩决定w1~wk啦

我们就可以阐述一下为什么这个方法叫做最小二乘估计啦~因为它的策略就是以最小化观测数据集中的Y和h的平方误差和为标准,来决定哪个p是最优的,写成式子就是:

min ⁡ p = [ p 1.. p k ] [ ∑ n = 1 N [ Y ( n ) − h ( n ) ] 2 ] \min\limits_{p=[p1..pk]}[{\sum_{n=1}^{N}[Y(n)-h(n)]^2}] p=[p1..pk]min[n=1N[Ynhn]2]

其中h(n)=w1φ1(X(n))+w2φ2(X(n))+w3φ3(X(n))…wkφk(X(n))

将N组观测数据都列出来,可以得到如下矩阵关系
最小二乘估计-LSE(Least Square Estimate)_第1张图片

将上式写成h = ϕ \phi ϕW

最小二乘优化问题 min ⁡ p = [ p 1.. p k ] [ ∑ n = 1 N [ Y ( n ) − h ( n ) ] 2 ] \min\limits_{p=[p1..pk]}[{\sum_{n=1}^{N}[Y(n)-h(n)]^2}] p=[p1..pk]min[n=1N[Ynhn]2]变成:

min ⁡ p = [ p 1.. p k ] ( Y − ϕ W ) ( Y − ϕ W ) T \min\limits_{p=[p1..pk]}{(Y-\phi W)(Y-\phi W)^T} p=[p1..pk]minYϕWYϕWT

透过乘开后对W向量微分,可以得到当

W = ϕ T ϕ − 1 ϕ T Y 时 W ={\phi ^T\phi}^{-1}\phi^TY时 W=ϕTϕ1ϕTY

二乘误差

( Y − ϕ W ) ( Y − ϕ W ) T (Y-\phi W)(Y-\phi W)^T YϕWYϕWT

达到最小

即求出

W o p t = ϕ T ϕ − 1 ϕ T Y Wopt ={\phi ^T\phi}^{-1}\phi^TY Wopt=ϕTϕ1ϕTY

将这个Wopt代入Y的估计=h=w1φ1(X)+w2φ2(X)+w3φ3(X)…wkφk(X)即求出我们对Y和X的关系的估计。

重点回顾:

(1)LSE假设Y是由X的“基函数线性构成”,注意基函数可以是非线性的,例如cos(),sin(),x1^2…

(2)如何决定基函数形式和个数是最重要的,其中每个基函数的变量都能从X1~XM任意取

(3)决定基函数后就用简单的微分解出W即可

(4)决定最优W的标准是Y和h二乘误差和最小(当然也可以定义别的误差指标,但就要换个名子啦)
(5) 什麼是估計? 為什麼這個方法叫做Least Square Estimate

你可能感兴趣的:(估計)