这是我写的第一篇博文。在CSDN潜水很久了,受到了很多前辈的帮助,打算开始学习写博文,能够帮助自己总结知识,学习使用Markdown,还能和大家交流,我是小白一只,如果觉得文中有什么问题,或是排版的建议,欢迎大家不吝指教啦~谢谢!
最小二乘估计是一种估计(Estimate)的方法,什么是估计?
估计:字面上的意思即是对事物进行推断,和猜测的含意是很接近的,所以会混着用。
  我们透过已有的信息,对未知的事物进行猜测即是估计,而猜测的方法有很多,你可以毫无根据的瞎猜,也可以依据某些策略进行猜测,这些都叫做估计,但显而易见的是,不同的估计方法(估计策略)会带来性能的差异,而本文要介绍的最小二乘估计(LSE)就是一种估计方法(猜测策略)。
那就开始介绍LSE啦~LSE要解决的问题是:透过观测到的X,Y数据,如何猜测X和Y之间的关系,假设M个X对应某个Y,共有N组观测数据,X和某个Y的关系可以表示成如下形式:
X(1) = [X1(1),X2(1),X3(1)…XM(1)]->Y(1)
X(2) = [X1(2),X2(2),X3(2)…XM(2)]->Y(2)
…
X(N) = [X1(N),X2(N),X3(N)…XM(N)]->Y(N) **重点:**第n组X,即X(n),有M个数据
X(n)代表是第n组X数据,Xm(n)代表是第n个数据X的第m变量
“->”代表了某种映射关系,如何透过观测数据猜测这种映射关系就是我们关心的。
LSE做了如下假设:(基函数线性组合成目标Y)
假设Y的估计是由X的基函数线性组成的,用h表示(取其hypothesis(假设)之意)
即
Y的估计=h=w1φ1(X)+w2φ2(X)+w3φ3(X)…wkφk(X)
其中的φ(X)就是基函数代表一个参数不超出X1~XM的函数,举几个例子:
φ(X)= X1
φ(X)= X1 + cos(X2)+sin(XM)
φ(X)只要是X1~XM的函数就行,意即里面的自变量只要不超出X1-XM这个范围即可,可以少,不能多。
wk则是对应φk(X)的权重
如何确定基函数形式,如何确定基函数个数是LSE最关键的部分,可以透过先验知识或问题需求来设定
**比如,**如果问题是求取Y和X的线性关系
那φ(X)就可以设成M+1个分别是:[1,X1,X2…XM]
如果是求取Y的频率分量,那则可以利用cos,sin来构建基函数
Y(n)的估计=h(n)=w1φ1(X(n))+w2φ2(X(n))+w3φ3(X(n))…wkφk(X(n))
代表了用第n组观测数据中的X对某个Y的估计结果
设定好了基函数(这个是最难的,也最关键,因为需要根据对问题的理解来设定)之后,只剩决定w1~wk啦
我们就可以阐述一下为什么这个方法叫做最小二乘估计啦~因为它的策略就是以最小化观测数据集中的Y和h的平方误差和为标准,来决定哪个p是最优的,写成式子就是:
min p = [ p 1.. p k ] [ ∑ n = 1 N [ Y ( n ) − h ( n ) ] 2 ] \min\limits_{p=[p1..pk]}[{\sum_{n=1}^{N}[Y(n)-h(n)]^2}] p=[p1..pk]min[∑n=1N[Y(n)−h(n)]2]
其中h(n)=w1φ1(X(n))+w2φ2(X(n))+w3φ3(X(n))…wkφk(X(n))
将上式写成h = ϕ \phi ϕW
最小二乘优化问题 min p = [ p 1.. p k ] [ ∑ n = 1 N [ Y ( n ) − h ( n ) ] 2 ] \min\limits_{p=[p1..pk]}[{\sum_{n=1}^{N}[Y(n)-h(n)]^2}] p=[p1..pk]min[∑n=1N[Y(n)−h(n)]2]变成:
min p = [ p 1.. p k ] ( Y − ϕ W ) ( Y − ϕ W ) T \min\limits_{p=[p1..pk]}{(Y-\phi W)(Y-\phi W)^T} p=[p1..pk]min(Y−ϕW)(Y−ϕW)T
透过乘开后对W向量微分,可以得到当
W = ϕ T ϕ − 1 ϕ T Y 时 W ={\phi ^T\phi}^{-1}\phi^TY时 W=ϕTϕ−1ϕTY时
二乘误差
( Y − ϕ W ) ( Y − ϕ W ) T (Y-\phi W)(Y-\phi W)^T (Y−ϕW)(Y−ϕW)T
达到最小
即求出
W o p t = ϕ T ϕ − 1 ϕ T Y Wopt ={\phi ^T\phi}^{-1}\phi^TY Wopt=ϕTϕ−1ϕTY
将这个Wopt代入Y的估计=h=w1φ1(X)+w2φ2(X)+w3φ3(X)…wkφk(X)即求出我们对Y和X的关系的估计。
重点回顾:
(1)LSE假设Y是由X的“基函数线性构成”,注意基函数可以是非线性的,例如cos(),sin(),x1^2…
(2)如何决定基函数形式和个数是最重要的,其中每个基函数的变量都能从X1~XM任意取
(3)决定基函数后就用简单的微分解出W即可
(4)决定最优W的标准是Y和h二乘误差和最小(当然也可以定义别的误差指标,但就要换个名子啦)
(5) 什麼是估計? 為什麼這個方法叫做Least Square Estimate