迭代重加权最小二乘法的理解

背景

在复现论文时,涉及到了迭代重加权最小二乘法,故此找了论文推导看了一下,然后加上了自己的一些理解,但不一定对。

参考文献:
[1]方兴,黄李雄,曾文宪,吴云.稳健估计的一种改进迭代算法[J].测绘学报,2018,47(10):1301-1306.
参考文章:
https://blog.csdn.net/baidu_35570545/article/details/55212241

一.推导

迭代重加权最小二乘法的理解_第1张图片
迭代重加权最小二乘法的理解_第2张图片

二.问题和看法

:为什么从公式(4)到公式(5),经过变换以后这个 b T b^{T} bT就放到前面去了?
: 其实在公式(4)和公式(5)中的累加部分,只有 b b b为向量,其余两个 p i p_{i} pi v i v_{i} vi都是数值。所以公式(4)是累加行向量,公式(5)是累加列向量,而且两个结果都是0。

这样理解应该也是对的, b b b为样本,当所有样本累加的时候,根据线性相关的定义,是可以让结果等于0的。肯定是超过坐标轴数 t t t的(即对 b b b组成的 B B B来说,样本数大于坐标轴数,行数 n n n>列数 t t t),也就是说所有样本放在一起肯定是线性相关的。所以不管公式(4)是累加行向量还是公式(5)是累加列向量,两个结果都是0,是相等的。——所以根据需要,我们选择使用bT,这样就得到了从公式(4)到公式(5)的转变。这么做的好处就是写成后面那种矩阵形式

甚至迭代重加权最小二乘法可以这么理解
理想情况:当所有样本行数 n n n>列数t时,所有样本应该是线性相关的,即每个向量可以找到一个系数(而在这里,这个系数显然就是 p i p_{i} pi v i v_{i} vi相乘),使得所有向量相加为0。
现实情况:数据总是有噪点,所以不可能为0,但是咱们让它尽量接近于0就可以了。所以说,从以上想法出发。
可以得到两个结论

  • 所以其实迭代重加权最小二乘法其实本质上就是要找到这个系数(利用了样本之间的线性相关性),使得各个样本之和尽量接近于0。
  • 想要使用迭代重加权最小二乘法,起码样本数,要大于坐标轴数。例如:三维坐标系下表示的坐标点,样本数起码要大于四个。 )。

补充:在公式(5)里面,b为b×t,pi和v为数值。而等价权矩阵P为n×n的矩阵,残差向量V为n×1的矩阵。

三.算法实现步骤

  1. 选取LS(常规的最小二乘法,least-squre)估计的 x ^ 0 = ( B T B ) − 1 B T l \hat{x}^{0}=(B^{T}B)^{-1}B^{T}l x^0=(BTB)1BTl为迭代初始值,求出初始残差 v 0 v^{0} v0
  2. 标准化残差得到 u u u,由 P ˉ = p i ω i = p i φ ( v i ) v i \bar{P}=p_{i}\omega_{i}=p_{i}\frac{\varphi(v_{i})}{v_{i}} Pˉ=piωi=piviφ(vi)作为每个样本的初始权重。
  3. 利用 x ^ = ( B T P ˉ B ) − 1 B T P ˉ l \hat{x}=(B^{T}\bar{P}B)^{-1}B^{T}\bar{P}l x^=(BTPˉB)1BTPˉl求得的 x ^ 1 \hat{x}^{1} x^1代替 x ^ 0 \hat{x}^{0} x^0,求得了新的残差 v 1 v^{1} v1
  4. 返回步骤(2),依次迭代计算 x ^ i \hat{x}^{i} x^i,当相邻两步的回归系数(即咱们要求的参数)的差的绝对值的最大值小于预先设定的标准误差的时,迭代结束,即 m a x ∣ x ^ i − x ^ i − 1 ∣ < ε max|\hat{x}^{i}-\hat{x}^{i-1}|<\varepsilon maxx^ix^i1<ε

1.其中 B B B是样本值系数矩阵, l l l是观测值向量, P ˉ \bar{P} Pˉ是等价权阵
2.在这里插入图片描述

你可能感兴趣的:(最小二乘法,算法,机器学习)