先从维纳滤波器说起,M阶维纳滤波的模型为
(1) e ( n ) = d ( n ) − W H U ( n ) e(n) = d(n) - W^HU(n) \tag{1} e(n)=d(n)−WHU(n)(1)
其中 W = [ W ( 0 ) , ⋯   , W ( M − 1 ) ] T , U ( n ) = [ U ( 0 ) , ⋯   , U ( M − 1 ) ] T W=[W(0),\cdots,W(M-1)]^T,U(n) = [U(0),\cdots,U(M-1)]^T W=[W(0),⋯,W(M−1)]T,U(n)=[U(0),⋯,U(M−1)]T
Cost function为 J ( W ) = E [ ∣ e ( n ) ∣ 2 ] J(W) = E[|e(n)|^2] J(W)=E[∣e(n)∣2]。
我们的目的是:
W o p t = arg min W J ( W ) W_{opt} = \arg \min_W J(W) Wopt=argWminJ(W)
我们着手来解这个最优化问题
(2) J ( W ) = E [ ∣ e ( n ) ∣ 2 ] = E [ e ( n ) e ∗ ( n ) ] = E [ ( d ( n ) − W H U ( n ) ) ( d ∗ ( n ) − U H ( n ) W ) ] = E [ ∣ d ( n ) ∣ 2 − d ( n ) U H ( n ) W − W H U ( n ) d ∗ ( n ) − W H U ( n ) U H ( n ) W ] = σ d 2 − E [ d ( n ) U H ( n ) ] W − W H E [ U ( n ) d ∗ ( n ) ] + W H E [ U H ( n ) U ( n ) ] W = σ d 2 − P H W − W H P + W H R W \begin{aligned} J(W) &= E[|e(n)|^2]\\ &= E[e(n)e^*(n)]\\ &= E[(d(n)- W^HU(n))(d^*(n)-U^H(n)W)]\\ &= E[|d(n)|^2-d(n)U^H(n)W-W^HU(n)d^*(n)-W^HU(n)U^H(n)W]\\ &= \sigma_d^2-E[d(n)U^H(n)]W-W^HE[U(n)d^*(n)]+W^HE[U^H(n)U(n)]W\\ &=\sigma_d^2-P^HW-W^HP+W^HRW \end{aligned} \tag{2} J(W)=E[∣e(n)∣2]=E[e(n)e∗(n)]=E[(d(n)−WHU(n))(d∗(n)−UH(n)W)]=E[∣d(n)∣2−d(n)UH(n)W−WHU(n)d∗(n)−WHU(n)UH(n)W]=σd2−E[d(n)UH(n)]W−WHE[U(n)d∗(n)]+WHE[UH(n)U(n)]W=σd2−PHW−WHP+WHRW(2)
根据上式可知,目标函数 J ( W ) J(W) J(W)是变量 W W W的二次型多项式,开口向上。因此,目标函数存在全局最小值,且 W o p t = { W ∣ ∂ J ( W ) ∂ W = 0 } W_{opt} = \{ W| \frac{\partial J(W)}{\partial W}=0\} Wopt={W∣∂W∂J(W)=0}
(3) 0 = ∂ J ( W ) ∂ W = 2 R W o p t − 2 P 0 = \frac{\partial J(W)}{\partial W} =2RW_{opt}-2P \tag{3} 0=∂W∂J(W)=2RWopt−2P(3)
于是解上式可得最优解为
(4) W o p t = R − 1 P W_{opt} = R^{-1}P \tag{4} Wopt=R−1P(4)
最小误差为
J ( W ) m i n = J ( W o p t ) = σ d 2 − p H R − 1 P J(W)_{min} = J(W_{opt}) = \sigma_d^2-p^HR^{-1}P J(W)min=J(Wopt)=σd2−pHR−1P
事实上,虽然Winner滤波问题存在最优解,但是求逆过程带来的反面影响就是计算复杂度较高。因此,引入迭代求解的思路。
目的是根据新的数据调整Winner Filter的系数 W W W。思路如下公式得出
(4.5) W ( n + 1 ) = W ( n ) − 1 2 μ ∂ J ( W ) ∂ W W(n+1) = W(n) - \frac{1}{2}\mu\frac{\partial J(W)}{\partial W} \tag{4.5} W(n+1)=W(n)−21μ∂W∂J(W)(4.5)
将(3)式的梯度带入到上式子可得系数 W W W的更新如下
(5) W ( n + 1 ) = W ( n ) + μ ( P − R W ( n ) ) W(n+1) =W(n) +\mu(P - RW(n)) \tag{5} W(n+1)=W(n)+μ(P−RW(n))(5)
LMS的Cost Function为
(6) J M S ( W ) = ∣ e ( n ) ∣ 2 J_{MS}(W) = |e(n)|^2 \tag{6} JMS(W)=∣e(n)∣2(6)
与Winner模型相比,去掉了期望。
与(2)式对应,化简 J M S ( W ) J_{MS}(W) JMS(W), 如下
(7) J M S ( W ) = ∣ e ( n ) ∣ 2 = e ( n ) e ∗ ( n ) = ( d ( n ) − W H U ( n ) ) ( d ∗ ( n ) − U H ( n ) W ) = ∣ d ( n ) ∣ 2 − d ( n ) U H ( n ) W − W H U ( n ) d ∗ ( n ) − W H U ( n ) U H ( n ) W = σ d 2 − d ( n ) U H ( n ) W − W H U ( n ) d ∗ ( n ) + W H U H ( n ) U ( n ) W \begin{aligned} J_{MS}(W) &= |e(n)|^2\\ &= e(n)e^*(n)\\ &= (d(n)- W^HU(n))(d^*(n)-U^H(n)W)\\ &= |d(n)|^2-d(n)U^H(n)W-W^HU(n)d^*(n)-W^HU(n)U^H(n)W\\ &= \sigma_d^2-d(n)U^H(n)W-W^HU(n)d^*(n)+W^HU^H(n)U(n)W\\ \end{aligned} \tag{7} JMS(W)=∣e(n)∣2=e(n)e∗(n)=(d(n)−WHU(n))(d∗(n)−UH(n)W)=∣d(n)∣2−d(n)UH(n)W−WHU(n)d∗(n)−WHU(n)UH(n)W=σd2−d(n)UH(n)W−WHU(n)d∗(n)+WHUH(n)U(n)W(7)
所以
(8) ∂ J M S ( W ) ∂ W = 2 U ( n ) U H ( n ) W − 2 U ( n ) d ∗ ( n ) \frac{\partial J_{MS}(W)}{\partial W} = 2U(n)U^H(n)W-2U(n)d^*(n) \tag{8} ∂W∂JMS(W)=2U(n)UH(n)W−2U(n)d∗(n)(8)
考虑 J M S ( W ) J_{MS}(W) JMS(W)没有对输入数据取平均,因此认为输入数据是随机的,直接将(8)式带入到梯度下降式(5)中便可得到随机梯度下降模型的权重更新公式
W ( n + 1 ) = W ( n ) + μ ( U ( n ) d ∗ ( n ) − U ( n ) U H ( n ) W ( n ) ) = W ( n ) + μ U ( n ) ( d ∗ ( n ) − U H ( n ) W ( n ) ) = W ( n ) + μ U ( n ) e ∗ ( n ) \begin{aligned}W(n+1) &= W(n) + \mu(U(n)d^*(n)-U(n)U^H(n)W(n))\\ &=W(n )+ \mu U(n)(d^*(n) - U^H(n)W(n))\\ &= W(n) + \mu U(n)e^*(n) \end{aligned} W(n+1)=W(n)+μ(U(n)d∗(n)−U(n)UH(n)W(n))=W(n)+μU(n)(d∗(n)−UH(n)W(n))=W(n)+μU(n)e∗(n)
事实上,对于Winner Filter的目标函数 J ( w ) J(w) J(w)是用了集平均,依赖于输入数据的先验统计特征;LMS的随机梯度下降只依赖当前新样本,具有一定的随机性;而最小二乘通过处理具有一定长度的数据块,即摆脱了对于输入数据先验统计特征的依赖,也避免了只依赖于当前数据所带来的随机性。
于Winner Filer和LMS不同,最小二乘的Cost Function为 J S ( W ) = ∑ i = M N ∣ e ( n ) ∣ 2 J_S(W) = \sum\limits_{i = M}^{N}|e(n)|^2 JS(W)=i=M∑N∣e(n)∣2
下面进行计算
J S ( W ) = ∑ n = M N ∣ e ( n ) ∣ 2 = ∑ n = M N ( ∣ d ( n ) ∣ 2 − d ( n ) U H ( n ) W − W H U ( n ) d ∗ ( n ) − W H U ( n ) U H ( n ) W ) = d H d − d H A W − W H A H d − W H A H A W \begin{aligned} J_S(W) &= \sum\limits_{n = M}^N|e(n)|^2\\ &= \sum\limits_{n = M}^N(|d(n)|^2-d(n)U^H(n)W-W^HU(n)d^*(n)-W^HU(n)U^H(n)W) \\ &= d^Hd-d^HAW-W^HA^Hd -W^HA^HAW \end{aligned} JS(W)=n=M∑N∣e(n)∣2=n=M∑N(∣d(n)∣2−d(n)UH(n)W−WHU(n)d∗(n)−WHU(n)UH(n)W)=dHd−dHAW−WHAHd−WHAHAW
其中 d = [ d ( M ) , ⋯   , d ( N − M + 1 ) ] T , A = [ U ( M ) , ⋯   , U ( N ) ] H d = [d(M),\cdots,d(N-M+1)]^T,A=[U(M),\cdots,U(N)]^H d=[d(M),⋯,d(N−M+1)]T,A=[U(M),⋯,U(N)]H。
与Winner Filter相似,可以发现 J S ( W ) J_S(W) JS(W)有全局最优解, W o p t = { W ∣ ∂ J S ( W ) ∂ W = 0 } W_{opt} = \{W|\frac{\partial J_S(W)}{\partial W}=0\} Wopt={W∣∂W∂JS(W)=0}
0 = ∂ J S ( W ) ∂ W = 2 A H A W o p t − 2 A H d 0=\frac{\partial J_S(W)}{\partial W} = 2A^HAW_{opt}-2A^Hd 0=∂W∂JS(W)=2AHAWopt−2AHd
即 W o p t = ( A H A ) − 1 A H d W_{opt} = (A^HA)^{-1}A^Hd Wopt=(AHA)−1AHd
最小误差为
J S ( W ) m i n = J S ( W o p t ) = d H d − ( A H d ) H ( A H A ) − 1 ( A H d ) = d H d − d H A ( A H A ) − 1 A H d J_{S}(W)_{min} = J_{S}(W_{opt}) = d^Hd-(A^Hd)^H(A^HA)^{-1}(A^Hd)=d^Hd-d^HA(A^HA)^{-1}A^Hd JS(W)min=JS(Wopt)=dHd−(AHd)H(AHA)−1(AHd)=dHd−dHA(AHA)−1AHd
事实上,上式中的 A ( A H A ) − 1 A H A(A^HA)^{-1}A^H A(AHA)−1AH即为投影算子。
同Winner Filter遇到的问题一样,LS虽然有全局最优解,但是每次求解过程中的求逆运算增大了计算复杂度,于是引入迭代最小二乘。