梯度及最小二乘估计器

符号(Notations)

(1) f f 表示多个函数的组合 f1(x)f2(x)fm(x) [ f 1 ( x ) f 2 ( x ) ⋮ f m ( x ) ]
(2) f(x) ∇ f ( x ) 表示函数 f(x) f ( x ) 的梯度
(3)粗体符号表示矢量或者矩阵,比如 x x 表示一个矢量, H H 表示一个矩阵。

2. 梯度

定义对于任意点( xRn x ∈ R n )的映射 f:RnRm f : R n → R m

f(x)=f1(x)f2(x)fm(x)=[f1(x),f2(x),,fm(x)]T(156) (156) f ( x ) = [ f 1 ( x ) f 2 ( x ) ⋮ f m ( x ) ] = [ f 1 ( x ) , f 2 ( x ) , ⋯ , f m ( x ) ] T

其中 fi(x) f i ( x ) 是一个 RnR R n → R 的映射。 f(x)xj ∂ f ( x ) ∂ x j 定义为
f(x)xj=f1(x)xjf2(x)xjfm(x)xj=[f1(x)xj,f2(x)xj,,fm(x)xj]T(157) (157) ∂ f ( x ) ∂ x j = [ ∂ f 1 ( x ) ∂ x j ∂ f 2 ( x ) ∂ x j ⋮ ∂ f m ( x ) ∂ x j ] = [ ∂ f 1 ( x ) ∂ x j , ∂ f 2 ( x ) ∂ x j , ⋯ , ∂ f m ( x ) ∂ x j ] T

上面的矢量是曲线 f(x) f ( x ) 的在点 x x 处的切矢量,它可以通过固定其余的 xiij x i ( i ≠ j ) 仅仅改变 xj x j 得到。

  1. 可导函数 f:RnRm f : R n → R m 的导数定义为

    Df(x)=[f(x)x1,f(x)x2,,f(x)xn]=f1(x)Tf2(x)Tfm(x)T=f1(x)x1,,f1(x)xnfm(x)x1,,fm(x)xnRm×n(158) (158) D f ( x ) = [ ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , ⋯ , ∂ f ( x ) ∂ x n ] = [ ∇ f 1 ( x ) T ∇ f 2 ( x ) T ⋮ ∇ f m ( x ) T ] = [ ∂ f 1 ( x ) ∂ x 1 , ⋯ , ∂ f 1 ( x ) ∂ x n ⋮ ∂ f m ( x ) ∂ x 1 , ⋯ , ∂ f m ( x ) ∂ x n ] ∈ R m × n

  2. f:RnR f : R n → R 是可导的,则函数在点 x x 处的梯度梯度 f(x) ∇ f ( x ) 可表示为

    f(x)2f(x)=Df(x)T=f(x)x1f(x)x2f(x)xnRn=f2(x)x21,,f2(x)x1xnf2(x)xnx1,,f2(x)x2nRn×n(159)(160) (159) ∇ f ( x ) = D f ( x ) T = [ ∂ f ( x ) ∂ x 1 ∂ f ( x ) ∂ x 2 ⋮ ∂ f ( x ) ∂ x n ] ∈ R n (160) ∇ 2 f ( x ) = [ ∂ f 2 ( x ) ∂ x 1 2 , ⋯ , ∂ f 2 ( x ) ∂ x 1 ∂ x n ⋮ ∂ f 2 ( x ) ∂ x n ∂ x 1 , ⋯ , ∂ f 2 ( x ) ∂ x n 2 ] ∈ R n × n

3. Example:线性高斯模型的最小二乘解

y=Hx+n(731) (731) y = H x + n

其中 xRn x ∈ R n , HRm×n H ∈ R m × n 是观测矩阵, nN(μ,σ2I) n ∼ N ( μ , σ 2 I ) yRm y ∈ R m 是观测向量。
解:最小二乘估计器为
x^=argminxyHx(732) (732) x ^ = arg min x ‖ y − H x ‖

J=yHx2 J = ‖ y − H x ‖ 2
J=(yHx)T(yHx)=yTyyTHxxTHTy+xTHTHx(733)(734) (733) J = ( y − H x ) T ( y − H x ) (734) = y T y − y T H x − x T H T y + x T H T H x

求梯度
J=2HTy+2HTHx(735) (735) ∇ J = − 2 H T y + 2 H T H x

令梯度等于0,有
x^=(HTH)1HTy(736) (736) x ^ = ( H T H ) − 1 H T y

因此线性高斯模型的最小二乘估计器为 x^=(HTH)1HTy x ^ = ( H T H ) − 1 H T y

Remarks 最小二乘估计器的优点就是不用考虑噪声 n n 的分布,当噪声能量很小时,最小二乘估计器的性能会逐渐趋于克拉美-罗下限(CRLB),但,随着噪声的能量增大,最小二乘估计器的性能会逐渐变差。

4. Examp: 求 f(x) f ( x ) 的梯度

f(x) f ( x ) 的梯度

f(x)=aTx(332) (332) f ( x ) = a T x

其中 f:RnR f : R n → R , aRn a ∈ R n 是常数, xRn x ∈ R n 是自变量矢量。现在求 f(x) f ( x ) 的梯度
解:
f(x)=aTx=a1x1+a2x2++anxn(333) (333) f ( x ) = a T x = a 1 x 1 + a 2 x 2 + ⋯ + a n x n

f(x)=f(x)x1f(x)x2f(x)xn=a1a2an=aRn(334) (334) ∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 ∂ f ( x ) ∂ x 2 ⋮ ∂ f ( x ) ∂ x n ] = [ a 1 a 2 ⋮ a n ] = a ∈ R n

你可能感兴趣的:(凸优化,随笔,梯度,最小二乘法)