西瓜书《机器学习》课后答案——Chapter3

3.2 试证明,对于参数 ω ω ,,对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的。
解答:

定理:设 f(x) f ( x ) 是定义在非空开集 DRn D ⊂ R n 上的二次可微函数,则 f(x) f ( x ) 是凸函数的充要条件是在任意点 xD x ∈ D 处, f(x) f ( x ) 的Hessian矩阵半正定。

无论是目标函数,还是对数似然函数,二次可微的条件是成立的。所以,只需要判断函数是否满足在任意点处的Hessian矩阵半正定。

y=11+e(ωTx+b)(1) (1) y = 1 1 + e − ( ω T x + b )

yω=e(ωTx+b)(1+e(ωTx+b))2x(2) (2) ∂ y ∂ ω = e − ( ω T x + b ) ( 1 + e − ( ω T x + b ) ) 2 x

2yωωT=ωTyω=ωTe(ωTx+b)(1+e(ωTx+b))2x=e(ωTx+b)(1e(ωTx+b))(1+e(ωTx+b))3xxT=y(1y)(12y)xxT(1)(2)(3)(3) (1) ∂ 2 y ∂ ω ∂ ω T = ∂ ∂ ω T ∂ y ∂ ω (2) = ∂ ∂ ω T e − ( ω T x + b ) ( 1 + e − ( ω T x + b ) ) 2 x (3) = e − ( ω T x + b ) ( 1 − e − ( ω T x + b ) ) ( 1 + e − ( ω T x + b ) ) 3 x x T (3) = y ( 1 − y ) ( 1 − 2 y ) x x T

矩阵 xxT x x T 是半正定矩阵。而 y(1y)(12y) y ( 1 − y ) ( 1 − 2 y ) y(12,1) y ∈ ( 1 2 , 1 ) 上是小于0的。所以Hessian矩阵并不能保证总是非负的,即函数(1)是非凸的。

l=i=1m(yiβTx^i+ln(1+eβTx^i))(4) (4) l = ∑ i = 1 m ( − y i β T x ^ i + ln ⁡ ( 1 + e β T x ^ i ) )

lβ=i=1m(yix^i+eβTx^i1+eβTx^ix^i)(5) (5) ∂ l ∂ β = ∑ i = 1 m ( − y i x ^ i + e β T x ^ i 1 + e β T x ^ i x ^ i )

2lββT=βTlβ=βTi=1m(yix^i+eβTx^i1+eβTx^ix^i)=i=1meβTx^i(1+eβTx^i)2x^ix^Ti(4)(5)(6)(6) (6) (4) ∂ 2 l ∂ β ∂ β T = ∂ ∂ β T ∂ l ∂ β (5) = ∂ ∂ β T ∑ i = 1 m ( − y i x ^ i + e β T x ^ i 1 + e β T x ^ i x ^ i ) (6) = ∑ i = 1 m e β T x ^ i ( 1 + e β T x ^ i ) 2 x ^ i x ^ i T

因为 eβTx^i(1+eβTx^i)2>0 e β T x ^ i ( 1 + e β T x ^ i ) 2 > 0 ,矩阵 x^ix^Ti x ^ i x ^ i T 半正定,所以 2lββT ∂ 2 l ∂ β ∂ β T 也是半正定的,所以函数(4)是凸函数。

3.3 西瓜书《机器学习》课后答案——Chapter3_3.3

3.4 西瓜书《机器学习》课后答案——Chapter3_3.4

3.5 西瓜书《机器学习》课后答案——Chapter3_3.5

你可能感兴趣的:(机器学习)