第一周【任务2】无约束最优化

任务名称: 极大似然估计以及优化理论

任务简介:学习和阅读花书3-4章,观看并理解讲解视频(极大似然估计 、无约束优化 、有约束优化)

任务详解:

1、学习花书3-4章内容,重点关注:

2、观看讲解视频,进一步理解下列知识点:

  • 极大似然估计,以及用极大似然估计来估计高斯分布的参数
  • 从极大似然估计的角度重新看多元线性回归,与最小二乘的等价性
  • 无约束最优化,梯度下降法,梯度的思想来源与推导。牛顿法的两种解释
  • 有约束优化,拉格朗日乘子法的直观意义,等式约束,不等式约束,kkt条件

打卡要求:打卡提交作业(不少于2张图片,不少于20字)

a. 理解以及会运用极大似然估计,完成浙大概率论与数理统计第四版p174的第11题(截图或拍照,然后打卡提交作业)

b.求函数 z = x exp ⁡ ( 2 y ) z=x\exp(2y) z=xexp(2y)在(1,1)点的梯度(需打卡提交作业)

c. 理解梯度下降,理解牛顿法,理解kkt条件

1.浙大概率论与数理统计第四版p174的第11题

(1) 最大似然估计量

首先我们有对数似然函数
L = ln ⁡ [ P ( x 1 ; θ ) P ( x 2 ; θ ) ⋯ P ( x n ; θ ) ] = ln ⁡ [ 1 θ x 1 1 − θ θ 1 θ x 2 1 − θ θ ⋯ 1 θ x n 1 − θ θ ] = − n ln ⁡ θ + 1 − θ θ [ ∑ i = 1 n ln ⁡ x i ] L=\ln \left[P\left(x_{1} ; \theta\right) P\left(x_{2} ; \theta\right) \cdots P\left(x_{n} ; \theta\right)\right]=\ln[\frac{1}{\theta}x_1^{\frac{1-\theta}{\theta}} \frac{1}{\theta}x_2^{\frac{1-\theta}{\theta}}\cdots \frac{1}{\theta}x_n^{\frac{1-\theta}{\theta}}]\\ =-n\ln\theta + \frac{1-\theta}{\theta}[\sum_{i=1}^{n}\ln x_i] L=ln[P(x1;θ)P(x2;θ)P(xn;θ)]=ln[θ1x1θ1θθ1x2θ1θθ1xnθ1θ]=nlnθ+θ1θ[i=1nlnxi]
然后求导取0:
∂ L ∂ θ = − n θ + − θ − ( 1 − θ ) θ 2 [ ∑ i = 1 n ln ⁡ x i ] = − n θ + − 1 θ 2 [ ∑ i = 1 n ln ⁡ x i ] = 0 ⇒ θ ^ = − 1 n [ ∑ i = 1 n ln ⁡ x i ] \frac{\partial L}{\partial \theta}=-\frac{n}{\theta}+\frac{-\theta-(1-\theta)}{\theta^2}[\sum_{i=1}^{n}\ln x_i] = -\frac{n}{\theta}+\frac{-1}{\theta^2}[\sum_{i=1}^{n}\ln x_i]=0 \Rightarrow \hat{\theta} = -\frac{1}{n}[\sum_{i=1}^{n}\ln x_i] θL=θn+θ2θ(1θ)[i=1nlnxi]=θn+θ21[i=1nlnxi]=0θ^=n1[i=1nlnxi]

(2)证明 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计量

我们已经有 θ ^ = − 1 n [ ∑ i = 1 n ln ⁡ x i ] \hat{\theta} = -\frac{1}{n}[\sum_{i=1}^{n}\ln x_i] θ^=n1[i=1nlnxi],因此令
E [ θ ^ ] = E [ − 1 n [ ∑ i = 1 n ln ⁡ x i ] ] = − 1 n ∑ i = 1 n E [ ln ⁡ x i ] E[\hat{\theta}]=E[-\frac{1}{n}[\sum_{i=1}^{n}\ln x_i]]=-\frac{1}{n}\sum_{i=1}^{n}E[\ln x_i] E[θ^]=E[n1[i=1nlnxi]]=n1i=1nE[lnxi]
我们就要求
E [ ln ⁡ x ] = ∫ 0 1 ln ⁡ x × 1 θ x 1 − θ θ d x = ∫ 0 1 ln ⁡ x ⋅ d ( x 1 θ ) = x 1 θ ln ⁡ x ∣ 0 1 − ∫ 0 1 x 1 θ d ( ln ⁡ x ) = 0 − 0 − θ ∫ 0 1 1 θ x 1 θ − 1 d x = 0 − θ = − θ E[\ln x] = \int^1_{0}\ln x\times \frac{1}{\theta}x^{\frac{1-\theta}{\theta}}dx=\int^{1}_{0}\ln x\cdot d(x^{\frac{1}{\theta}})=\left.x^{\frac{1}{\theta}} \ln x\right|_{0} ^{1} - \int^{1}_{0}x^{\frac{1}{\theta}}d(\ln x) \\ = 0 - 0 - \theta \int^{1}_{0} \frac{1}{\theta}x^{\frac{1}{\theta}-1}dx=0 - \theta=-\theta E[lnx]=01lnx×θ1xθ1θdx=01lnxd(xθ1)=xθ1lnx0101xθ1d(lnx)=00θ01θ1xθ11dx=0θ=θ
所以
E [ θ ^ ] = − 1 n ∑ i = 1 n E [ ln ⁡ x i ] = − 1 n n ( − θ ) = θ E[\hat{\theta}]=-\frac{1}{n}\sum_{i=1}^{n}E[\ln x_i]=-\frac{1}{n}n(-\theta)= \theta E[θ^]=n1i=1nE[lnxi]=n1n(θ)=θ
因此 θ ^ \hat{\theta} θ^ θ \theta θ的无偏估计量

2.求 z = x exp ⁡ ( 2 y ) z=x\exp(2y) z=xexp(2y)在(1, 1)点梯度

z = f ( x , y ) = x exp ⁡ ( 2 y ) z=f(x, y)=x\exp(2y) z=f(x,y)=xexp(2y),因此
∇ f = ( ∂ f ∂ x , ∂ f ∂ y ) = ∂ f ∂ x i + ∂ f ∂ y j = exp ⁡ ( 2 y ) i + 2 x exp ⁡ ( 2 y ) j \nabla f=\left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right)=\frac{\partial f}{\partial x} \mathbf{i}+\frac{\partial f}{\partial y} \mathbf{j} = \exp(2y)\mathbf{i}+2x\exp(2y) \mathbf{j} f=(xf,yf)=xfi+yfj=exp(2y)i+2xexp(2y)j
在(1, 1), 有 exp ⁡ ( 2 ) i + 2 exp ⁡ ( 2 y ) j \exp(2)\mathbf{i}+2\exp(2y) \mathbf{j} exp(2)i+2exp(2y)j

你可能感兴趣的:(深度学习花书第7期)