李航老师《统计学习方法》第二版第六章答案

1、确认逻辑斯谛分布属于指数分布族。

证明:
逻辑斯谛分布的概率密度函数是:
f ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 (1) f(x) = \frac{e^{-(x-\mu )/\gamma } }{\gamma (1+e^{-(x-\mu )/\gamma})^{2} } \tag{1} f(x)=γ(1+e(xμ)/γ)2e(xμ)/γ(1)
而指数族分布是指概率密度函数可以表示为下面的形式:
p ( x ) = h ( x ) e θ T T ( x ) − A ( θ ) (2) p(x) = h(x)e^{\theta ^{T}T(x)-A(\theta ) } \tag{2} p(x)=h(x)eθTT(x)A(θ)(2)
在式(1)中取
h ( x ) = 1 γ ( 1 + e − ( x − μ ) / γ ) 2 (3) h(x) = \frac{1}{\gamma (1+e^{-(x-\mu )/\gamma})^{2}} \tag{3} h(x)=γ(1+e(xμ)/γ)21(3)
因而易知逻辑斯蒂的概率密度函数符合式(2).
得证!!!

2、写出逻辑斯谛回归模型学习的梯度下降算法。

解:
二项逻辑斯蒂回归模型是如下的条件概率:
P ( Y = 1 ∣ x ) = e w x + b 1 + e w x + b (1) P(Y = 1|x) = \frac{e^{wx+b} }{1+e^{wx+b}} \tag{1} P(Y=1x)=1+ewx+bewx+b(1)
P ( Y = 0 ∣ x ) = 1 1 + e w x + b (2) P(Y = 0|x) = \frac{1}{1+e^{wx+b}} \tag{2} P(Y=0x)=1+ewx+b1(2)
因而关键在于求出公式里面的参数 w w w,就可以得到所需的模型
使用几率概念和极大似然估计可以得到如下的目标函数:
L ( w ) = ∑ i = 1 N [ y i ( w ∗ x 1 ) − l o g ( 1 + e w ∗ x 1 ) ] (3) L(w) = \sum_{i = 1}^{N}[y_{i}(w*x_{1})-log(1+e^{w*x_{1}})] \tag{3} L(w)=i=1N[yi(wx1)log(1+ewx1)](3)
公式(3)里面的参数 w w w和公式(1),(2)里面的参数是一样的,(3)里面的参数维度比(1),(2)高一个,也就是扩充之后的。注意一下就好了。
梯度下降算法是最好里面的优化方法之一,也是比较基础的,主要思想就是:利用梯度方向是函数增长最快的方向,那么负梯度方向就是减小最快的方向,比较简单,主要步骤是:求导,计算下降的步长,更新参数,计算当前的参数是否满足迭代终止条件,不满足继续迭代。
如果对这个无约束优化方法还有什么不懂得,建议拿这个题目强化一下。

3、写出最大熵模型学习的DFP算法。(关于一般的DFP算法参见附录B)

解:
如果本科是数学方向,或者学习过最优化方法,运筹学的同学都知道,牛顿法的需要求解一个方程组,方程组的系数矩阵是一个黑塞矩阵,黑塞矩阵的计算涉及到二阶偏导数,计算导数需要极限逼近,也很麻烦,除了要求黑塞矩阵之外,我们要求出一个黑塞矩阵的逆矩阵。
拟牛顿法和DFP算法都是对牛顿法的改进版,省略了一些计算的麻烦。
如果你会第二题,那么这一题也就很简单,关键是你如何取理解这两个算法的思想。

牛顿法的思想主要是采用了泰勒展开式来逼近原来的目标函数,由于展开之后的是多项式,无论是求导还是计算都很方便,当展开到二阶导数的时候,局部逼近的思想已经很nice了,但关键就是有个黑塞矩阵的计算,于是就有了拟牛顿和DFP这些改进算法,使得计算更加快。其实后面两个改进算法唯一一个需要考虑的地方就是如何更好的逼近黑塞矩阵。

好了,算法流程就不写了,如果是套模板的话,谁都会,关键是如何理解算法。这次的课后习题是最简单轻松的一次了,其他的课后题都要做很长的时间。

你可能感兴趣的:(统计学习方法第二版,机器学习,算法,人工智能)