Andrew NG 机器学习课程笔记(四)

牛顿法以及广义线性模型

 

 

 

1.牛顿法

 

之前使用的解最大似然估计的方法是梯度上升法,本节课讲了牛顿法,这使得结果能够迅速收敛

NG老师上来从求解f(theta)=0这个方程开始讲起,如果想找到零点,我们可以采取下面的策略:


 

如上图所示,蓝色的曲线是f(theta),横坐标是theta,纵坐标是f(theta)1这个点处对应的Xtheta的初值(自己赋的),在这个点出做曲线的切线,与X轴交于2这个点,然后2对应的f(theta)就是3,重复这个过程,直到f(theta)=0.

这本身是个迭代的过程,数学表达式为:


当然,前提得是可导。

当应用到之前求解最大化似然函数的时候,就变成:


因为这时要求l(theta)的导数为0.

以上是当theta为一维的时候,当theta为一个向量的时候二阶导数就涉及到汉森矩阵了,一阶就是梯度。如下所示:


 


牛顿法相对于梯度下降,收敛为平方收敛,梯度下降为线性收敛,速度更快,但由于每次迭代都需要计算汉森矩阵,导致运算量很大。对大数据不合适。

 

 

 

2.广义线性模型

 

之前所讲的线性回归和逻辑回归,都是广义线性模型的一种,现在我们从广义线性模型出发可以解释线性回归模型和逻辑回归模型的概率意义。

首先介绍一个指数分布簇:

若某个随机变量Y的概率分布可以写成如下形式


其中η是影响Y的参数,大多数分布中它是一个实数,某些分布中可能是一个向量。这里的Ty)是变量Y的充分统计量。上述的概率分布形式称作指数分布族形式。广义线性模型基于的假设也是从指数分布族开始。

广义线性模型基于如下三个假设:

1P(y|x;θ) ~Expfamily(η)。在我们的样本特征X,参数为θ的条件下,我们的预测值Y的概率分布可以写成指数分布族的形式。

2)对于输入的X,我们总是需要输出一个预测值Y。在广义线性模型中,预测函数Y=hθ(x)=E[T(y)|x]

3)自然参数ηθx的关系:广义线性模型中我们假设η=θTX。在大部分情况下,η是一个实数。在少数概率分布情况中,η是一个向量,那么ηi =θiX

从第三个假设可以看出,广义线性模型的核心假设是自变量X是通过线性组合的方式影响因变量的,因此基于这种假设才被称为广义线性模型。前面说到线性回归、逻辑回归都是广义线性模型的特例。

 

 

针对于线性回归,推导如下:


 

Andrew NG 机器学习课程笔记(四)_第1张图片

 

 

 

针对逻辑回归:

Andrew NG 机器学习课程笔记(四)_第2张图片

于是,之前的疑问都解释清楚了!

 

最后,叙述一下逻辑回归的一个扩展,就是softmax回归:

这里就是把两类问题扩展到了多类问题,之前只有一个fai,现在扩展到了k-1个(K类),最后一个可以用1减去其他的,也就是参数变成了K-1个然后Ty)是个k-1维的向量了,不再是y了。其他跟前面一样,继续根据假设二得到预测函数,根据假设三得到最大似然估计,进而求得fai

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Andrew NG 机器学习课程笔记(四))