CS229学习笔记（三）——广义线性模型（Generalized Linear Models）

在我们的回归问题中，~，在我们的分类问题中，有~。在本节中，我们会看到这两种情况仅是广义线性模型（Generalized Linear Models, GLMs）的特殊情形。

（一）指数族（The exponential family）

指数族中的分布可以写成下式：

式中，我们称为f分布的自然参数或者标准参数（natural parameter 或者 canonical parameter），为充分统计量（sufficient statistic）（我们考虑的分布中，一般）,称为对数分割函数（log partition function），起到归一化常数的作用，使得分布对所有的积分/和为1。

下面我们开始证明伯努利和高斯分布属于指数族分布。分布表示，;。当变化时，我们得到不同均值的伯努利分布。拥有变化的值的伯努利分布属于指数族，即通过选择T, a, b可以将前面的等式变为伯努利分布的形式。

我们将伯努利分布写为下列形式：

因此，自然参数，所以，与S型函数形式相似。

其他参数的表达形式为：

让我们再来考虑高斯函数，回忆一下，当我们在推导线性回归时，参数对最终和的选择并无影响，为了简化推导，我们令，则：

所以：

还有许多分布属于指数族：多项分布（multinomial）、泊松分布、伽马和指数分布、贝塔和耿里克雷分布等等。

（二）构建广义线性模型（Constructing GLMs）

假设你现在要在给定的特征量，例如商品促销，天气，一周中的某一天等，去建模预测给定时间内到店里的顾客人数（或者网页的访问量）。我们知道，对于该类问题，我们一般选用泊松分布。幸运的是，泊松分布是一类指数族分布，所以我们可以使用广义线性模型。本节将介绍如何构建GLM模型解决该类问题。

更普遍地，我们考虑一类分类或者回归问题，通过的函数去预测随机变量的值。为了该问题的导出广义线性模型，我们给出关于给定的的情况分布和我们模型的三个假设：

1. ~ExponentialFamily()，即给定和，的分布服从参数的指数族分布。

2. 给定，我们的目标是预测给定的的数学期望值。在我们的大多数例子中，我们有，这意味着。

3. 自然参数与输入线性相关：。（如果为向量值，则。）

这三个假设允许我们推导出一类非常优雅的学习算法，即GLMs，它具有许多令人满意的特征，例如易用性。此外，模型的结果对进行不同分布的建模都非常有效；例如，逻辑斯蒂回归与普通最小二乘都是广义线性模型。

（一）普通最小二乘（Ordinary Least Squares）

为了展示普通最小二乘是GLM族中的一类特殊情形，令目标变量(在GLMs术语中，也被称为响应变量（response variable）)是连续的，且关于的条件分布服从高斯分布（这里，取决于）。令上述假设中的ExponentialFamily()分布为高斯分布。根据之前推导的高斯分布的指数族形式，我们有。所以：

（二）逻辑斯蒂回归（Logistic Regression）

考虑伯努利分布，由之前的推导可知：，又由伯努利分布的性质可知：如果~，则。所以：

（三）Softmax回归

考虑可以取个值的回归问题，即，可通过多项式分布得到其GLM模型。

使用来表示对每个可能的个输出的概率，但由于他们并不独立（由于），所有可仅选取个参数，，这里，，为了简洁符号，我们仍令，但注意，并不是一个参数。

定义如下：

与之前不同的是，，而且，是维的向量而不是实数。我们将使用表征中第个元素的元素值。

指示函数表示：当括弧内的语句为真时，函数值为1，当括弧内的语句为假时，函数值为0。所以和的关系可写做：，所以。现在我们证明多项式分布属于指数族。

故（其中），方便起见，我们仍定义。为了将连结函数转化为响应函数，我们得到：

故，带回，得到响应函数：

这个从映射到的函数被称为softmax函数。

根据假设三，我们有(对)，其中是模型的参数。为了简化符号，我们同样定义，则。因此，我们的模型为：

这个模型被称为softmax回归模型（softmax regression），是逻辑斯蒂回归的推广。

模型将输出：

最后，让我们考虑参数拟合问题。与普通最小二乘和逻辑斯蒂回归相似，如果我们对一个有m个例子的训练集，对参数进行学习，首先先写出对数似然函数：

然后使用梯度下降法或牛顿法去最小化对数似然函数即可。