无标题文章

> By joey周琦

本文将首先简单介绍指数族分布，然后介绍一下广义线性模型（generalized linear model, GLM), 最后解释了为什么逻辑回归（logistic regression, LR) 是广义线性模型的一种。

# 指数族分布

指数族分布 (The exponential family distribution),区别于指数分布（exponential distribution)。在概率统计中，若某概率分布满足下式，我们就称之属于指数族分布。

$$p(y;\eta)=b(y)\exp(\eta^T T(y)-a(\eta))$$

其中$$\eta$$是natural parameter, $T(y)$是充分统计量, $$\exp^{-a(\eta))}$$是起到归一化作用。确定了$T,a,b$,我们就可以确定某个参数为$$\eta$$的指数族分布.

统计中很多熟悉的概率分布都是指数族分布的特定形式，如伯努利分布，高斯分布，多项分布（multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。

- 伯努利分布

$$p(y;\phi)=\phi^y (1-\phi)^{1-y} \\=exp[y\log\phi+(1-y)\log(1-\phi)] \\=exp[y\log \frac{\phi}{1-\phi}+log(1-\phi)]$$

把伯努利分布可以写成指数族分布的形式，且

$$ T(y) = y \\ \eta=\log \frac{\phi}{1-\phi} \\a(\eta) = -\log(1-\phi)=\log(1+e^\eta) \\ b(y)=1$$

同时我们可以看到$$\phi=\frac{1}{1+e^{-\eta}}$$, 居然是logistic sigmoid的形式，后面在讨论LR是广义线性模型时，也会用到。

## 高斯分布

高斯分布也可以写为指数族分布的形式如下：

$$ p(y;\mu) =\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2) \\

=\frac{1}{\sqrt{2\pi}} \exp(-\frac{1}{2} y^2)\exp(\mu y-\frac{1}{2} \mu^2)$$

我们假设方差为1，当然不为1的时候也是可以推导的。上述我们就把高斯分布写为了指数族分布的形式，对应的

$$ \eta = \mu \\

T(y) = y \\

a(\eta) = \mu^2/2 = \eta^2 /2 \\

b(y)=\frac{1}{\sqrt{2\pi}} \exp(-\frac{1}{2} y^2)$$

#广义线性模型 (Generalized linear model, GLM)

本节将讲述广义线性模型的概念，以及LR,最小二乘为何也属于广义线性模型。

考虑一个分类或回归问题，我们就是想预测某个随机变量 $y$，$y$ 是某些特征(feature)$x$的函数。为了推导广义线性模式，我们必须做出如下三个假设

1. $p(y|x;\theta)$ 服从指数族分布

2. 给了$x$, 我们的目的是为了预测T(y)的在条件$x$下的期望。一般情况$T(y)=y$, 这就意味着我们希望预测$h(x)=E[y|x]$

3. 参数$$\eta$$和输入$x$ 是线性相关的：$$\eta = \theta^T x$$

在这三个假设（也可以理解为一种设计）的前提下，我们可以推导出一系列学习算法，称之为广义线性模型(GLM)。下面我们可以推导出一系列算法，称之为广义线性模型GLM. 下面举两个例子：

## 最小二乘法

假设$p(y|x;\theta)~N(\mu,\sigma^2)$,$u$可能依赖于$x$,那么

$$ h_\theta(x) = E[y|x;\theta] \\

=\mu \\

=\eta \\

= \theta^T x $$

第一行因为假设2，第二行因为高斯分布的特点，第三行根据上面高斯分布为指数族分布的推导，第四行因为假设3

##逻辑回归 LR

考虑LR二分类问题，$y \in {0,1}$, 因为是二分类问题，我们很自然的选择$p(y|x;\theta)$~Bernoulli($$\phi$$),即服从伯努利分布。那么

$$ h_\theta(x) = E[y|x;\theta] \\

=\phi \\

=\frac{1}{1+e^{-\eta}} \\

= \frac{1}{1+e^{-\theta^T x}} $$

第一行因为假设2，第二行因为伯努利分布的性质，第三行因为伯努利分布为指数族分布时的推导，第四行因为假设3.

所以我们终于知道逻辑回归LR的$P(y=1|x)=\frac{1}{1+e^{-\theta^T x}} $从何而来了。它即是在伯努利分布和广义线性模型的假设下推导而来，逻辑回归也自然是一种广义线性模型。

参考：

本文主要参加Andrew ng的机器学习讲义