CS229学习笔记(三)——广义线性模型(Generalized Linear Models)

    在我们的回归问题中,~,在我们的分类问题中,有~。在本节中,我们会看到这两种情况仅是广义线性模型(Generalized Linear Models, GLMs)的特殊情形。

(一)指数族(The exponential family)

    指数族中的分布可以写成下式:

                           

式中,我们称为f分布的自然参数或者标准参数(natural parameter 或者 canonical parameter),为充分统计量(sufficient statistic)(我们考虑的分布中,一般),称为对数分割函数(log partition function),起到归一化常数的作用,使得分布对所有的积分/和为1。

    下面我们开始证明伯努利和高斯分布属于指数族分布。分布表示,;。当变化时,我们得到不同均值的伯努利分布。拥有变化的值的伯努利分布属于指数族,即通过选择T, a, b可以将前面的等式变为伯努利分布的形式。

    我们将伯努利分布写为下列形式:

                                      

                                                    

                                                    

因此,自然参数,所以,与S型函数形式相似。

其他参数的表达形式为:

                                                          

                                                           

                                                                    

                                                           

让我们再来考虑高斯函数,回忆一下,当我们在推导线性回归时,参数对最终和的选择并无影响,为了简化推导,我们令,则:

                                      

                                                    

所以:                                       

                                                

                                         

                                          

                                                   

                                           .

    还有许多分布属于指数族:多项分布(multinomial)、泊松分布、伽马和指数分布、贝塔和耿里克雷分布等等。

(二)构建广义线性模型(Constructing GLMs)

假设你现在要在给定的特征量,例如商品促销,天气,一周中的某一天等,去建模预测给定时间内到店里的顾客人数(或者网页的访问量)。我们知道,对于该类问题,我们一般选用泊松分布。幸运的是,泊松分布是一类指数族分布,所以我们可以使用广义线性模型。本节将介绍如何构建GLM模型解决该类问题。

    更普遍地,我们考虑一类分类或者回归问题,通过的函数去预测随机变量的值。为了该问题的导出广义线性模型,我们给出关于给定的的情况分布和我们模型的三个假设:

1. ~ExponentialFamily(),即给定和,的分布服从参数的指数族分布。

2. 给定,我们的目标是预测给定的的数学期望值。在我们的大多数例子中,我们有,这意味着。

3. 自然参数与输入线性相关:。(如果为向量值,则。)

这三个假设允许我们推导出一类非常优雅的学习算法,即GLMs,它具有许多令人满意的特征,例如易用性。此外,模型的结果对进行不同分布的建模都非常有效;例如,逻辑斯蒂回归与普通最小二乘都是广义线性模型。

(一)普通最小二乘(Ordinary Least Squares)

    为了展示普通最小二乘是GLM族中的一类特殊情形,令目标变量(在GLMs术语中,也被称为响应变量(response variable))是连续的,且关于的条件分布服从高斯分布(这里,取决于)。令上述假设中的ExponentialFamily()分布为高斯分布。根据之前推导的高斯分布的指数族形式,我们有。所以:

                                           

                                                       

                                                       

                                                       

(二)逻辑斯蒂回归(Logistic Regression)

    考虑伯努利分布,由之前的推导可知:,又由伯努利分布的性质可知:如果~,则。所以:

                                        

                                                    

                                                    

                                                    

(三)Softmax回归

    考虑可以取个值的回归问题,即,可通过多项式分布得到其GLM模型。

    使用来表示对每个可能的个输出的概率,但由于他们并不独立(由于),所有可仅选取个参数,,这里,,为了简洁符号,我们仍令,但注意,并不是一个参数。

    定义如下:

与之前不同的是,,而且,是维的向量而不是实数。我们将使用表征中第个元素的元素值。

    指示函数表示:当括弧内的语句为真时,函数值为1,当括弧内的语句为假时,函数值为0。所以和的关系可写做:,所以。现在我们证明多项式分布属于指数族。

故(其中),方便起见,我们仍定义。为了将连结函数转化为响应函数,我们得到:

                                                         

                                                    

                                            

故,带回,得到响应函数:

                                                        

这个从映射到的函数被称为softmax函数。

    根据假设三,我们有(对),其中是模型的参数。为了简化符号,我们同样定义,则。因此,我们的模型为:

                                              

                                                                      

                                                                     

这个模型被称为softmax回归模型(softmax regression),是逻辑斯蒂回归的推广。

模型将输出:

    最后,让我们考虑参数拟合问题。与普通最小二乘和逻辑斯蒂回归相似,如果我们对一个有m个例子的训练集,对参数进行学习,首先先写出对数似然函数:

                                           

                                                   

然后使用梯度下降法或牛顿法去最小化对数似然函数即可。

你可能感兴趣的:(CS229学习笔记(三)——广义线性模型(Generalized Linear Models))