Log-linear Models

        Log-linear模型广泛用于NLP分类任务中。Log-linear模型给出观察对象/标记输出(observation/label)对一个联合概率,其中(x, y)∈X×Y:

                                      (1)

        其中是一个实值特征权重向量,是特征函数:(x,y)——>实数特征向量。

        下面讲解Log-linear的特性

        假设有训练集,那么权重向量为

 

        (5)式是凹函数(concave),可以得到仅有的一个最大值。

        更多的,我们计算给出观察对象的的前提下,得到标记输出的条件概率;一个样例(x,y),对应的条件概率为:

 

         训练条件Log-linear模型等价于最大化条件概率(6式)乘积:

         (9)式是凹函数的证明:

 
      (10)

         (10)式对求偏导后得到:

 
 (11)

        则梯度为:

 
                                                        (12)

        进一步可以得到二阶偏导数:

 
  (13)

        则二阶偏导数组成的海森矩阵(Hessian Matrix)是一个带符号的协方差矩阵,而协方差矩阵是半正定矩阵。而海森矩阵为半正定阵,则目标函数是一个凹函数。

       由上可知Log-linear模型中的目标函数是一个凹函数,可以用爬山算法(hill-climbing)来得到最大值。应该也可以用梯度上升算法来得到最大值。

你可能感兴趣的:(数学,机器学习)