逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归与最大熵模型都属于对数线性模型。

1、二项逻辑斯蒂回归模型

逻辑斯蒂回归与最大熵模型_第1张图片

2、最大熵模型

最大熵原理认为,学习模型时,在所有可能的概率模型中,熵最大的模型就是最好的模型。

逻辑斯蒂回归与最大熵模型_第2张图片

对于最大熵模型里面的特征的理解:

1、仅仅对输入抽取特征,即特征函数为

2、对输入和输出同时抽取特征,即特征函数为

下面讲解一下如何把最大熵模型推导成logistic回归模型。

最大熵模型定义了在个给定输入变量x时,输出变量y的条件分布:

P(y |  \mathbf{x}, \boldsymbol\theta) = \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x}, y) \right) }{   \sum_{\mathbf{y} \in \textit{Dom}(y)} {     \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x}, y) \right)   } }

此处是y所有可能取值的集合

如果我们限定y为二元变量,即,那么久可以把最大熵模型转换成logistic回归模型。我们还需要定义特征函数为

即仅在时抽取x的特征。在时不抽取任何特征(直接返回为全0的特征向量)。

将这个特征函数代回最大熵模型,得到当时

\begin{align} P(y_1 | \mathbf{x}) &= \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right)  } & \text{æ大çµæ¨¡åå®ç¾©} \\ &= \frac{  \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  } & \text{ç¹å¾µå½æ¸ \textbf{f} çå®ç¾©} \\ &= \frac{  \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{   1 +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  } & e^0 = 1 \\ &= \frac{  1 }{   \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) +   1  } & \text{åå­åæ¯åé¤ä»¥} \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) \\ &= \sigma\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) & \text{logistic å½æ¸å®ç¾©} \end{align}

当时

\begin{align} P(y_0 | \mathbf{x}) &= \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right)  } \\ &= \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  } \\ &= \frac{   1 }{   1 +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  }\\ &= \frac{   \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{   \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) +   1  } \\ &= 1 - P(y_1 | \mathbf{x}) \end{align}

我们发现,当类标签只有两个时,最大熵模型就是logistic模型。

表面上看,logistic回归模型里面的特征函数的确只考虑x不考虑y。然而通过上面的推导,我们发现其实g抽取的特征仅仅在时被用到。另外,logistic回归模型当然有特征的概念。

转自  https://www.zhihu.com/question/24094554

你可能感兴趣的:(统计学习方法)