伯努利分布的最大似然估计(最小化交叉熵、分类问题)

伯努利分布

伯努利分布,又名0-1分布,是一个离散概率分布。典型的示例是抛一个比较特殊的硬币,每次抛硬币只有两种结果,正面和负面。抛出硬币正面的概率为 \(p\) ,抛出负面的概率则为 \(1−p\) 。因此,对于随机变量 \(X\) ,则有:
\[ \begin{aligned} f(X=1) =& p\\ f(X=0) =& 1-p \end{aligned} \]
由于随机变量 \(X\) 只有 0 和 1 两个值,\(X\) 的概率分布函数可写为:
\[f(X)=p^x(1-p)^{1-x} \qquad 0

数学期望

在概率论和统计学中,数学期望(或均值)是试验中每次可能结果的概率乘以其结果的总和。它反映了随机变量平均取值的大小。

离散型

离散型随机变量 \(X\)数学期望为一切可能的取值\(x_i\)与对应的概率\(p(x_i)\)的乘积之和,即如果随机变量的取值为集合

\(\lbrace x_1,x_2,...,x_n\rbrace\) ,每个取值对应的概率为\(\lbrace p(x_1),p(x_2),...,p(x_n)\rbrace\),则有:
\[E(X) = \sum_{i=1}^n x_np(x_n) \tag{2}\]

因此,对于伯努利分布,其数学期望为:
\[E(X)= 1⋅p+0⋅(1−p)=p\]
对于随机变量\(X\)​ ,其方差和数学期望的公式满足:
\[Var(X)=E((X-E(X))^2)=E(x^2)-[E(x)]^2\tag{3}\]

一个随机变量的方差就是衡量随机变量和其数学期望之间的偏离程度。

公式推导如下:
\[ \begin{aligned} Var(X)=&E((X-E(X))^2)\\ =&E(X^2-2X\cdot E(X)+[E(X)]^2)\\ =&E(X^2)-2\cdot E(X) \cdot E(X) + [E(X)]^2\\ =&E(X^2)-[E(X)]^2 \end{aligned} \]

对于伯努利分布,有 \(E(X2)=E(X)\)。因此,其方差为:
\[Var(X)=p-p^2=p(1-p)\]

最大似然估计

在统计学中,最大似然估计(MLE),也称为极大似然估计,是用来估计概率模型的参数的方法。其目的就是:利用已知的样本结果,反推最有可能导致这样结果的参数值。

由于样本集中的样本都是独立同分布,现以伯努利分布来推导其参数 p 最大似然估计。记已知的样本集为:
\[D = \lbrace x_1,x_2,...,x_n \rbrace\]
其似然函数为:
\[ \begin{split} L(p|x_1,...,x_n) &= f(X|p)\\ &= f(x_1,x_2,...,x_n|p)\\ &= \prod_{i=1}^n f(x_i|p)\\ &= \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} \end{split} \tag{4} \]

由于有连乘运算,通常对似然函数取对数来计算,即对数似然函数。因此其对数似然函数为:
\[ \begin{split} L=&\log \prod_{i=1}^nf(x_i|p)\\ =&\sum_{i=1}^n{\log f(x_i|p)}\\ =&\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]} \end{split} \tag{5} \]

等式\((5)\)其实就是逻辑回归中使用到的交叉熵了。
\[ \begin{split} \hat{p}&=\arg \max_{p}L(p|X)\\ &=\arg \max_p {\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}}\\ &=\arg \min_p {-\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}} \end{split} \]

因此,最大似然估计其实就是求似然函数的极值点,将对数似然函数对参数 \(p\) 求导:
\[ \begin{aligned} \frac{\partial L}{\partial p}&=\sum_{i=1}^n{[\frac{x_i}{p}+\frac{1-x_i}{p-1}]}\\ &=\sum_{i=1}^n{\frac{p-x_i}{p(p-1)}}=0 \end{aligned} \]

从而得到伯努利的最大似然估计为:
\[ \begin{aligned} \sum_{i=1}^n(p-x_i) &= 0 \\ \implies p &= \frac{1}{n}\sum_{i=1}^nx_i \end{aligned} \]

总结

求概率模型的最大似然估计的一般步骤如下:

1.写出随机变量的概率分布函数;
2.写出似然函数;
3.对似然函数取对数,并进行化简整理;
4.对参数进行求导,找到似然函数的极值点;
5.解似然方程。

相信了解逻辑回归算法的小伙伴已经看出来了,对逻辑回归的推导其实质上也是最大似然估计算法。在逻辑回归中,其概率分布函数不再是 $f(x)=p^x(1−p)^{1−x} $,而是:
\[ \begin{aligned} P(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y} \end{aligned}\tag{6} \]
其中:
\[ \begin{split} h_{\theta}(x)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^{T}x}} \end{split}\tag{7} \]

参考链接:https://blog.csdn.net/github_39421713/article/details/89213747

你可能感兴趣的:(伯努利分布的最大似然估计(最小化交叉熵、分类问题))