最大熵和概率分布

概率论

我们需要描述一组数据时候,本质上需要描述每一个点。但是如果我们可以用分布去表示这些数据,就只需要均值或者方差分布参数,大大节省了存储空间。

离散型随机分布

伯努利分布:一次实验,结果只有两种结果。 p ( k ) = p k ( 1 − p ) ( 1 − k ) , k ∈ { 0 , 1 } p(k)=p^k(1-p)^{(1-k)}, k\in\{0, 1\} p(k)=pk(1p)(1k),k{0,1} ,期望: p p p,方差: p ( 1 − p ) p(1-p) p(1p)

二项分布:n次伯努利实验正好得到k次成功的概率,单次成功的概率为p。当n=1的时候退化到伯努利分布。当p=0.5的时候,整体上和正态分布图形类似。 p ( k ) = C n k p k ( 1 − p ) n − k p(k)=C_n^kp^k(1-p)^{n-k} p(k)=Cnkpk(1p)nk,期望: n p np np,方差: n p ( 1 − p ) np(1-p) np(1p)

几何分布:进行n次伯努利实验,在获取成功前需要进行多少次实验。分布图形是越往前概率越大, p ( k ) = ( 1 − p ) k − 1 p p(k)=(1-p)^{k-1}p p(k)=(1p)k1p, 期望 1 p \frac{1}{p} p1, 方差是 ( 1 − p ) p k \frac{(1-p)}{p^k} pk(1p)

泊松分布:单位时间内独立事件发生次数的概率分布,它是二项分布n很大而p很小时的极限。泊松分布可以把单位时间切成n次,每次成功的概率为p,那么单位时间内出现k次的概率就是二项分布,所以泊松分布是二项分布的一种极限形式。它的分布图形也和二项分布类似,特别是n很大而p很小时。 p ( k ) = e − λ λ k k ! p(k)=\frac{e^{-\lambda}\lambda^k}{k!} p(k)=k!eλλk, 期望和方差都是 λ \lambda λ,其中k是发生的次数, λ \lambda λ是发生的平均次数,当 λ > = 20 \lambda>=20 λ>=20时,泊松分布趋向于正态分布。

指数分布:对应于泊松分布,指数分布是指两次独立事件发生的时间间隔的概率分布。
p ( k ) = λ e − λ k p(k)=\lambda e^{-\lambda k} p(k)=λeλk,其中 λ \lambda λ是指单位时间内独立事件发生的次数。期望= 1 λ \frac{1}{\lambda} λ1,方差= 1 λ 2 \frac{1}{\lambda^2} λ21

负二项分布:在一连串伯努利实验中,恰好在第r+k次实验出现第r次成功的概率。换句话说,是指出现第r次成功时所需要的总实验次数的概率分布。
p ( k , r , p ) = C r + k − 1 r − 1 p r ( 1 − p ) k p(k,r,p)=C_{r+k-1}^{r-1}p^{r}(1-p)^{k} p(k,r,p)=Cr+k1r1pr(1p)k,期望 E ( k ) = k ( 1 − p ) p E(k)=\frac{k(1-p)}{p} E(k)=pk(1p), 方差 D ( k ) = k ( 1 − p ) p 2 D(k)=\frac{k(1-p)}{p^2} D(k)=p2k(1p)

多项分布:二项分布的扩展。

连续型随机分布

均匀分布: p ( x ) = 1 b − a p(x)=\frac{1}{b-a} p(x)=ba1,期望 b − a 2 \frac{b-a}{2} 2ba, 方差 ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(ba)2

正态分布: p ( x ) = N ( μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x)=N(\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} p(x)=N(μ,σ)=2π σ1e2σ2(xμ)2,期望 μ \mu μ,方差 σ \sigma σ

指数分布:可以扩展到连续随机变量,仍然代表两次独立事件发生的事件间隔(实数)。公式和上面一致。

最大熵

那么以上的概率分布是如何来的呢?最大熵理论提供了一种解释的方法,概率分布是满足一定约束条件下的最大熵概率分布。对于一个随机变量来说,如果没有任何约束,我们大概率倾向于该随机变量符合均匀分布。对应到现实中,如果没有任何前提条件,我们认为事件发生的概率是相同的。比如骰子,我们会默认每一面的概率是1/6。最大熵概率分布满足一下条件:
m a t h m a x p H ( p ) = − ∫ y p ( y ) l o g p ( y ) d y , s t . ∫ y p ( y ) = 1 , p ( y ) > = 0 , ∫ y p ( y ) ∗ f i ( y ) d y = a i math max_pH(p)=-\int_yp(y)logp(y)dy, st. \int_yp(y)=1, p(y)>=0, \int_yp(y)*f_i(y)dy=a_i mathmaxpH(p)=yp(y)logp(y)dy,st.yp(y)=1,p(y)>=0,yp(y)fi(y)dy=ai
其中ai是预先定好的约束条件,比如均值、方差。 使用拉格朗日乘子得到:

m a t h L ( p , μ , λ ) = ∫ y p ( y ) l o g p ( y ) d y − μ 0 p ( y ) + μ 1 ( ∫ y p ( y ) − 1 ) + ∑ i λ i ( ∫ y p ( y ) ∗ f i ( y ) d y − a i ) math L(p,\mu,\lambda)=\int_yp(y)logp(y)dy - \mu_0p(y) + \mu_1(\int_yp(y)-1) + \sum_i\lambda_i(\int_yp(y)*f_i(y)dy-a_i) mathL(p,μ,λ)=yp(y)logp(y)dyμ0p(y)+μ1(yp(y)1)+iλi(yp(y)fi(y)dyai)
其中 μ , λ \mu,\lambda μ,λ都为正数,解为:
m a t h p ∗ = m i n p m a x μ , λ L = m a x μ , λ m i n p L math p^* = min_p max_{\mu,\lambda}L=max_{\mu,\lambda}min_pL mathp=minpmaxμ,λL=maxμ,λminpL
假设y值固定在某个确定的值,对p求偏导:
m a t h ∂ L ∂ p = l o g p + 1 l n 2 − μ 0 + μ 1 + ∑ i λ i f i ( y ) = 0 math \frac{\partial L}{\partial p} = logp + \frac{1}{ln2}-\mu_0 + \mu_1 + \sum_i\lambda_if_i(y) = 0 mathpL=logp+ln21μ0+μ1+iλifi(y)=0
等式两边乘以ln2,对logp进行换底:

m a t h l n p + 1 − μ 0 + μ 1 + ∑ i λ i f i ( y ) = 0 math lnp + 1 - \mu_0 + \mu_1 + \sum_i\lambda_if_i(y) = 0 mathlnp+1μ0+μ1+iλifi(y)=0
得到解p*:
m a t h p ∗ ( y ) = e − 1 + μ 0 − μ 1 − ∑ i λ i f i ( y ) = c ∗ e − ∑ i λ i f i ( y ) math p^*(y) = e^{ - 1 + \mu_0 - \mu_1 - \sum_i\lambda_if_i(y)} = c*e^{-\sum_i\lambda_if_i(y)} mathp(y)=e1+μ0μ1iλifi(y)=ceiλifi(y)

伯努利分布推导

约束条件:
m a t h f ( y ) = y → ∫ y p ( y ) ∗ y = μ , y ∈ { 0 , 1 } math f(y) = y\rightarrow\int_yp(y)*y=\mu, y\in\{0,1\} mathf(y)=yyp(y)y=μ,y{0,1}
其中 μ \mu μ代表事件成功的概率,也是伯努利分布的期望值,得到 c ∗ e − λ = μ c*e^{-\lambda}=\mu ceλ=μ
同时: p ( 0 ) + p ( 1 ) = 1 → c + c e − λ = 1 p(0) + p(1) = 1 \rightarrow c + ce^{-\lambda}=1 p(0)+p(1)=1c+ceλ=1
由以上两式得到: c = 1 − μ , λ = − l n μ 1 − μ c=1-\mu, \lambda=-ln\frac{\mu}{1-\mu} c=1μ,λ=ln1μμ
综合以上: p ( y ) = ( 1 − μ ) ∗ ( μ 1 − μ ) y = ( 1 − μ ) 1 − y μ y p(y)=(1-\mu)*(\frac{\mu}{1-\mu})^y=(1-\mu)^{1-y}\mu^y p(y)=(1μ)(1μμ)y=(1μ)1yμy, 我们就得到了伯努利分布的公式,伯努利分布是在约束期望值下的最大熵概率分布。

正态分布推导

约束条件:均值和方差

其他分布的约束条件

最大熵和概率分布_第1张图片

其他概念

概率分布函数,条件概率,联合概率, 独立分布,条件独立,熵, 交
叉熵、条件熵、KL散度

你可能感兴趣的:(最大熵和概率分布)