概率:在特性环境下,某件事件发生的可能性。概率在抛硬币之前是有意义的,由因推果
似然:在某件事发生的情况下,产生这个结果的可能环境。似然在抛硬币之后才是有意义的,由果推因。
假设概率表示为(公式1):
P ( x ∣ θ ) \mathcal{P}(x \mid \theta) P(x∣θ)
那么相对应的似然表示为(公式2):
L ( θ ∣ x ) \mathcal{L}(\theta\mid x) L(θ∣x)
一般情况下,虽然描述的东西不同,但似然和概率是等价的(公式3):
P ( x ∣ θ ) = L ( θ ∣ x ) \mathcal{P}(x\mid θ)=\mathcal{L}(θ\mid x) P(x∣θ)=L(θ∣x)
许多文章、书籍将θ模糊地描述为“前置条件”、“满足某分布的情况下”,其实容易让人理解绕弯。这里举一个抛硬币的例子,就能很轻松地理解:
最开始讲概率论的时候,我们会看到如下的表述(公式4):
{ P ( ξ = 1 ) = 1 2 P ( ξ = 0 ) = 1 2 \left\{\begin{aligned} \mathcal{P}(\xi =1)= \frac{1}{2} \\ \mathcal{P}(\xi =0)= \frac{1}{2} \end{aligned}\right. ⎩⎪⎨⎪⎧P(ξ=1)=21P(ξ=0)=21
表示抛一枚硬币,正面朝上的概率是0.5,背面朝上的概率也是0.5。那么这个是结果,它的原因是什么呢?当然是因为这是一枚均匀的硬币(似乎是废话)。而似然就是一个逆推的过程,在抛了1000次硬币,发现有500次是正面朝上,500次是背面朝上,那么它是一枚什么样的硬币(均匀的吗?非均匀的吗?怎么样非均匀的呢?)呢?而常说的最大似然,就是说它是一枚什么样的硬币可能性最大。
于是公式1在抛硬币的表述下是这样(公式5):
P ( x ∣ θ ) = P ( x ∣ θ = 均匀的硬币 ) = { P ( ξ = 1 ∣ θ = 均匀的硬币 ) = 1 2 P ( ξ = 0 ∣ θ = 均匀的硬币 ) = 1 2 \mathcal{P}(x\mid \theta) = \mathcal{P}(x\mid \theta =\text{均匀的硬币} )= \left\{\begin{aligned} \mathcal{P}(\xi =1\mid \theta=\text{均匀的硬币})= \frac{1}{2} \\ \mathcal{P}(\xi =0\mid \theta=\text{均匀的硬币})= \frac{1}{2} \end{aligned}\right. P(x∣θ)=P(x∣θ=均匀的硬币)=⎩⎪⎨⎪⎧P(ξ=1∣θ=均匀的硬币)=21P(ξ=0∣θ=均匀的硬币)=21
其中:
P ( x ∣ θ = 均匀的硬币 ) \mathcal{P}(x\mid \theta =\text{均匀的硬币} ) P(x∣θ=均匀的硬币)
是一个函数,若输入变量 x = 1 x=1 x=1,表示正面朝上,即在条件“一枚均匀的硬币”下,正面朝上的概率是0.5。
接下来,我们看看似然是如何表述的:
L ( θ ∣ x ) = L ( θ ∣ x = 抛1000次硬币,500次正面朝上,500次背面朝上 ) \mathcal{L}(\theta\mid x) =\mathcal{L}(\theta\mid x=\text{抛1000次硬币,500次正面朝上,500次背面朝上}) L(θ∣x)=L(θ∣x=抛1000次硬币,500次正面朝上,500次背面朝上)
或者表述为
L ( θ ∣ x ) = L ( θ ∣ x = 在“ P ( ξ = 1 ) = 1 2 和 P ( ξ = 0 ) = 1 2 ”的前提下 ) \mathcal{L}(\theta\mid x) =\mathcal{L}(\theta\mid x=\text{在“} \mathcal{P}(\xi=1)=\frac{1}{2} \text{和} \mathcal{P}(\xi=0)=\frac{1}{2} \text{”的前提下}) L(θ∣x)=L(θ∣x=在“P(ξ=1)=21和P(ξ=0)=21”的前提下)
这 L \mathcal{L} L是一个函数,输入变量是 θ θ θ,得出的结果是一个概率。我们先不展开具体函数构成,我们可以猜想,假设我们输入“ θ θ θ=均匀的硬币”,那么可以直觉感受,这样得出来的概率值,显然会比“ θ θ θ=非均匀的硬币”要大一些。这样的结果是基于“抛1000次硬币,500次正面朝上,500次背面朝上”的实验前提下进行的猜测。这也是似然函数,通过结果推因的思想。
下面考虑一个更复杂的情况:
P ( x = 抛两次硬币都正面朝上 ∣ θ = 均匀的硬币 ) = ( 1 2 ) 2 = 1 4 \mathcal{P}(x=\text{抛两次硬币都正面朝上} \mid \theta= \text{均匀的硬币})=\left ( \frac{1}{2} \right ) ^2 =\frac{1}{4} P(x=抛两次硬币都正面朝上∣θ=均匀的硬币)=(21)2=41
我们以这个 x x x现象为前提,忘记目前的环境 θ θ θ,假设 θ θ θ是未知的,逆推硬币质量的均匀情况:
L ( θ ∣ x ) = L ( θ ∣ x = 抛两次硬币都正面朝上 ) \mathcal{L}(\theta\mid x)=\mathcal{L}(\theta\mid x=\text{抛两次硬币都正面朝上}) L(θ∣x)=L(θ∣x=抛两次硬币都正面朝上)
为了定量描述这个函数,我们为环境变量 θ θ θ和实验现象 x x x赋予意义:
{ θ ⋯ ⋯ 该硬币性质使得抛一次正面朝上的概率;可知反面朝上概率为 1 − θ x ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 具体的实验结果。这个结果决定了函数的组成 \left\{\begin{aligned} \theta \cdots \cdots\text{该硬币性质使得抛一次正面朝上的概率;可知反面朝上概率为}1-\theta \\ x \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \text{具体的实验结果。这个结果决定了函数的组成} \end{aligned}\right. {θ⋯⋯该硬币性质使得抛一次正面朝上的概率;可知反面朝上概率为1−θx⋯⋯⋯⋯⋯⋯⋯⋯⋯具体的实验结果。这个结果决定了函数的组成
目前看这样定义, x x x显得非常绕口,什么叫函数的组成呢?我们举个例子:
假设 x x x定义为:抛2次硬币正面朝上的概率,那么:
P ( x ∣ θ = 1 2 ) = θ ⋅ θ = θ 2 \mathcal{P}(x\mid \theta = \frac{1}{2}) = \theta \cdot \theta = \theta ^2 P(x∣θ=21)=θ⋅θ=θ2
由公式3我们可知它和似然函数是等价的:
P ( x ∣ θ = 1 2 ) = L ( θ = 1 2 ∣ x ) = θ 2 \mathcal{P}(x\mid \theta = \frac{1}{2}) = \mathcal{L}(\theta = \frac{1}{2}\mid x) = \theta ^2 P(x∣θ=21)=L(θ=21∣x)=θ2
接下来我们进行转化,把x设为已知,θ设为未知数:
P ( x = 1 4 ∣ θ ) = L ( θ ∣ x = 1 4 ) = θ 2 \mathcal{P}(x = \frac{1}{4} \mid \theta) = \mathcal{L}(\theta \mid x = \frac{1}{4}) = \theta ^2 P(x=41∣θ)=L(θ∣x=41)=θ2
这里其实用0.25来表示 x x x并不准确, x x x表达的是抛两次硬币这个含义,因此,为了体现“2次”这个2的含义, x x x应该表示为 x = θ 2 x=\theta^2 x=θ2。我们选取几个 0 ∼ 1 0\sim1 0∼1的 θ θ θ来代入函数 L ( θ ∣ x = 1 4 ) = θ 2 \mathcal{L}(\theta\mid x=\frac{1}{4})=θ^2 L(θ∣x=41)=θ2有:
函数 | 似然概率 | x x x | θ \theta θ |
---|---|---|---|
L ( θ = 0.1 ∣ x = 1 4 ) \mathcal{L}(\theta=0.1 \mid x = \frac{1}{4}) L(θ=0.1∣x=41) | 0.01 0.01 0.01 | 两扔硬币实验,正正概率 1 4 \frac{1}{4} 41 | 硬币为“扔一次正面朝上概率为0.1的硬币”的概率是0.01 |
L ( θ = 0.3 ∣ x = 1 4 ) \mathcal{L}(\theta=0.3 \mid x = \frac{1}{4}) L(θ=0.3∣x=41) | 0.09 0.09 0.09 | 两扔硬币实验,正正概率 1 4 \frac{1}{4} 41 | 硬币为“扔一次正面朝上概率为0.3的硬币”的概率是0.09 |
L ( θ = 0.5 ∣ x = 1 4 ) \mathcal{L}(\theta=0.5 \mid x = \frac{1}{4}) L(θ=0.5∣x=41) | 0.25 0.25 0.25 | 两扔硬币实验,正正概率 1 4 \frac{1}{4} 41 | 硬币为“扔一次正面朝上概率为0.5的硬币”的概率是0.25 |
L ( θ = 0.7 ∣ x = 1 4 ) \mathcal{L}(\theta=0.7 \mid x = \frac{1}{4}) L(θ=0.7∣x=41) | 0.49 0.49 0.49 | 两扔硬币实验,正正概率 1 4 \frac{1}{4} 41 | 硬币为“扔一次正面朝上概率为0.7的硬币”的概率是0.49 |
L ( θ = 1 ∣ x = 1 4 ) \mathcal{L}(\theta=1 \mid x = \frac{1}{4}) L(θ=1∣x=41) | 1 1 1 | 两扔硬币实验,正正概率 1 4 \frac{1}{4} 41 | 硬币为“扔一次正面朝上概率为1的硬币”的概率是1 |
这样是不是很奇怪呢?明明抛两次硬币(两扔硬币实验),正面朝上的概率是25%,为何会得出“硬币为‘扔一次正面朝上概率为1’的硬币”可能性最大(概率100%)的结论呢?
其实这样表述是不对的。
如果抛2次硬币正面朝上的概率不为1,那么暗含着假设,抛2次硬币正面不都朝上的概率是存在,也是一种结果,只有基于这样的结果下才能正确得出整个似然函数的结构。而以上的似然函数,并未把25%信息包含进去,而只包含了“扔了2次硬币,2次都正面朝上”的这个信息。基于这个信息,当然得出硬币怎么扔都是正面朝上的概率最大。事实上公式:
P ( x ∣ θ ) = L ( θ ∣ x ) \mathcal{P}(x\mid θ)=\mathcal{L}(θ\mid x) P(x∣θ)=L(θ∣x)
中 P ( x ∣ θ ) \mathcal{P}(x\mid θ) P(x∣θ)表示的不是一个概率,而应该是一个概率函数。就抛硬币而言,概率函数服从伯努利分布,假设正面朝上( ξ = 1 ξ=1 ξ=1)的概率为 θ θ θ,那么抛一次硬币有:
P ( x ∣ θ ) = { P ( 1 ) = θ P ( 0 ) = 1 − θ = θ x ( 1 − θ ) 1 − x \mathcal{P}(x\mid \theta) = \left\{\begin{array}{lr} \mathcal{P}(1)= \theta \\ \mathcal{P}(0)= 1-\theta \end{array}\right.= \theta^x(1-\theta)^{1-x} P(x∣θ)={P(1)=θP(0)=1−θ=θx(1−θ)1−x
抛两次硬币就不好搞了,此时输入参数 x x x如何数值化呢?其实所谓抛2次、抛3次,就是2重、3重伯努利实验,抛N次就是N重伯努利实验。此时 x x x不代表概率,而是代表正面朝上的次数(例如 n = 2 , x = 1 n=2,x=1 n=2,x=1表示抛了2次硬币,一共有1次硬币朝上):
P ( x , n ∣ θ ) = ( n x ) θ x ( 1 − θ ) n − x = n ! x ! ( n − x ) ! θ x ( 1 − θ ) n − x \mathcal{P}(x, n\mid \theta) =\binom{n}{x} \theta^x(1-\theta)^{n-x}= \frac{n!}{x!(n-x)!}\theta^x(1-\theta)^{n-x} P(x,n∣θ)=(xn)θx(1−θ)n−x=x!(n−x)!n!θx(1−θ)n−x
所以,按照刚才的例子,真正抛两次硬币(n=2)情况反过来推 L \mathcal{L} L应该为:
P ( x , 2 ∣ θ ) = 2 ! x ! ( 2 − x ) ! θ x ( 1 − θ ) 2 − x = L ( θ ∣ x , 2 ) \mathcal{P}(x,2\mid θ)= \frac{2!}{x!(2-x)!}\theta^x(1-\theta)^{2-x}= \mathcal{L}(θ\mid x,2) P(x,2∣θ)=x!(2−x)!2!θx(1−θ)2−x=L(θ∣x,2)
那么抛2次,2次都朝上就是:
L ( θ ∣ 2 , 2 ) = θ 2 \mathcal{L}(θ\mid 2,2)=\theta^2 L(θ∣2,2)=θ2
那么抛2次,1次朝上:
L ( θ ∣ 1 , 2 ) = 2 θ ( 1 − θ ) \mathcal{L}(θ\mid 1,2)=2\theta(1-\theta) L(θ∣1,2)=2θ(1−θ)
那么抛2次,0次朝上:
L ( θ ∣ 1 , 2 ) = ( 1 − θ ) 2 \mathcal{L}(θ\mid 1,2)=(1-\theta)^2 L(θ∣1,2)=(1−θ)2
此时,涉及多个独立事件的似然函数,必须将每个事件的概率包含在内:
L = ∏ i = 1 N p i \mathcal{L}=\prod_{i=1}^{N}p_i L=i=1∏Npi
举个例子,假设进行了4次“两抛硬币”实验,每次实验的概率如下:
{ p 1 = P ( 2 , 2 ∣ θ ) = θ 2 p 2 = P ( 1 , 2 ∣ θ ) = 2 θ ( 1 − θ ) p 3 = P ( 1 , 2 ∣ θ ) = 2 θ ( 1 − θ ) p 4 = P ( 0 , 2 ∣ θ ) = ( 1 − θ ) 2 \left\{\begin{array}{lr} p_1=\mathcal{P}(2,2\mid θ)=\theta^2 \\ p_2=\mathcal{P}(1,2\mid θ)=2\theta(1-\theta) \\ p_3=\mathcal{P}(1,2\mid θ)=2\theta(1-\theta) \\ p_4=\mathcal{P}(0,2\mid θ)=(1-\theta)^2 \end{array}\right. ⎩⎪⎪⎨⎪⎪⎧p1=P(2,2∣θ)=θ2p2=P(1,2∣θ)=2θ(1−θ)p3=P(1,2∣θ)=2θ(1−θ)p4=P(0,2∣θ)=(1−θ)2
那么其似然函数为:
L = ∏ i = 1 N p i = θ 2 ⋅ ( 2 θ ( 1 − θ ) ) 2 ⋅ ( 1 − θ ) 2 = 4 θ 2 ( 1 − θ ) 2 \mathcal{L}=\prod_{i=1}^{N}p_i=\theta^2\cdot (2\theta(1-\theta))^2 \cdot (1-\theta)^2=4\theta^2(1-\theta)^2 L=i=1∏Npi=θ2⋅(2θ(1−θ))2⋅(1−θ)2=4θ2(1−θ)2
函数图像为:
从这个图像,我们就能正确得出硬币是一枚抛一次正面朝上概率是50%( θ = 0.5 \theta=0.5 θ=0.5)的概率最大,概率为 L = 1.5625 % \mathcal{L}=1.5625\% L=1.5625%,所以我们就说似然函数L的极值点为(0.5,0.15625),这就是常说的“最大似然”。这是什么意思呢?意思是,在进行4次两抛硬币实验,结果为1次正正,2次正背,1次背背的情况下,硬币是一个抛一次正面朝上概率为0.5的非均匀硬币的可能性最大。
如果我们进行的试验次数越多,假设抛了100次,25次两抛都朝上,50次对半分,25次两抛都朝下:
L = ∏ i = 1 100 p i = 1125899906842624 ⋅ θ 100 ( 1 − θ ) 100 \mathcal{L}=\prod_{i=1}^{100}p_i= 1125899906842624\cdot \theta^{100}(1-\theta)^{100} L=i=1∏100pi=1125899906842624⋅θ100(1−θ)100
其函数图像如下:
可以发现硬币是一枚均匀硬币的概率远远超过其它情况。所以进行的试验次数越多,通过似然函数极值(最大似然)判断其原本物理属性的准确率就越高。