似然函数学习笔记

定义:

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然性,是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。
我们可以反过来构造表示似然性的方法:已知有事件A发生,运用似然函数 L ( B ∣ A ) L(B|A) L(BA),我们估计参数B的可能性。形式上,似然函数也是一种条件概率,但我们关注的变量改变了:
b ↦ P ( A ∣ B = b ) b \mapsto P(A \mid B=b) bP(AB=b)
这里并不要求似然函数满足归一性: ∑ b ∈ B P ( A ∣ B = b ) = 1 \sum_{b \in \mathcal{B}} P(A \mid B=b)=1 bBP(AB=b)=1。一个似然函数乘以一个正的常数之后仍然是似然函数。对于所有 α > 0 \alpha>0 α>0,都可以有似然函数:
L ( b ∣ A ) = α P ( A ∣ B = b ) L(b|A)=\alpha P(A|B=b) L(bA)=αP(AB=b)


例子:

考虑投掷一枚硬币的实验。通常来说,已知掷出一枚“公平的硬币”(正面朝上和反面朝上的概率都为0.5), 即正面(Head)朝上的概率为 p H = 0.5 p_{H}=0.5 pH=0.5,便可以知道投掷若干次后出现各种结果的可能性。

比如说,投两次都是正面朝上的概率是0.25。用条件概率表示,就是:
P ( H H ∣ p H = 0.5 ) = 0. 5 2 = 0.25 P(HH|p_H=0.5)=0.5^2=0.25 P(HHpH=0.5)=0.52=0.25
其中H表示正面朝上。
如果一个硬币的质量分布不够均匀, 那么它可能是一枚"非公平的硬币"

在统计学中,我们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。
我们可以建立一个统计模型:假设硬币投出时会有 p H p_{H} pH的概率正面朝上,而有 1 − p H 1-p_H 1pH的概率反面朝上。
这时,通过观察已发生的两次投掷,条件概率可以改写成似然函数:
L ( p H ∣ H H ) = P ( H H ∣ p H = 0.5 ) = 0.25 L(p_H|HH)=P(HH|p_H=0.5)=0.25 L(pHHH)=P(HHpH=0.5)=0.25
也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时, p H = 0.5 的似然性是 0.25 p_H=0.5的似然性是0.25 pH=0.5的似然性是0.25.但反之并不一定成立,即当似然函数为0.25时不能推断出 p H = 0.5 p_H=0.5 pH=0.5.
如果考虑 p H = 0.6 p_H=0.6 pH=0.6,那么似然函数的值也会改变。
L ( p H ∣ H H ) = P ( H H ∣ p H = 0.6 ) = 0.36 L(p_H|HH)=P(HH|p_H=0.6)=0.36 L(pHHH)=P(HHpH=0.6)=0.36
注意到似然函数的值变大了。
这说明,如果参数 p H p_H pH的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设 p H = 0.5 p_H=0.5 pH=0.5时更大。也就是说,参数 p H p_H pH取成0.6要比取成0.5更有说服力,更为“合理”。
总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。

对同一个似然函数,其所代表的模型中,某项参数值具有多种可能,但如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是该项参数最为“合理”的参数值。


最大似然估计

最大似然估计是似然函数最初也是最自然的应用。上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值点。实际应用中一般会取似然函数的对数作为求最大值的函数。似然函数的最大值点不一定唯一,也不一定存在。

你可能感兴趣的:(学习心得,机器学习)