似然函数的定义:

似然函数(Likelihood function)是一个统计学中的概念,用于在给定某些数据的条件下,评估不同参数下模型生成这些数据的概率。在概率论和统计学中,似然函数是固定数据并视参数为变量的函数,而概率函数则是固定参数并视数据为变量的函数。

似然函数的定义:

对于一组独立同分布的观测数据 $ X = (x_1, x_2, …, x_n) $,假设每个观测 $ x_i $ 都来自一个参数为 $ \theta $ 的概率分布 $ P(X | \theta) $,那么似然函数 $ L $ 定义为参数 $ \theta $ 的函数,其形式为所有观测数据联合概率的乘积:
L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X | \theta) = \prod_{i=1}^{n} P(x_i | \theta) L(θX)=P(Xθ)=i=1nP(xiθ)
在连续情况下,如果数据来自一个有概率密度函数 $ f $ 的分布,则似然函数为:
L ( θ ∣ X ) = f ( X ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta | X) = f(X | \theta) = \prod_{i=1}^{n} f(x_i | \theta) L(θX)=f(Xθ)=i=1nf(xiθ)

似然函数的来源:

似然函数的概念是在考虑参数估计问题时自然出现的。在统计学中,当我们有一组观测数据并且想要估计它们背后的分布参数时,似然函数提供了一个衡量不同参数值相对合理性的方式。参数的估计值是使这个似然函数取得最大值的值。

二分类问题中的似然函数:

在二分类问题中,如果假设数据点 $ i $ 的标签 $ y^{(i)} $ 是独立地从一个伯努利分布中抽取的,那么这个分布的概率(对于标签 $ y^{(i)} = 1 $)是 $ \hat{y}^{(i)} $,对于标签 $ y^{(i)} = 0 $ 是 $ 1 - \hat{y}^{(i)} $。对于单个数据点,其概率是:
P ( y ( i ) ∣ y ^ ( i ) ) = ( y ^ ( i ) ) y ( i ) ⋅ ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) P(y^{(i)} | \hat{y}^{(i)}) = (\hat{y}^{(i)})^{y^{(i)}} \cdot (1 - \hat{y}^{(i)})^{(1 - y^{(i)})} P(y(i)y^(i))=(y^(i))y(i)(1y^(i))(1y(i))
由于假设数据点是独立的,所有数据点的联合概率就是每个点概率的乘积,这个乘积就构成了似然函数:
L ( θ ∣ Y ) = ∏ i = 1 m ( y ^ ( i ) ) y ( i ) ⋅ ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) L(\theta | Y) = \prod_{i=1}^{m} (\hat{y}^{(i)})^{y^{(i)}} \cdot (1 - \hat{y}^{(i)})^{(1 - y^{(i)})} L(θY)=i=1m(y^(i))y(i)(1y^(i))(1y(i))
这里 $ \theta $ 表示模型参数,$ Y $ 是观测到的所有数据点的标签集合。

通过最大化这个似然函数,我们可以找到最好的参数 $ \theta $,使得观测到的数据出现的概率最大。在实际应用中,通常会最大化似然函数的对数,因为对数转换了乘法为加法,简化了计算,同时对数函数是单调的,因此不会改变最大化问题的解。这就是最大似然估计(Maximum Likelihood Estimation, MLE)。

你可能感兴趣的:(python)