最大似然法

原文链接: http://txshi-mt.com/2017/06/24/edx-columbia-1-Intro-MLE/

最大似然法


概率模型是概率分布p(x|θ)的集合。我们并不知道具体参数θ是什么,需要进行推测。例如对于给定的数据x,我们想建立一个高斯分布模型p(x|θ),θ={μ,Σ}。注意这里隐含着一个重要的假设,即所有数据都是独立同分布的(iid),即

x i ∼ i i d p ( x ∣ θ ) ,   i = 1 , … , n x_i \mathop{\sim}^{iid} p(x|\theta),\ i = 1, \ldots, n xiiidp(xθ), i=1,,n

所有这些数据x的联合概率分布可以写为 p ( x 1 , … , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) p(x_1,\ldots,x_n|\theta) = \prod_{i=1}^n p(x_i|\theta) p(x1,,xnθ)=i=1np(xiθ)

求解的过程是要设计一个目标函数。这个函数含有已知的数据和未知的变量,它会隐含地告诉我们什么样的参数是好的参数。常见的求解概率模型的方法就是最大似然(即寻找可以将似然函数最大化的未知数),即对找出能使p最大的θ。形式化地,最优解 θ M L θ^ML θML
θ ^ M L = a r g max ⁡ θ p ( x 1 , … , x n ∣ θ ) \hat{\theta}_{\rm ML} = \mathop{\rm arg}\max_\theta p(x_1, \ldots, x_n|\theta) θ^ML=argθmaxp(x1,,xnθ)
这个θ是下式的解析解 ∇ θ ∏ i = 1 n p ( x i ∣ θ ) = 0 \nabla_\theta \prod_{i=1}^n p(x_i|\theta) = 0 θi=1np(xiθ)=0
即该θ使得联合概率分布的梯度为0
由于多项式乘法求导起来比较麻烦,可以使用“log trick”做一个转化。其原理在于,使得f(x)取得最大值的x^也能使log(f(x))取得最大值。因此 θ ^ M L = a r g max ⁡ θ ∏ i = 1 n p ( x i ∣ θ ) = a r g max ⁡ θ ln ⁡ ( ∏ i = 1 n p ( x i ∣ θ ) ) = a r g max ⁡ θ ∑ i = 1 n ln ⁡ p ( x i ∣ θ ) \hat{\theta}_{\rm ML} = \mathop{\rm arg}\max_\theta \prod_{i=1}^n p(x_i|\theta) = \mathop{\rm arg}\max_\theta \ln\left(\prod_{i=1}^n p(x_i|\theta)\right) = \mathop{\rm arg}\max_\theta \sum_{i=1}^n \ln p(x_i|\theta) θ^ML=argθmaxi=1np(xiθ)=argθmaxln(i=1np(xiθ))=argθmaxi=1nlnp(xiθ)
即要求解下面的方程:
∇ θ ∑ i = 1 n ln ⁡ p ( x i ∣ θ ) = ∑ i = 1 n ∇ θ ln ⁡ p ( x i ∣ θ ) = 0 \nabla_\theta \sum_{i=1}^n \ln p(x_i|\theta) = \sum_{i=1}^n \nabla_\theta \ln p(x_i | \theta) = 0 θi=1nlnp(xiθ)=i=1nθlnp(xiθ)=0
求解方式有两种
解析形式:通过一系列等式推导
数值形式:迭代求解,等待收敛。如果收敛到了一个局部最优解,则只能看作是真正解的近似值。

原文地址:

http://txshi-mt.com/2017/06/24/edx-columbia-1-Intro-MLE/

你可能感兴趣的:(机器学习)