极大似然估计

0、似然函数  

在统计学中,似然函数简称似然。似然和概率所表达的意义是完全不同的:
  • 给定参数值的情况下,概率用于描述未来出现某种情况的观测数据的可信度。
  • 给定观测数据 的情况下,似然用于 描述参数值 的可信度。
下面介绍似然函数的定义。最大似然估计一个重要前提假设是:数据样 本之间是独立同分布的。现考虑有一个数据集 x,在给定条件θ下,服从一定的概率分布(二项分布或高斯分布)。根据变量是离散型还是连续型,似然函数的定义也分为离散型和连续型两种。
\begin{array}{r} \mathrm{x}=\left\{x_{1}, x_{2}, \ldots, x_{n}\right\} \\ \theta=\left\{\theta_{1}, \theta_{2}, \ldots, \theta_{n}\right\} \end{array}

对于离散型x,事件A=\left\{X_{1}=x_{1}, X_{2}=x_{2}, \ldots, X_{n}=x_{n}\right\}则事件 发生的概率为\mathrm{P}(\mathrm{X}=\mathrm{x} \mid \theta)=\mathrm{p}\left(\mathrm{x}_{1}, \ldots, \mathrm{x}_{\mathrm{k}} \mid \theta_{1}, \ldots, \theta_{\mathrm{k}}\right),因为数据样本之间是独立同分布的,所以有等式:

\mathrm{L}\left(\theta_{1}, \ldots, \theta_{\mathrm{k}} \mid \mathrm{x}\right)=\prod_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}_{\mathrm{i}} \mid \theta_{1}, \ldots, \theta_{\mathrm{k}}\right)

\mathrm{L}\left(\theta_{1}, \ldots, \theta_{\mathrm{k}} \mid \mathrm{x}\right)为离散型样本 x 的似然函数。
对于 连续型 x ,事件 A 发生的概率密度函数为\mathrm{f}\left(\mathrm{x} \mid \theta_{1}, \ldots, \theta_{\mathrm{k}}\right)因为数据样本之间是独立同分布的,所以有等式:
\mathrm{L}\left(\theta_{1}, \ldots, \theta_{\mathrm{k}} \mid \mathrm{x}\right)=\prod_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{f}\left(\mathrm{x}_{\mathrm{i}} \mid \theta_{1}, \ldots, \theta_{\mathrm{k}}\right)

现在结合实例来深入理解似然与概率。 

考虑经典的掷硬币问题,定义参数 θ 表示硬币的公平性。这个参数 θ 即为掷硬币时正面朝上的概率,θ 的取值可以为 [0, 1] 区间的任意一个值。当然,对于一个均匀的硬币来说,θ 的取值应该是 0.5
现在假设我们掷了两次硬币,假设每次掷硬币的结果是独立同分布的。 那么在给定参数值 θ = 0 . 5 的情况下,预计观测到两次正面朝上的概率为:
根据前面关于离散型随机变量似然函数的定义,我们知道,基于给定的观测数据(观测到两次正面朝上),我们认为参数 θ = 0 . 5 的似然 (likelihood)为 0.25 ,即:
这里可不能按照概率表达式的理解,读作在两次正面朝上的情况下, θ = 0 . 5 的概率为 0.25 。它实际上表达的含义是,在观测到两次正面朝上的情况下,我们推测硬币正面朝上的概率 θ = 0 . 5 的可信度为 0.25

1、极大似然估计

极大似然估计是参数估计中点估计的一种,点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于 样本的量,作为未知参数或未知参数的函数的估计值
一般来说,我们假定模型结构是已知的,参数是未知的,数据是已知的。通过已知数据推出未知的参数。
似然函数取得最大值表示相应的参数能够使统计模型最为合理, 即在 单个样本情况下,已知某个参数能使这个样本出现的概率最大;在多个样 本情况下,已知某个参数能使所有样本出现的概率之和最大。 所以干脆就把这个参数作为估计的真实值。求最大似然函数估计值的一般步骤:
  1. 写出似然函数。
  2. 对似然函数取对数。
  3. 对函数待估的参数求导数(偏导)。
  4. 在导数为 0 情况下,解似然方程,得到该参数的估计值。  

为什么要对似然函数取对数?为什么可以用对数函数进行转换呢?

在实际问题中,对于大批量的样本,其概率值是由很多项相乘组成的式子,对于参数 θ 的求导,是一个很复杂的问题,于是有一个直观的想法,就是把它转成对数函数,累乘就变成了累加。
首先可以知道的是,每一个观测结果的概率是大于 0 的,所以是满足对 数函数的定义域的。然后对数函数 f ( x ) = lnx 是一个单调递增的函数。如果 f ( x ) 为单调函数,那么对于函数 g ( x ) f ( g ( x )) g ( x ) 在同一个定义域内的变化趋势是一致的。用对数函数对前面的似然函数进行转换之后,是 不会影响原来似然函数的变化趋势的,即对数似然函数的最大值点就是似 然函数的最大值点

 

你可能感兴趣的:(算法,算法)