多项分布与生态学

先说「二项分布(binomial distribution)」,因为它是多项分布的特殊情况。二项分布就是抛硬币。现投次硬币,记正面朝上的次数为,反面朝上的次数为,每次投币正面朝上的可能性为,反面朝上的可能性为。最终,有次实验硬币投出正面、有次实验硬币投出反面的可能性为:

因为、,该式也可化为我们更熟悉的形式:

「多项分布(multinomial distribution)」,简单来说就是投骰子。这个骰子可以不止有6个面(如果你见过那种神奇的多边形骰子的话;我甚至见过32个面的)。

有一种美,叫做数学演绎美,它让我们凭直觉写出正确的表达式——多项分布的联合概率分布:

其中,,表示骰子有多少面。

一、参数估计:π

有了统计分布,接下来干什么呢?也许是「参数估计」吧。这应该是最常规的想法。想想,是不是这样呢?通常,人们知道了模型的拓扑结构,下一步便渴望估计出模型参数,因为「拓扑结构」「模型参数」构成了完整的「模型」。神经网络、马尔可夫链……一个又一个模型,似乎都是如此。

那我们就用极大似然法估计多项分布的模型参数吧。将似然函数(联合概率分布函数)取对数:

其中,,。接下来,需要求该似然函数的驻点。

拉格朗日乘数法(lagrange multiplier method)

已经好久没有接触它了,既十分熟悉,又有点陌生。至少,它让我们怀念起大一时坐在教室里的那段时光。

它是一种求多元函数在一个或者多个约束条件下极值的一种方法。

对于函数和一组限制条件,要求该函数的驻点,可先构造拉格朗日函数:

计算拉格朗日函数的驻点,它就是原函数的最值怀疑点:

\left\{ \begin{gathered} \begin{matrix} \frac{∂L}{∂x_1}=0  \\ \frac{∂L}{∂x_2}=0 \\... \\\frac{∂L}{∂x_m}=0 \\\frac{∂L}{∂λ_1}=ψ_1(x_1,x_2,...,x_m) = 0 \\\frac{∂L}{∂λ_2}=ψ_2(x_1,x_2,...,x_m) = 0 \\... \\\frac{∂L}{∂λ_s}=ψ_s(x_1,x_2,...,x_m) = 0\end{matrix} \end{gathered} \right\}

对于多项分布的似然函数,求其驻点,满足:,以及

将求得的驻点、化简,得:。这非常符合直觉。也就是说,要估计多项分布的参数,我们直接多投几次骰子,统计下每个面出现的频率,就把多项分布的参数算出来了。

二、参数估计:m

有没有注意到,上述过程估计出了参数,但还没有估计参数。如果未知,那么模型依然是不完全的。

如何估计呢?

设想一下,现在投一个骰子,但骰子有几面是不清楚的。现在投次,是否能够保证骰子中的每一面都能有露脸的机会呢?显然不一定。可能有几面(例如,4点)出现的频率特别高,有几面(例如,7点)出现的频率特别低,甚至有几面根本就没有出现。因而露脸的骰子面数和骰子真实的面数是不能划等号的。

取而代之的是,会有个面永远都不会露脸。

假设每个面出现的概率为,则每个面都有可能永不露脸,其概率为。

因而不露脸的面的数量的数学期望。同理,

这样,我们想知道的就等于观测到的露脸的面数加上。但我们只能从实验中测得,表达式本身还含有,因此我们必须想办法把这个弄掉。这在高中阶段,叫做不等式放缩。

根据柯西不等式,

也即,

所以,。和的确是能够从数据中获得的。

生态学者看到这个式子应该都觉得十分亲切,因为它就是赵莲菊老师在1984年提出的生物多样性测度,后人称之为统计量。这个统计量的使用频率就不用多说了,比如最近的一篇文章《The number of tree species on Earth》。

有了和的估计方法后,多项分布就能很好地进行重建了。

三、生态学中的多项分布

生态学是一门研究与生命系统相关(≥个体水平)的各种模式及其成因的一门学科。生态学中的数据大到遥感,小到基因测序,对现实世界中的各种研究对象及其相关属性进行采样。

样地调查是生态学中最常见的数据收集方式。对一个区域进行物种调查,每个物种都有一定几率被发现。假定物种被发现的概率与其真实频率相同,那么物种被取到的概率就满足多项分布。

分子标记技术的发展为揭示生态学现象提供新的工具。在基因组中选取某个位点,这个位点出现A、T、C、G的可能性各不相同,满足多项分布。系统发育树构建时,选取个物种,每个物种的每个位点都有A、T、C、G四种可能,那么对于单一位点,就有种可能,这种可能的概率分布满足多项分布。

无人机从空中飞过,拍摄出各种各样的景观:林木、林窗、水体……这也是多项分布。

估测多项分布有多少种,可以用统计量;

估测每一项的概率,频率 ≈ 概率。

你可能感兴趣的:(多项分布与生态学)