机器学习的许多公式推导都涉及了数理统计的内容,特别是参数估计对理解机器学习很重要。这里三篇文章就对三种参数估计方法进行简单介绍。
对一些数理统计的基本概念的介绍,可参考之前的文章“数理统计学的基本概念”。
设有一个统计总体,以 f(x;θ1,⋯,θk) f ( x ; θ 1 , ⋯ , θ k ) 记其概率密度函数(若总体分布为连续型的)或其概率函数(若其总体分布为离散型的)。避免重复交代这两种情况,我们约定称 f(x;θ1,⋯,θk) f ( x ; θ 1 , ⋯ , θ k ) 为“总体分布”,其具体含义视其为连续型或离散型而定。这个分布包含k个位置参数 θ1,⋯,θk θ 1 , ⋯ , θ k 。例如,对正态总体分布 N(μ,δ2) N ( μ , δ 2 ) ,有 θ1=μ θ 1 = μ , θ2=δ2 θ 2 = δ 2 ,而
参数估计问题的一般提法是:设有了从总体中抽出样本 X1,⋯,Xn X 1 , ⋯ , X n (独立同分布),要依据这些样本去对参数 θ1,⋯,θk θ 1 , ⋯ , θ k 的未知值做出估计。当然我们也可以只要求估计 θ1,⋯,θk θ 1 , ⋯ , θ k 中的一部分,或估计他们的某个已知函数 g(θ1,⋯,θk) g ( θ 1 , ⋯ , θ k ) 。例如,为要估计 θ1 θ 1 ,我们需要构造出适当的统计量 θ1^=θ1^(X1,⋯,Xn) θ 1 ^ = θ 1 ^ ( X 1 , ⋯ , X n ) 。每当有了样本 X1,⋯,Xn X 1 , ⋯ , X n ,就代入函数 θ1^(X1,⋯,Xn) θ 1 ^ ( X 1 , ⋯ , X n ) 中计算出一个值,用来作为 θ1 θ 1 的估计值。为着这样的特定目的而构造的统计量 θ1^ θ 1 ^ 叫做 θ1 θ 1 的估计量。由于未知参数 θ1 θ 1 是数轴上的一个点,用 θ1^ θ 1 ^ 去估计 θ1 θ 1 ,等于用一个点估计另一个点,所以这样的估计叫做点估计,以别与区间估计。
矩估计法的思想比较简单:设总体分布为 f(x;θ1,⋯,θk) f ( x ; θ 1 , ⋯ , θ k ) ,则它的矩(原点矩和中心矩都可以,此处以原点矩为例)
例子
设 X1,⋯,Xn X 1 , ⋯ , X n 是从正态总体 N(μ,δ2) N ( μ , δ 2 ) 中抽取的样本,要估计 μ μ 和 δ2 δ 2 。 μ μ 是总体的一阶原点矩,按矩估计,用样本的一阶原点矩,即样本均值 X⎯⎯⎯⎯ X ¯ 去估计。 δ2 δ 2 是总体方差,即总体的二阶中心矩,可用样本的二阶中心矩 m2 m 2 去估计。一般地,在估计方差时,常用样本方差 S2 S 2 而不用 m2 m 2 ,即对矩估计做了一定的修正。
参考书目
《概率论与数理统计》——陈希孺