基础数学系列(一)--似然函数与最大似然估计

1.似然函数

(1)离散型

若总体X属离散型,其分布律P{X=x}=p(x;\theta),\theta \in \Theta的形式为已知,\theta为待估参数,\Theta\theta可能取值的范围,设X_{1},X_{2},\cdot \cdot \cdot ,X_{n}是来自X的样本,则X_{1},X_{2},\cdot \cdot \cdot ,X_{n}的联合分布律为:

                                                                      \prod _{i=1}^{n}p(x_{i};\theta ).

又设x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}是相应于样本X_{1},X_{2},\cdot \cdot \cdot ,X_{n}的一个样本值,易知样本X_{1},X_{2},\cdot \cdot \cdot ,X_{n}取到观测值x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}的概率,亦即事件{X_{1}=x_{1},X_{2}=x_{2},...,X_{n}=x_{n}}发生的概率为

                                                    L(\theta )=L(x_{1},x_{2},...,x_{n};\theta )=\prod_{i=1}^{n}p(x_{i};\theta ),\theta \in \Theta

这一概率随\theta的取值而变化,它是\theta的函数,L(\theta )称为样本的似然函数(这里x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}是已知的样本值,它们都是常数).

               那么我们可以作如下考虑:现在已经取到样本值x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}了,这表明取到这一样本值的概率L(\theta )比较大,我们当然不会考虑那些不能使样本x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}出现的\theta \in \Theta作为\theta的估计,再者,如果已知当\theta =\theta _{0}\in \Theta时使L(\theta )取得很大值,而\Theta中其他\theta值是L(\theta )取很小值,我们自然认为取\theta _{0}作为未知参数\theta的估计值较为合理.由费希尔引进的最大似然估计法,就是固定样本观察值x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n},在\theta取值的可能范围\Theta内挑选使似然函数L(x_{1},x_{2},...,x_{n};\theta )达到最大的参数值\hat{\theta },作为参数\theta的估计值,即取\hat{\theta }使

                                                                 L(x_{1},x_{2},...,x_{n};\hat{\theta })=\max_{\theta \in \Theta }L(x_{1},x_{2},...,x_{n};\theta )

这样得到的\hat{\theta }与样本值x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}有关,记为\hat{\theta }(x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}),称为参数\theta的最大似然估计值,而相应的统计量\hat{\theta }(X_{_{1}},X_{2},\cdot \cdot \cdot ,X_{n})称为参数\theta的最大似然估计量

(2)连续型

若总体X属连续型,其概率密度f(x;\theta ),\theta \in \Theta的形式为已知,\theta为待估参数,\Theta\theta可能取值的范围,设X_{1},X_{2},\cdot \cdot \cdot ,X_{n}是来自X的样本,则X_{1},X_{2},\cdot \cdot \cdot ,X_{n}的联合密度为:

                                                                                       \prod_{i=1}^{n}f(x_{i},\theta )

x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n}是相应于样本X_{1},X_{2},\cdot \cdot \cdot ,X_{n}的一个样本值,则随机点(X_{1},X_{2},...X_{n})落在点(x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n})的邻域(边长分别为dx_{1},dx_{2},\cdot \cdot \cdot ,dx_{n},的n维立方体)内的概率近似地为

                                                                                       \prod_{i=1}^{n}f(x_{i},\theta )dx_{i}

这一概率随\theta的取值而变化,它是\theta的函数,但因子\prod_{i=1}^{n}dx_{i}不随\theta而变故只需考虑函数

                                                                                 L(\theta )=L(x_{1},x_{2},...,x_{n};\theta )=\prod_{i=1}^{n}f(x_{i};\theta ),\theta \in \Theta

的最大值L(\theta )称为样本的似然函数,若

                                                                 L(x_{1},x_{2},...,x_{n};\hat{\theta })=\max_{\theta \in \Theta }L(x_{1},x_{2},...,x_{n};\theta )    

则称\hat{\theta }(x_{_{1}},x_{2},\cdot \cdot \cdot ,x_{n})为参数\theta的最大似然估计值,而相应的统计量\hat{\theta }(X_{_{1}},X_{2},\cdot \cdot \cdot ,X_{n})称为参数\theta的最大似然估计量 .

 

总结:已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值.最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值(利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值)

                                                                                  

 

 

 

 

 

 

 

 

 

\theta

你可能感兴趣的:(机器学习数学问题,基础数学)