在参数估计中有一类方法叫做“最大似然估计”,因为涉及到的估计函数往往是是指数型族,取对数后不影响它的单调性但会让计算过程变得简单,所以就采用了似然函数的对数,称“对数似然函数”.根据涉及的模型不同,对数函数会不尽相同,但是原理是一样的,都是从因变量的密度函数的到来,并涉及到对随机干扰项分布的假设.
最大似然估计法的基本思想
极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。
最大似然估计法的基本思想
最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个 作为真
的估计。
为简单起见,以下记 ,求θ的极大似然估计就归结为求
的最大值点.由于对数函数是单调增函数,所以
(7.2.1)
与 有相同的最大值点。
而在许多情况下,求 的最大值点比较简单,于是,我们就将求
的最大值点改为求
的最大值点。
对 关于 求导数,并命其等于
零,得到方程组
解这个方程组,又能验证它是一个极大值点,则它必是 ,也就是
的最大值点,即为所求的最大似然估计。
科学网—最大似然估计法 - 简建波的博文
是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。probability density function,简称PDF。
设X是随机变量,如果存在一个非负函数f(x), 使得对任意实数a,b(aP(a<X≤b) = ∫f(x)dx, (积分下限是a,上限是b) f(x)叫X的概率密度函数
这里指的是一维连续随机变量,其他类似
N(a,b^2)
a是均值,b^2是方差:a变大,分布曲线向右移,反之成立
b^2变大,分布曲线变平缓
b^2变小,分布曲线变陡峭
已知总体概率密度函数形式但未知样本所属的类别,要求推断出概率密度函数的某些参数,这种推断方法称之为非监督情况下的参数估计。 这里提到的监督参数估计和非监督参数估计中的监督和非监督是指样本所属类别是已知还是未知。但无论哪种情况下的参数估计都是统计学中的经典问题,解决的方法很多。
最常用的有两种:
一种是最大似然估计方法。最大似然估计把参数看做是确定(非随机)而未知的,最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。
另一种是贝叶斯估计方法。贝叶斯估计则是把参数当做具有某种分布的随机变量,样本的观察结果使先验分布转换为后验分布,再根据后验分布修正原先对参数的估计。
虽然两者在结果上通常是近似的,但从概念上来说它们的处理方法是完全不同的。
先验概率可理解为统计概率,后验概率可理解为条件概率。
先验分布:根据一般的经验认为随机变量应该满足的分布
后验分布:通过当前训练数据修正的随机变量的分布,比先验分布更符合当前数据
似然估计:已知训练数据,给定了模型,通过让似然性极大化估计模型参数的一种方法
后验分布往往是基于先验分布和极大似然估计计算出来的。