极大似然估计的一些学习整理

尊重原创,尊重每个人的成果,所以把参考的博文放在首位:

这篇博文讲的很肤浅但是很通透 :https://blog.csdn.net/u011058765/article/details/51435502

这篇博文讲的很到位,很深刻,本文的大部分也是摘自此博文:https://blog.csdn.net/zengxiantao1994/article/details/72787849

极大似然估计法:

思想:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值!

例子:

设有一批产品,甲认为次品率为0.1,乙认为次品率为0.3,现从产品中随机抽取15件,发现有5件词频,问甲乙谁的估计更准一些?

解:记词频数为X,则X~B(n,p)

若次品率 p = 0.1,则15件中有5件次品的概率为:

若次品率p = 0.3,则15件中有5件次品的概率为:

则,后一概率明显大于前一概率,因此用次品率为0.3的估计值更可靠一些。

前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。

推导:

由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:

似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。

 

        如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:

 

求解极大似然函数

        ML估计:求使得出现该组样本的概率最大的θ值。

 

         实际中为了便于分析,定义了对数似然函数:

        1. 未知参数只有一个(θ为标量)

        在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:

        2.未知参数有多个(θ为向量)

        则θ可表示为具有S个分量的未知向量:

 

         记梯度算子:

 

         若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。

 

         方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。

 

极大似然估计的例子

        例1:设样本服从正态分布,则似然函数为:

 

        它的对数:

 

        求导,得方程组:

 

 

        联合解得:

 

        似然方程有唯一解:,而且它一定是最大值点,这是因为当时,非负函数。于是U和的极大似然估计为

 

        例2:设样本服从均匀分布[a, b]。则X的概率密度函数:

 

        对样本

 

        很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于,否则,L(a,b)=0。类似地a不能大过,因此,a和b的极大似然估计:

求最大似然估计量的一般步骤:

        (1)写出似然函数;

        (2)对似然函数取对数;

        (3)求导数(偏导);

        (4)解似然方程。

        最大似然估计的特点:

        1.比其他估计方法更加简单;

        2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;

        3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。

经典算法模型例子:

逻辑回归原理及公式推导

1.线性回归的主要思想是通过历史数据拟合出一条直线,来进行预测

z = \theta^{_{0}}+ \theta^{_{1}}x_{1} + \theta^{_{2}}x_{2}+.......+ \theta^{_{n}}x_{n} = \theta ^{T}X

2.逻辑回归是基于线性回归,将线性回归的值映射到(0,1)上

h_{\theta }(x) =\frac{1}{1+e^{-z}} = \frac{1}{1+e^{-\theta ^{T}X}}

其中,y=\frac{1}{1+e^{-x}}为sigmoid函数

当 h_{\theta }(x)<0.5 ,x属于A类

当 h_{\theta }(x)\geq 0.5 ,x属于B类

P(y=1|x;\theta ) = h_{\theta }(x)

P(y=0|x;\theta ) =1- h_{\theta }(x)​​​​​​​

概率函数为:

P(y|x;\theta ) =(h_{\theta }(x))^{y}*(1- h_{\theta }(x))^{1-y}

因为样本数据独立,所以它们的联合分布可以表示为各边际分布的乘积,取似然函数为:

L(\theta ) = \coprod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta ) = \coprod_{i=1}^{m}(h_{\theta }(x^{(i)}))^{^{y^{(i)}}}*(1-h_{\theta }(x^{(i)}))^{^{1-y^{(i)}}}

取对数似然函数:

l(\theta )=log(L(\theta )) =\frac{1}{m} \sum_{i=1}^{m}(y^{(i)}\cdot log(h_{\theta })+ (1-y^{(i)})\cdot log(1-(h_{\theta })))

最大似然估计就是要求l(\theta )的值最大时的\theta,这里可以使用梯度上升法。

J(\theta ) = -\frac{1}{m}l(\theta)

因乘了一个负的系数,所以可以用梯度下降求解!

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(努力成为数据分析大牛)