尊重原创,尊重每个人的成果,所以把参考的博文放在首位:
这篇博文讲的很肤浅但是很通透 :https://blog.csdn.net/u011058765/article/details/51435502
这篇博文讲的很到位,很深刻,本文的大部分也是摘自此博文:https://blog.csdn.net/zengxiantao1994/article/details/72787849
极大似然估计法:
思想:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值!
例子:
设有一批产品,甲认为次品率为0.1,乙认为次品率为0.3,现从产品中随机抽取15件,发现有5件词频,问甲乙谁的估计更准一些?
解:记词频数为X,则X~B(n,p)
若次品率 p = 0.1,则15件中有5件次品的概率为:
若次品率p = 0.3,则15件中有5件次品的概率为:
则,后一概率明显大于前一概率,因此用次品率为0.3的估计值更可靠一些。
前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。
推导:
由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:
似然函数(linkehood function):联合概率密度函数称为相对于的θ的似然函数。
如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:
ML估计:求使得出现该组样本的概率最大的θ值。
实际中为了便于分析,定义了对数似然函数:
1. 未知参数只有一个(θ为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
2.未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
记梯度算子:
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
例1:设样本服从正态分布,则似然函数为:
它的对数:
求导,得方程组:
联合解得:
似然方程有唯一解:,而且它一定是最大值点,这是因为当或时,非负函数。于是U和的极大似然估计为。
例2:设样本服从均匀分布[a, b]。则X的概率密度函数:
对样本:
很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于,否则,L(a,b)=0。类似地a不能大过,因此,a和b的极大似然估计:
求最大似然估计量的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数;
(3)求导数(偏导);
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
经典算法模型例子:
逻辑回归原理及公式推导
1.线性回归的主要思想是通过历史数据拟合出一条直线,来进行预测
2.逻辑回归是基于线性回归,将线性回归的值映射到(0,1)上
当 ,x属于A类
当 ,x属于B类
概率函数为:
因为样本数据独立,所以它们的联合分布可以表示为各边际分布的乘积,取似然函数为:
取对数似然函数:
最大似然估计就是要求的值最大时的,这里可以使用梯度上升法。
因乘了一个负的系数,所以可以用梯度下降求解!