设随机变量 X 的 N 个样本为 X1,X2,...,Xn ,则
1. 样本均值为:
矩估计,即矩估计法,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。
1. 设总体的期望为 μ ,方差为 σ2 ( μ 和 σ 未知,待求),则有
原点矩表达式:
根据该总体的一组样本,求得原点矩:
这部分内容转载自这里
最大似然估计的核心思想是:找到参数θ的一个估计值,使得当前样本出现的可能性最大。简单说来就是:谁大像谁!
假设有一组独立同分布 (i.i.d) 的随机变量 X ,给定一个概率分布 D ,假设其概率密度函数为 f ,以及一个分布的参数 θ ,从这组样本中抽出 x1,x2,⋯,xn ,那么通过参数 θ 的模型f产生上面样本的概率为:
最大似然估计会寻找关于θ 的最可能的值,即在所有可能的 θ 取值中,寻找一个值使这个采样的“可能性”最大化!
因为是”模型已定,参数未知”,此时我们是根据样本采样 x1,x2,⋯,xn 取估计参数θ,定义似然函数为:
问:假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
解:我们假设罐中白球的比例是 p ,那么黑球的比例就是 1−p 。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜 色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是 p(x|θ) ,这里x是所有的抽样, θ 是所给出的模型参数,表示每次抽出来的球是白色的概率为 p 。
按照第二部分提到的似然估计求解过程,先写出似然函数:
统计学里有两个大的流派,一个是频率派,一个是贝叶斯派。时至今日,这两派还未就各自的观点达成统一。我们前面提到的最大似然估计就是频率派的典型思路,接下来再看看贝叶斯派的思路,到底跟频率派估计有何不同。
先来看几个相关的小公式:
两个随机变量 x,y 的联合概率 p(x,y) 的乘法公式:
那么条件概率就可以表示为:
对于一个完备事件组 y1,y2,⋯,yn ,可以使用全概率公式:
通过观察MLE与Bayes的公式,发现Bayes公式比MLE公式里就多了一项 p(yi) (咱们先抛开 p(x) 不考虑),而条件概率或者说似然概率的表达式是一致的。从数学表达式的角度来说,两者最大的区别就在这里:贝叶斯估计引入了先验概率,通过先验概率与似然概率来求解后验概率。而最大似然估计是直接通过最大化似然概率来求解得出的。
换句话说,最大似然估计没有考虑模型本身的概率,或者说认为模型出现的概率都相等。而贝叶斯估计将模型出现的概率用先验概率的方式在计算过程中有所体现。
举个大家上学时候就遇到的例子:
假如人们会感染一种病毒,有一种测试方法,在被测试者已感染这个病毒时,测试结果 为阳性的概率为95%。在被测试者没有感染这个病毒时,测试结果为阳性的概率为2%。现在,有一个人的测试结果为阳性,问这个人感染了病毒吗?
如果用最大似然估计的方法,既然感染了病毒出现阳性的概率为95%,没感染出现阳性的概率为2%,本着谁大像谁的原则,那我就认为这个人已经感染了病毒。
但是如果用贝叶斯方法进行估计,如果我们得知有一个先验概率,比如整体人群中只有1%的人会感染此种病毒,那么由贝叶斯公式:
其中,p(真阳性|检测为阳性)为后验概率,即我们通过检测出为阳性可以判断为真阳性的概率; p(真阳性) 为先验概率, p(检测为阳性|真阳性) 为条件概率, p(真阳性)p(检测为阳性|真阳性)+p(真阴性)p(检测为阳性|真阴性) 为全概率,检测出为阳性是由一个完备事件组构成的:这个人要么是真阳性,要么是真阴性。
由此可见,在贝叶斯估计中,先验概率对结果的影响很大。在这种场景下,采用贝叶斯估计似乎更为合理一些。
最后来个总结:从本质上来说,最大似然是对点估计,贝叶斯推断是对分布估计。即,假设求解参数θ,最大似然是求出最有可能的θ值,而贝叶斯推断则是求解θ的分布。
MLE简单又客观,但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下,MLE的效果并不好。比如我们前面举的病毒的例子。在这种情况下,我们可以通过加入先验,用贝叶斯估计进行计算。
贝叶斯估计最要命的问题是,实际应用场景中的先验概率不是那么好求,很多都是拍脑袋决定的。一旦是拍脑袋决定的,这玩意自然就不准;更有甚者,很多时候是为了方便求解生造出来一个先验。那既然这样,要这个先验还有什么卵用呢?所以频率派的支持者就揪住这点不放攻击贝叶斯派。
在现在看来,Frequentist与Bayesian这两派还将长期并存,在各自适合的领域发挥自己的作用。
偏差(bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
方差(Variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。