频率学派经典估计和贝叶斯估计
经典的频率学派的参数估计方法有矩估计和最大似然估计,假设样本是在一个客观固定的参数所确定的概率模型下生成的,这个前提下,直接先假设一个未知参数,然后根据某些原则(矩相等或者最大似然原则)求出未知参数值。由于频率学派认为参数是固定的未知常数,因此,对参数不会存在概率类似的阐述。例如,对于未知参数估计的在一定置信水平alpha下的置信区间,频率学派的正确解释是:如果进行n次试验,那么会有alpha*n次,真实的参数会落在这个置信区间中,而对于一次采样试验来说,参数是否落在这个区间是已经确定的,要么在区间中,要么不在,而不能做出多大的可能性在这个区间中的概率陈述。基于此,换个角度理解,从n次试验看,有alpha*n次试验区间会包含真实参数值,那么对于随机的一次试验来说,其是包含真实参数值的试验概率为alpha,即将对象换成事件(区间包含真实参数值),而不是参数本身,那么就可以用概率陈述。这种陈述不影响具体应用分析结果,但是对于理论理解和研究是有本质的影响的。
贝叶斯估计把未知参数也看做一个随机变量,但是这里的参数随机变量在对x采样时,参数是固定的。由于此时参数是一个随机变量,因此我们可以根据贝叶斯公式计算出参数的概率分布,基于这个概率分布,我们再进一步对未知参数做分析。比如,我们已经知道了未知参数的概率分布,那么就可以取最大概率值对应的参数作为参数估计值,这个称为众数估计,或者取中位数,抑或根据最小化MSE原则取后验分布的期望值作为估计量等。此时也可以类似置信区间,根据参数的概率分布,可以求出一定概率下的可信区间,这个可信区间表示未知参数有多大的可能性落在这个区间。
贝叶斯公式
对于未知参数在样本条件下某个取值的概率,称为后验概率,等于参数取该值的先验概率乘以参数取该值的条件下样本的似然概率,除以该样本的全概率。样本全概率对应所有参数空间中,参数后验概率和样本似然概率乘积之和。这里和的形式,体现在连续参数空间中,就是积分。
这里的参数先验概率和样本似然概率乘积,实际上就是参数和样本的联合概率,分母的全概率就是所有参数取值和当前样本联合概率之和。之所以不用联合概率的形式,而是使用先验概率、似然概率以及全概率积分形式,是因为联合概率一般不好直接处理,会分解成先验概率和具有具体概率模型的似然概率。
先验概率和后验概率
在样本条件下对参数的概率分布估计就是后验概率,后验概率的估计被分解成了先验概率、似然概率,并用全概率作为标准化因子。
先验概率是不依赖于样本的参数概率分布,或者说是在参数全样本空间下的概率分布,没有样本条件限制。由于往往比较难知道参数的客观准确的先验分布,因此在利用贝叶斯估计时,估计者会根据当前所能获得的信息,尽量给一个其认为的相对合理准确的概率分布假设。因此,先验概率某种意义上是相对主观的,依赖于估计者经验的。比如某个人说明天地震的概率是多少、明天下雨的可能性是多大,这些并没有像频率学派那样经过独立重复试验获取概率值,而是一种相对主观的,依赖于个人经验的估计,先验概率可以把估计者的这种主观信念包含进去。贝叶斯估计将主观信念和经验引入了估计中,但是也正因为如此,不同的人对先验概率的主观信念是不一样的,这导致参数估计并没有一个客观统一的结果,这是贝叶斯学派最为诟病的一个地方。
贝叶斯更新
随着样本量的增加,对参数估计的后验概率也会不断更新,上一次的后验概率会成为新样本下的先验概率。具体地,产生一个新样本,相当于在原来的条件样本空间中增加一个条件限制。将原条件样本空间看成全样本空间,新增一个样本后,形式上就相当于在新样本的贝叶斯基础上,加上原来的样本条件限制。特别的,对于独立重复采样的样本,似然概率可以直接简化,原来的条件样本下的新样本的似然概率中,原样本条件可以直接忽略,分母的条件全概率也可以同样简化。
简化之后,上次更新的后验概率变成了当前的先验概率,新增样本似然概率和全概率形式也相对简单。
贝叶斯估计量是渐进有效的,随着样本量增加,最开始的先验概率对最终后验估计的影响可以忽略。
先验分布和共轭先验
对于先验分布,如果对参数的先验分布没有更多有效的信息,那么可以给参数样本空间中的值赋予相同的概率,即均匀分布。
大多数情况下,为了方便计算,选取beta分布作为先验分布,由于beta分布作为先验分布,其后验分布也是beta分布,后验分布后续继续作为先验分布进行更新,这样就会一直保持beta分布,可以极大简化计算。这种先验分布经过更新之后,后验分布依然保持相同类型的分布称为共轭先验。
蒙特卡洛随机采样
得到后验分布之后,需要在后验分布的基础上,进一步计算估计量,比如期望、均值或者众数等。这就涉及到概率分布的统计分析。
对于简单的后验分布,有时候甚至有明确的累计分布函数,那么可以直接通过累计分布函数的逆函数进行采样,通过一个0-1之间的均匀分布作为累计分布函数的逆函数自变量,生成的函数值就是样本值。
后验分布很多时候并没有很好的形式,可能会很复杂,甚至由于分母的参数空间积分形式可能很复杂,导致并没有准确的解析公式,只有数值近似。
这时候,对于复杂的概率分布,就需要用到蒙特卡洛随机模拟方式采样。
给定一个概率密度函数,如何基于此进行采样,使得样本服从该分布?经典的方法有拒绝-接受采样。具体地,选取一个建议分布,该建议分布只要满足概率密度函数可以经过尺度变换,在任意点都不小于后验概率密度函数,即存在常数c,使得c*建议分布不小于后验分布,那么这个建议分布就是可以的。同时这个建议分布应该是计算机可以相对简单进行采样的。然后对这个建议分布和0-1之间的均匀分布同时采样,只要建议分布采样对应的后验概率密度函数值和建议分布概率密度函数值的比值不大于均匀分布的采样值,那么就接受这个建议分布的采样样本,否则拒绝这个样本。如此反复多次采样,最后的样本分布会逼近后验分布。
为何如此采样就可以逼近后验分布?其实很好理解。任意取参数样本空间中的两点,对于建议分布来说,这两点产生的样本量之比等于建议分布的概率密度函数值之比,样本接受的概率之比等于后验概率密度函数值之比乘以建议分布概率密度函数值之比的倒数,最后两点被接受样本量之比就等于上述两者乘积,建议分布的两项互为倒数项乘积为1,互相抵消,从而可知两点的有效样本量之比就等于后验概率密度函数值之比,也就是有效样本的分布服从后验分布。
最后
通过前文可知,贝叶斯估计中,将主观经验或者说个性知识通过先验分布引入了参数估计中,从而使得估计出现差异化。但也正因此,这种主观性带来的差异,经常被诟病。
贝叶斯估计需要基于后验分布进行统计分析,但是由于后验分布可能会很复杂。在现代计算机充分发现之前,蒙特卡洛随机采样这种大数据模拟方式难以运用到现实中,这是的贝叶斯估计在此之前实际应用比较少,而实际上贝叶斯估计理论简单,但是争议较大,原本的优势本来也就是在于实际应用,这使得贝叶斯方法之前一直被忽视。直到现代计算机出现,使得大规模的随机模拟可以实现,从而可以计算后验分布,这才使得贝叶斯方法的优势得以体现,如今贝叶斯方法是相当重要且应用广泛的方法。