首先对这章要用到的概率知识点做一些回顾
概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
展开分母
贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)
我们假设响警报的目的就是想说汽车被砸了。把A计作“汽车被砸了”,B计作“警报响了”,带进贝叶斯公式里看。
我们想求等式左边发生A|B的概率,这是在说警报响了,汽车也确实被砸了。汽车被砸引起(trigger)警报响,即B|A。但是,也有可能是汽车被小孩子皮球踢了一下、被行人碰了一下等其他原因(统统计作∼A),其他原因引起汽车警报响了,即B|∼A。
那么,现在突然听见警报响了,这时汽车已经被砸了的概率是多少呢(这即是说,警报响这个证据有了,多大把握能相信它确实是在报警说汽车被砸了)?想一想,应当这样来计算。用警报响起、汽车也被砸了这事件的数量,除以响警报事件的数量(这即【式1】)。进一步展开,即警报响起、汽车也被砸了的事件的数量,除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量(这即【式2】)
该输入有两个:x表示某一个具体的数据;θ表示模型的参数。
如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。
如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。
例如, , 即x的y次方。如果x是已知确定的(例如x=2),这就是, 这是指数函数。 如果y是已知确定的(例如y=2),这就是,这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。
举例:一枚硬币,想知道抛这枚硬币,正反面出现的概率(记为)各是多少?
这是一个统计问题:data 到 model()
硬币抛10次,得到的数据()是:反正正正正反正正正反。我们想求的正面概率是模型参数,而抛硬币模型我们可以假设是 二项分布。那么,出现实验结果(即反正正正正反正正正反)的似然函数是多少呢?
注意,这是个只关于θ的函数。
而最大似然估计,顾名思义,就是要最大化这个函数,见下图,找极值。
可以看出,在=0.7时,似然函数取得最大值。
这样,我们已经完成了对的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。(ummm..这非常直观合理,对吧?)
这里包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。
最大似然估计是求参数, 使似然函数最大。最大后验概率估计则是想求使 最大。求得的不单单让似然函数大,自己出现的先验概率也得大。
MAP其实是在最大化 ,因为分母其实是已知且固定的。最大化的意义也很明确,x0已经出现了,要求取什么值使最大。顺带一提,即后验概率,这就是“最大后验概率估计”名字的由来。
对于投硬币的例子来看,我们认为(”先验地知道“)取0.5的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设P(θ)为均值0.5,方差0.1的高斯函数,如下图
则的图像为
注意,此时函数取最大值时,θ取值已向左偏移,不再是0.7。实际上,在θ=0.558时函数取得了最大值。即,用最大后验概率估计,得到θ=0.558。
https://www.cnblogs.com/jermmyhsu/p/8251013.html
https://blog.csdn.net/u011508640/article/details/72815981