本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找了几个实例给大家看看这两种估计如何应用 & 其非常有趣的特点。
概率(probability)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。
概率研究的是,已经知道了模型和参数后,给出一个事件发生的概率。
概率是一种确定性的东西,是一种理想值。根据大数定理,当实验次数趋近无穷的时候,频率等于概率。
频率学派就是认为世界是确定的,建模时候参数 θ 是一个确定的值,因此他们的观点是直接的对时间本身进行建模。
统计是根据给出的观测数据,利用这些数据进行建模和参数的预测。
统计通俗的说法就是根据观测的数据,得到对应的模型以及模型的描述参数等(例如推测是一个高斯模型,以及得到该模型的具体的参数 σ,μ 等)。
一句话总结:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
频率学派和贝叶斯学派对世界的认知有本质不同。
频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;
贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件在独立重复试验中发生的频率趋于极限,那么这个极限就是该事件的概率。
贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。
概率:参数 + 观测 --> 结果
似然:观测 + 结果 --> 参数
假如有一个函数 P(x|θ)
, 其中θ是需要估计的参数,x是具体的数据也就是样本。
如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少(表示不同x出现的概率)。
概率函数属于已知模型和参数对时间进行预测分析。概率函数用于在已知一些参数的情况下,预测接下来的观测所得到的结果。
如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数θ,出现x这个样本点的概率是多少(表示不同θ下,x出现的概率)。此时的函数也记作L(θ|x)或L(x;θ)或f(x;θ)
似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性(可能性)。就是给定一组观测数据,对有关事物的性质的参数进行估计,即已知具体样本数据,对于模型的参数进行分析预测。
最大似然就是模型参数的最大可能性。
参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。
所谓的“机器学习”就是把大量的数据归纳到少数的参数中,“训练”正是估计这些参数的过程。
现代机器学习的终极问题都会转化为解目标函数的优化问题,MLE和MAP是生成这个函数的很基本的思想。
在对事物建模时,用 θ 表示模型的参数,解决问题的本质就是求θ 。那么:
频率学派认为:存在唯一真值θ 。
贝叶斯学派认为: θ是一个随机变量,符合一定的概率分布。即不认为模型的参数θ是一个确定的值,而是认为参数θ 本身也服从某种潜在分布。
在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。
先验,即 θ,指的是在没有观测到任何数据时对θ 的预先判断;
似然,即 p(x|θ) ,是假设 θ已知后我们观察到的数据应该是什么样子的;
后验,即 p(θ|x) , 是最终的参数分布。
即对事件进行建模的时候,先假设有一个预估(先验概率),然后根据观测数据,不断调整之前的预估。
最大似然估计是一种“模型已定,参数未知”的方法,即利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值。
最大似然估计的思想: 使得观测数据(样本)发生概率最大的参数就是最好的参数。
通俗的说就是 —— 最像估计法(最可能估计法),即概率最大的事件,最可能发生。
极大似然估计是典型的频率学派观点,它的基本思想是:待估计参数 θ 是客观存在的,只是未知而已,当 θ-mle
满足 “ θ = θ-mle 时
,该组观测样本 (X1,X2,...,Xn) = (x1, x2,...,xn)
更容易被观测到“,我们就说 [θ-mle]
是 [θ]
的极大似然估计值。也即,估计值 [θ-mle]
使得事件发生的可能性最大。
假设分布率为 P=p(x;θ),x是发生的样本,θ是代估计的参数,p(x;θ)表示估计参数为θ时,发生x的的概率。
那么当我们的样本值为:x1,x2,...,xn
时,
L(θ) = L(x1,x2,...,xn;θ) = p(x1|θ)...p(xn|θ)
连乘
其中L(θ)成为样本的似然函数。假设有 θ^ 使得 L(θ) 的取值最大,那么 θ^ 就叫做参数 θ 的极大似然估计值
能使L(θ)最大的值,就作为参数的最大似然估计值。
而求最大似然估计的问题,就变成了求似然函数的极值。
能够使用极大似然估计方法的样本必须需要满足一些前提,比如:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量,且有充分的训练样本。
对一个独立同分布的样本集来说,总体的似然就是每个样本似然的乘积。由于总体的似然就是每个样本似然的乘积,但是连乘计算起来比较麻烦,而且会有如下问题:
下溢出问题:是太多很小的数相乘,结果可能会很小,就造成了下溢出。
浮点数舍入问题:是程序中在相应小数位置进行四舍五入,计算结果可能就变成0。
为了求解方便,我们通常会将似然函数取对数,从而转成对数似然函数。
转成对数似然函数还有如下好处:
lnab = blna、lnab = lna + lnb
,求导就很方便了。公式中的概率连乘变成了对数概率相加。既然似然函数可导,那么就可以通过求导数的方式得到驻点,从而算出极大值。
如果对数似然函数简单,是可以直接求导得到,但是在更多的情况下,我们需要通过梯度下降法等最优化算法来求解。而绝大部分最优化的工具包都默认求函数的最小值,因此别忘了在你把它塞给一个最优化工具包之前,把你的log似然 乘以 -1 变成负log似然(Negative Log Likelihood)。
这也是某些文章中有如下公式的原因:
θ = a r g m a x l ( θ ) = − a r g m i n l ( θ ) θ =arg max l(θ)=-arg min l(θ) θ=argmaxl(θ)=−argminl(θ)
举一个网上的经典例子:
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是P(Data | M),这里Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1,第二抽样的结果记为x2... 那么Data = (x1,x2,…,x100)。这样,
P(Data | M)
= P(x1,x2,…,x100|M)
= P(x1|M)P(x2|M)…P(x100|M)
= p^70(1-p)^30.
那么p在取什么值的时候,P(Data |M)的值最大呢?将p^70(1-p)^30对p求导,并其等于零。
70p^69(1-p)^30-p^70*30(1-p)^29=0。
解方程可以得到p=0.7。
在边界点p=0,1,P(Data|M)=0。所以当p=0.7时,P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。
最大似然估计总是能精确地得到解吗?简单来说,不能。更有可能的是,在真实的场景中,对数似然函数的导数仍然是难以解析的(也就是说,很难甚至不可能人工对函数求微分)。因此,一般采用期望最大化(EM)算法等迭代方法为参数估计找到数值解,但总体思路还是一样的。
话说极大似然估计是一个平时常用的原理,我在《水浒传》中也找到了相关的应用,下面找几个看看。
非常有趣的是,应用实例的人全是北宋都头。一个是郓城县都头雷横,一个是清河县都头武松。
这能看出来北宋基层刑警一些工作特点, 他们没有现代各种科学仪器和理论的帮助,只能凭借"极大似然估计" 这个法宝在第一时间做出最可能最有效的判断。与后文中实施"极大后验概率"的小商贩石秀形成了明显区别。
假定 分布率为P=p(x;θ),x是发生的样本,θ是代估计的参数,p(x;θ)表示估计参数为θ时,发生x的的概率。
θ = 刘唐是什么人。可能取值大概是 普通人/贼人/军官…
x = 这殿里没有庙祝,殿门不关,一条大汉夜里独睡。
雷横这经验丰富的老刑警,立刻做出了最可能的判断。
θ 是"刘唐是贼"。
第十二回青面兽北京斗武急先锋东郭争功
只说雷横当晚引了二十个士兵出东门绕村巡察,遍地里走了一遭,回来到东溪村山上,众人采了那红叶,就下村来。
行不到三二里,早到灵官庙前,见殿门不关。
雷横道:“这殿里又没有庙祝,殿门不关,莫不有歹人在里面么?我们直入去看一看。”众人拿着火一齐将入来。
只见供桌上禁止地睡着一个大汉。
天道又热,那汉子把些破衣裳团做一块作枕头枕在项下,的沉睡着了在供桌上。
雷横看了道:“好怪!懊怪!知县相公忒神明!原来这东溪村真个有贼!” 大喝一声。
那汉却待要挣挫,被二十个士兵一齐向前,把那汉子一条索绑子,押 出庙门,投一个保正庄上来。
假定 分布率为P=p(x;θ),x是发生的样本,θ是代估计的参数,p(x;θ)表示估计参数为θ时,发生x的的概率。
θ = 大汉是什么人。取值可能是蒋门神,店小二,隔壁店掌柜…
x = 一个金刚也似大汉在蒋门神酒店门前躺着乘凉。
武二郎立刻做出了极大似然判断,这汉在蒋门神酒店门前乘凉,长得身材金刚也似,所以这厮必然是蒋忠。
θ = “大汉是蒋门神”
第二十八回施恩重霸孟州道武松醉打蒋门神
武松酒却涌上来,把布衫摊开;虽然带着五七分酒,却装做十分醉的,前颠後偃,东倒西歪,来到林子前,仆人用手指道:“只前 头丁字路口便是蒋门神酒店。”武松道:“既是到了,你自去躲得远着。等我 打倒了,你们却来。”
武松抢过林子背後,见一个金刚来大汉,披着一领白布衫,撒开一把交椅,拿着蝇拂子,坐在绿槐树下乘凉。武松假醉佯颠,斜着眼看了一看,心中自忖道:“这个大汉一定是蒋门神了。”直抢过去。又行不到三五十步,早见丁字路口一个大酒店,檐前立着望竿,上面挂着一个酒望子,写着四个大字,道:“河阳风月”。
假定 分布率为P=p(x;θ),x是发生的样本,θ是代估计的参数,p(x;θ)表示估计参数为θ时,发生x的的概率。
θ = 王道人是什么人。可能取值是 正常道人,歹人…
x = 荒山野岭孤庵,一个先生搂着一个妇人在那窗前看月戏笑。
武二郎立刻做出了极大似然判断,这必然不是好人。
θ = “王道人是歹人”
第三十回张都监血溅鸳鸯楼武行者夜走蜈蚣岭
当晚武行者离了大树十字坡便落路走。此时是十月间天气,日正短,转眼便晚了。约行不到五十里,早望见一座高岭。武行者趁着月明, 一步步上岭来,料道只是初更天色。武行者立在岭头上看时,见月从东边上
来,照得岭上草木光辉。正看之间,只听得前面林子里有人笑声。武行者道:“又来作怪!这般一条静荡荡高岭,有甚麽人笑语!”走过林子那边去打一看,只见松树林中,傍山一座坟庵,约有十数间草屋,推开着两扇小窗,一个先生搂着一个妇人 在那窗前看月戏笑。
武行者看了,“怒从心上起,恶向胆边生,”“这是山间林下,出家人却做这等勾当!”便去腰里掣出那两口烂银也似戒刀来,在月光下看了,道:“刀却是好,到我手里不曾发市,且把这个鸟先生试刀!”
最大后验概率估计,英文为Maximum A Posteriori Estimation,简写为MAP。MAP是贝叶斯学派常用的参数估计方法 。
先回顾下似然函数的概念:函数 P(x|θ), 其中θ是需要估计的参数,x 是具体的数据也就是样本。如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function),它描述对于不同的模型参数,出现x这个样本点的概率是多少。
最大后验概率估计可以从最大似然估计推导出来。
最大似然估计是求参数θ, 使似然函数P(x|θ)最大。
最大后验概率估计则是想求θ使 P(x|θ)P(θ) 最大。求得的 θ 不单单让似然函数大,θ 自己出现的先验概率也得大。
MAP是在最大化 P(x|θ)P(θ)
因为在实际实验中,p(x)是已经发生了,所以p(x)是一个固定数值, 是观测到的。因而
MAP也就是在最大化 P(x|θ)P(θ) / P(x)
此时可见,MAP受到两个部分的影响,P(x∣θ) 和P(θ) ,前者类似于似然函数,后者是参数的先验分布。
P(x|θ)P(θ) / P(x) ==> 就是 p(θ|x)。所以
MAP是在最大化 p(θ|x) = P(x|θ)P(θ) / P(x)
最大化P(θ|x)的意义也很明确,x 已经出现了,要求θ取什么值使P(θ|x)最大。顺带一提,P(θ|x)即后验概率,这就是“最大后验概率估计”名字的由来。
最大似然估计认为使似然函数P(x|θ)最大的参数θ即为最好的θ,此时最大似然估计是将θ看作固定的值,只是其值未知;
最大后验概率分布认为θ是一个随机变量,即θ具有某种概率分布,称为先验分布,求解时除了要考虑似然函数P(x|θ)之外,还要考虑θ的先验分布P(θ),因此其认为使P(x|θ)P(θ)取最大值的θ就是最好的θ。
此时要最大化的函数变为P(x|θ)P(θ), 由于x的先验分布p(x)是固定的(可通过分析数据获得),因此最大化函数可变为P(x|θ)P(θ)/P(x),根据贝叶斯法则,要最大化的函数P(x|θ)P(θ)/P(x) = p(θ|x),因此要最大化的函数是p(θ|x),而p(θ|x)是θ的后验概率。
在最大似然估计中,由于认为θ是固定的,因此P(θ)=1。
最大后验估计不只是关注当前样本的情况,还允许我们把先验知识加入到估计模型中,这在样本很少时候是很有用的。
最大后验,最大似然这两者的区别,其实就是对于参数θ的理解不一样。
最大后验概率估计其实就是最大似然多了一个先验概率参数(待估计参数的先验分布),也可以认为最大似然估计就是把先验概率认为是一个定值。即,如果假设 P(θ) 是均匀分布,则贝叶斯方法等价于频率方法。因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判, 那么最大后验,最大似然就相等了。
极大似然估计是有风险的,就是如果样本不足,可能就会有判别误差。
而最大后验与最大似然区别:最大后验允许我们把先验知识加入到估计模型中,这在样本很少时候是很有用的。
水浒传中极大后验概率估计的应用,就是石秀杀裴如海/潘巧云。
拼命三郎石秀是什么人?
无论是职业特色还是性格特点都决定了他不会单纯考虑 “极大似然”,而是会结合"先验条件"来实施“极大后验概率估计”,就是必须 “先验条件” & “样本” 加在一起最大。
下面原文中加粗下划线的就是石秀 之前的样本经验(先验知识):潘巧云之前就几番对石秀说过风话。
假定 分布率为P=p(x;θ),x是发生的样本,θ是代估计的参数,p(x;θ)表示估计参数为θ时,发生x的的概率。
θ = 潘巧云和裴如海的关系,可能取值是 普通香客与僧人 / 结义兄妹 / 有奸情 …
x = 石秀的观察数据
石秀通过 “连续十次以上暗中观察”,得到了观测样本,然后 “观测数据(样本)+ 先验知识 —> 发生概率最大的参数” 。
θ 是"有奸情"。
施耐庵老爷子实在厉害,在书中把石秀这个"先验 + 观察 —> 推理" 的迭代过程和心理状态写的入木三分。
第四十四回 杨雄醉骂潘巧云 石秀智杀裴如海
石秀道:“原来恁地。”自肚里已瞧科一分了。
不防石秀在布里一眼张见,早瞧科了二分,道: “‘莫信直中直,须防仁不仁!’我几番见那婆娘常常的只顾对我说些风话, 我只以亲嫂嫂一般相待。原来这婆娘倒不是个良人!莫教撞在石秀手里,敢替杨雄做个出场也不见得!”石秀一想,一发有三分瞧科了,便揭起布,撞将出来。
石秀 在门前低了头只顾寻思,其实心中已瞧科四分。
石秀都瞧科了,足有五分来不快意。
石秀不快,此时真到六分,只推肚疼,自去睡在板壁后了。
不想石秀在板壁后假睡,正瞧得看,已看到七分了。
石秀自瞧科八分了。
石秀是乖觉的人,早瞧了九分,冷地里,思量道:“这条巷是条死巷。如何有这头陀,连日来这里敲木鱼叫佛?”
石秀听得叫的跷蹊,便跳将起来去门缝里张时, 只见一个人,戴顶头巾,从黑影里,闪将出来,和头陀去了;随后便是迎儿关门。石秀瞧到十分。
贝叶斯学派有一个硬伤:凭什么去选择先验?如果选择了一个强但偏离实际的先验,MAP效果可能还不如MLE。所以贝叶斯估计准备在MAP上做进一步拓展,如何扩展呢?下面理一下思路:
首先,MLE和MAP都把参数θ看成一个未知的确定变量。MLE认为参数θ是一个固定数值。MAP认为随机变量θ具有某种概率分布,然后MAP取了后验分布的峰值(众数,mode)。
其次,mode往往不具有很强的代表性(特别是在多峰的函数中)。那么与其将后验分布的峰值拿来凑合,还不如将整个后验分布求出来,用一个分布来描述待估的参数。这就是Inference。
所以,贝叶斯估计同样假定θ是一个随机变量(服从一定概率分布),但贝叶斯估计并不是直接估计出θ的某个特定值,而是估计θ的分布,这是贝叶斯估计与最大后验概率估计不同的地方。在贝叶斯估计中,先验分布P(X)是不可忽略的。
贝叶斯学派的思想认为,世界是不确定的,因此先假设有一个预估(先验概率),然后根据观测数据,不断调整之前的预估。通俗的讲就是,对事件进行建模的时候,不认为模型的参数θ是一个确定的值,而是认为参数θ本身也服从某种潜在分布。
贝叶斯统计的重点:参数未知且不确定,因此作为未知的随机变量,参数本身也是一个分布,同时,根据已有的先验知识和样本信息可以得到参数θ的先验概率,根据先验概率来推断θ的后验概率。并期望后延概率在真实的θ值处有一个尖峰。
极大似然估计和极大后验概率估计,都求出了参数θ的值,而贝叶斯推断则不是,它根据参数的先验分布P(θ)和一系列观察X,求出参数θ的后验分布P(θ|X),即这个后验概率分布P(θ|X)其实是一系列参数值θ的概率分布,再说简单点就是我们得到了许多个参数θ及其对应的可能性,我们只需要从中选取我们想要的值就可以了。
那么如何根据后验分布进行参数估计呢?常见的方法有三种:后验分布的众数(即后验密度最大的点)、后验分布的中位数、后验分布的均值。
有时我们想要概率最大的那个参数,那这就是 后验众数估计(posterior mode estimator);
有时我们想知道参数分布的中位数,那这就是 后验中位数估计(posterior median estimator);
有时我们想知道的是这个参数分布的均值,那就是 后验期望估计。
这三种估计没有谁好谁坏,只是提供了三种方法得出参数,看需要来选择。用得最多的是后验期望估计,它一般也直接简称为贝叶斯估计。基于贝叶斯估计和基于极大似然估计的朴素贝叶斯算法步骤基本上是一样的,区别在于有没有对概率做平滑。
现在我们清楚了,在贝叶斯估计中,如果我们采用极大似然估计的思想,考虑后验分布极大化而求解 θ ,然后选取了后验分布的峰值(众数,mode),就变成了最大后验估计(Maximum A Posteriori estimation,MAP)。
作为贝叶斯估计的一种近似解,MAP有其存在的价值,因为贝叶斯估计中后验分布的计算往往是非常棘手的;而且,MAP并非简单地回到极大似然估计,它依然利用了来自先验的信息,这些信息无法从观测样本获得。
似然与似然函数
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
逻辑回归>>>>>最大似然>>>>>最大后验概率
贝叶斯估计、最大似然估计、最大后验概率估计
聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计
最大似然估计(MLE) & 最大后验概率估计(MAP)
极大似然估计的理解与应用
深入浅出最大似然估计(Maximum Likelihood Estimation)
极大似然估计详解
参数估计(2):极大似然,最大后验,贝叶斯推断以及最大熵
极大似然估计和贝叶斯估计
极大似然估计与最大后验概率估计
你对贝叶斯统计都有怎样的理解?
最大似然估计、最大后验估计、贝叶斯估计的对比
★★★★★★关于生活和技术的思考★★★★★★
微信公众账号:罗西的思考
如果您想及时得到个人撰写文章的消息推送,或者想看看个人推荐的技术资料,可以扫描下面二维码(或者长按识别二维码)关注个人公众号)。