机器学习两大流派

机器学习分为两个流派:

频率派 ——  统计机器学习

贝叶斯派 —— 概率图模型

最实质的区别还是 在预测结果的时候:频率方法认为真实结果由“推断”出的真实参数决定;而贝叶斯方法则认为,真实结果是所有可能参数所给出的预测结果的期望。

频率派:从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。

频率学派:其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。

贝叶斯派:频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。

贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

频率学派(其实就是当年的Fisher)并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

两个学派除了在参数空间的认知上有区别以外,方法论上都是互相借鉴也可以相互转化的。当代学术领域批评的最多的仅仅是频率学派里的Hypothesis testing的问题,尤其是对于p-value的误用造成了很多问题,最近有一个心理学杂志BASP也已经禁用了Hypothesis testing (Psychology journal bans P values : Nature News & Comment)。 不过这只是Hypothesis testing这种研究方法本身的问题(testing是Fisher自己脑补出来的方法,confidence interval是Neyman提出来相对应的方法)。对应于Hypothesis testing,贝叶斯学派有自己的一套方法称为 Bayes factor。虽然Bayes factor本身比p-value要合理很多(个人见解),但是我并不觉得单靠Bayes factor的方法就可以有效解决当下p-value滥用导致的问题,因为Bayes factor同样可以导致Multiple comparisons problem。

你可能感兴趣的:(Machine,Learning,概率论,机器学习,python)