贝叶斯概率论于1764年提出。
贝叶斯学习提供了定量的方法来衡量证据如何支持其他假设。
贝叶斯决策理论是一种基本的统计方法,它利用决策所伴随的概率和成本来量化各种决策之间的权衡。
首先,我们假设所有的概率知道。那么,我们将研究概率结构不完全已知的情况。
先验概率是指根据以往经验和分析得到的概率,它往往作为"由因求果"问题中的"因"出现。
那么,如何通过先验概率做决策呢?
这种决策的误差是:P(error) = min{P(w1), P(w2 )}
后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,是"执果寻因"问题中的"因"。
贝叶斯学习方法的特点:
贝叶斯决策理论早于决策树学习和神经网络,应用在统计学理论领域。
目标:学习到最好的假设。贝叶斯学习中:“最好的假设“就是“最可能的假设”。
Bayes定理允许基于如下因素来计算可能的假设:
给定数据D加上H中各种假设的先验概率的任何初始知识,我们得到以下符号:
于是可以通过此公式计算后验概率,这也是贝叶斯学习方法的基石:
P(h | D)= P(D | h) P(h)/ P(D)*
在许多学习场景中,目标是在给定观测数据D的情况下,从一组候选假设h中找到最可能的假设h,任何这种最大似然假设都被称为最大后验概率假设。(Maximum A Posteriori (MAP) 假设)
贝叶斯理论可用于确定MAP假设:
h = argmax(h∈H) P(h | D)
= argmax(h∈H) P(D | h)* P(h)/ P(D)
= argmax(h∈H) P(D | h)* P(h)
如果每个假设h在假设集H中的概率是相等的,则我们只需要计算使得P(D | h)最大的h即可,MAP会演化为极大似然**Maximum Likelihood **(ML)。即h = argmax(h∈H) P(D | h)
Minimum Description Length Principle(MDL)
hMDL = argmin(h∈H) Lc1(h)+ Lc2(D | h)
其中:
Lc1(h)是假设表述的比特长度(——表示模型复杂度)
Lc2(D | h)是使用假设h进行编码时,数据D描述的比特长度(——表示错误)
Lc(x)是在方案c下编码x的最小比特长度
最小描述长度假设和最大后验概率假设本质上是相同的
Bayes optimal classification,同时考虑所有的假设并且进行加权。
argmax(vj∈V) Σ(hi∈H) P(vj|hj)P(hi|D)
该方法使新实例正确分类的概率最大化。
使用相同的假设空间和相同的先验知识的分类方法没有一种方法能比这种方法的平均性能好。
这种方法所做的预测与H中没有包含的假设相对应。
存在的问题:需要对所有可能的模型/假设进行总结,当模型的假设空间很大时,它是昂贵的或不可能的。
解决方案:抽样——Gibbs算法
Gibbs算法:根据h上的后验概率分布P(h | D),从h中随机选择一个假设h,使用h对新实例x进行分类。
在一定条件下,该算法期望误差最多为Bayes最优分类器的两倍(Harssler等人。1994年)。
可以通过从P(h | D)中抽样多个假设并平均其分类结果来改进。
缺点:从P(h | D)中抽样是很困难的。
由此提出了Bagging分类器——通过对训练样本的抽样实现抽样P(h | D)
Bagging分类器——通过对训练样本的抽样实现抽样P(h | D)
Boostrap 采样,(使用bootstrap采样和从P(h | D)中采样几乎是相同的):
Bagging 算法:
例如:经过实证研究,使用Bagging的决策树比单纯的决策树要效果好。
模型的Error通常同时要考虑偏差和方差,即:Error = Bias + Variance
其中Bias,偏差,指的是模型预测值和真实值的差别;Variance,方差,指的是模型对给定数据集进行预测的变化率。
Bagging分类器比单一分类器表现的好的原因就在于它可以有效降低模型的方差。
假设属性取值ai之间互相独立。
Vnb:朴素贝叶斯分类器的输出结果
P(ai|vj):满足vj的条件下各个属性值(相互独立)的频率
一道题目:
因此 Vnb = no,且目标值为no的条件概率为:0.0206/0.0206+0.0053 = 0.795
贝叶斯最有分类器应用成本较高;朴素贝叶斯使用条件独立假设,在许多场景下这样的假设是有局限性的。
贝叶斯信念网络提供了一种折衷的方案——允许声明适用于变量子集的条件独立性假设。
贝叶斯信念网络是一种概率图形模型,它表示:
例如,贝叶斯网络可以表示疾病和症状之间的概率关系。给定症状,网络可用于计算各种疾病出现的概率。
形式上,贝叶斯网络是有向无环图: