在第三章我们讨论了如果用最大化后验(MAP)做参数估计,即 θ^=argmaxp(θ|D) ,和计算全后验 p(θ|D) 和计算后验预测密度(posterior predictive density) p(x|D)
用后验分布(posterior distributino)来总结一切是贝叶斯统计的核心内容,第六章会讲另一种学派的方法,即频率学派(frequentist or classical statistics).
总结和回顾 p(θ|D)
点估计(point estimate)有很多,比如后验众数(等价于 MAP),后验均值,后验中位数(median),后验边缘分布等。其中最后一个适合离散的情况,其他的适合连续的随机变量。
MAP 的方法有很多优点,比如有很多优化方法可以方便的求解(直接求导?),比如可以把先验当做正则项(regularizer)这样非贝叶斯的角度来理解。然而下面的小节会细数其四个方面的缺点,从而引出全贝叶斯方法的必要性。
点估计一般只会给出一个其认为是最好的结果,而没有对结果有一个不确定性估计。如掷一个不均匀的骰子,估计正面朝上的概率 θ 时,点估计会给出 θ^=0.7 ,我们不知道这个估计到底有多靠谱,即点估计没有提供 measure of uncertainty. 而完整的贝叶斯后验估计则是给出概率分布 p(θ)∼Beta(0.7|a,b) 之类的结果,可以算出置信度。
没有给出点估计结果的置信度,就会使得预测分布过度自信,特别是对风险规避敏感问题的影响会很大。
众数这个统计量可以在任意点取得,而不用像中数和均值那样要考虑整体的样本情况。
贝叶斯决策理论(Bayes decision theorem)会用有监督的方法探讨用众数,即 MAP 来做点估计到底有多靠谱。可以这样定义损失函数,
类型 | 表达式 | 范围 |
---|---|---|
0-1 损失函数 | L(θ,θ^)=I(θ≠θ^) | 离散 |
平方损失 | L(θ,θ^)=(θ−θ^)2 | 连续 |
绝对值损失 | L(θ,θ^)=|θ−θ^| | 连续 |
MAP 有个小问题,就是当测量单位改变时,如用厘米还是英尺来衡量距离,两个得到的参数估计结果不是一致的。书里用了随机变量的线性变换来描述这个问题。而最大似然估计(MLE)和贝叶斯推断(Bayes Inference)
贝叶斯学派置信区间(Bayes Credible intervals) 和 频率学派置信区间(frequentist confidence intervals) 的概念相近,但是又不完全是同一个东西。
举个例子,假设误差率 α=0.05 ,且若后验概率 p(θ)∼N(0,1) 的话,那么有
再举个例子,投硬币实验中,有充分统计量 N1=47,N=100 ,有 p(θ|D)=Beta(47,54) ,那么 θ 在后验置信区间 (0.3749,0.5673) 内的概率为 95% .
假如有两个营销员,一个90个好评,10个坏评;另一个则是两个好评,没有坏评。我们想用贝叶斯的方法,推断到底选哪个靠谱一些。
假设 θ1,θ2 为两人的可靠性,且取先验为均匀分布 θi∼Beta(1,1) ,那么两人的后验分布为
所以第一个营销员更靠谱一些。
一般模型有很多的参数和超参数,比如可以用验证集的方法来验证泛化(generalization)效果,另一种方法是通过贝叶斯的方法来做模型选择。若不同的 m 表示不同的模型,有后验
若是上式的先验是均匀分布的,即所有的 p(m) 为相同的常数,那么改为最大化 p(D|m) ,而这个式子可以继续写成积分的形式,
这个量叫做是边缘似然(marginal likelihood),或者叫积分似然(integrated likelihood),或者叫模型 m 的证据(evidence)。这里的 θ 是模型 m 的参数,假如是点估计,比如最大似然估计的话,那么 p(D|m)=p(D|θ^mle) 成立。然而贝叶斯的方法一般都是给出参数 θ 的分布,所以才会有积分符号。
如果用点估计的结果 p(D|θ^m) 来选择模型,那么参数复杂的模型会更加能拟合数据。 θ^m 可以是 MLE 或者 MAP 的估计结果。然而用边缘似然 p(D|θ) 的方法,参数复杂的模型算出的概率不一定高,因此会有避免过拟合的作用。这个叫做贝叶斯奥卡姆剃刀(Bayes Occam’s razor)效应。
(这段没懂)此外,复杂的模型因为参数较多,所以概率密度分布地较为稀疏,又叫做是 conservation of probability mass principle.
在计算边缘似然 p(θ|D) 时,我们要计算贝叶斯公式中的分母 p(D) ,考虑贝叶斯公式中
在这个模型里,假设先验、似然和后验分别分从下面的分布,
同理,得到此分布的边缘似然,
多元高斯分布(MVN)的共轭先验是高斯逆Wishart分布(NIW prior),同理求解,公式略。
上面只是一些常见的模型求解边缘似然,那么更普遍的求法是通过BIC(Bayesian Information Criterion)的方法近似地估计,
减数那项成为是 penalized log likelihood,模型越复杂,惩罚程度越严重。
BIC-cost 则是 BIC 的另一种表达,有 BIC-cost = -2 BIC ,还有另一种求法,叫做Akaike information criterion or AIC,
引一下先验链,经验贝叶斯的概念。
假设现在只有两个模型, M0,M1 ,那么可以定义贝叶斯因子(Bayes factors)为边缘似然的概率,即
假如两个模型的先验是一样的,即 p(M1)=p(M0)=0.5 ,那么有
投硬币的例子,可以选择均匀的硬币,也可以用 Beta 分布来拟合。
improper priors 指的是积分不为 1 的先验概率。
如果我们对参数的信息一无所知,最好应该使用 (无信息先验)uninformative or non-informative prior,考虑先验为 Beta(1,1) ,此时后验和先验还是不一样,所以并不能算是没有信息的先验。
最没有信息的先验应该是 Haldane prior,定义为,
Jeffreys priors 可以用来创建普遍目的的无信息先验。
这种方法推导出来的伯努利和多努利模型对应的 non-informative prior 为:
推导出的 location parameter,比如高斯模型的均值,具有平移不变性先验(translation invariant prior), p(μ)∝1 ;而推导出的 scale parameter,比如高斯模型的方差,具有尺度不变先验, p(σ2)∝1/σ2 .
假如我们对先验不太自信,可以选用更鲁棒性的先验,如用柯西先验(Cauchy prior) T(θ|μ,σ2,ν) 来代替高斯先验 N(μ,σ2) 。
鲁棒先验很有用,共轭先验计算简单,可以考虑把两者联系起来。用权重混合共轭先验,仍然保持共轭的性质,且可以拟合(approximate)任一种类的先验。先验可以写成这样的形式,
在没有确切的似然信息时,除了使用 uninformative prior,还可以在先验上使用先验,用图模型的方法可以这样表示,
假设现在有 N 个城市,每个城市有 Ni 个人,其中患有癌症的人有 xi 个,且有 xi∼Bin(Ni,θ) . 一种估计参数 θ 的做法是,认为每个城市的 θi 都不一样,全部分开做,显然这样子城市人口少的模型估计会不准确。另一种极端是认为所有的城市患病率都一样,叫做参数绑定(parameter tying),那么有 θi=θ^=∑ixi∑iNi ,然而这样的假设又太强了。我们可以假设 θi∼Beta(a,b) ,即是从一个 Beta 分布中抽取的,那么有联合概率
层次贝叶斯中,可以这样子估计后验分布,
因为维度较小,不容易过拟合,所以可以假定 p(η) 是均匀分布,那么
对于贝叶斯决策理论,可以理解为怎样做出理性(rational)的决策,让模型逼近世界的真实数据。
考虑 y∈Y 表示真实世界的状态,或者变量,参数等,然而我们能采样到的数据而言,一般都会带有噪声等,只能用 x∈X ,叫做观测值来表示。贝叶斯决策(action)的目的是从决策空间(action space)中选一个动作 a∈A 来最小化损失函数 L(y,a) ,即决策 a 和真实变量 y 尽量相容(compatible)。
可以定义这样的决策过程(decision procedure or policy)为:
由于 y 不可观测,所以一般转化成最小化下面的后验期望损失,
这样得到最优化决策结果,叫做 Bayes estimator or Bayes decision rule,
下面介绍几种常见的loss function
定义 0-1 loss 如下,
而 posterior expected loss 为,
拒识选项对某些特定领域的分类问题很重要,可以在原来的类别中多加一个选项。
平方损失定义如下:
在线性回归中,有
平方损失对 outliers 数据很敏感,所以有时候会选用绝对值损失,即
前面的 δ 表示决策函数,现在把这个概念延伸到监督学习中,
这一小节主要考虑二分类问题,一般会犯两种错误
令 LFN 表示 false negative 的 0-1 loss, LFP 表示 false positive 的代价,那么 posterior expeted loss 为
这两个式子怎么理解呢?其实可以直接从公式 5.98 推出
令 LFN=cLFP 那么定义
当固定 τ 以后的分类器可以统计几个概念的数量,
Truth = 1 | Truth = 0 | |
---|---|---|
Estimate = 1 | TP, True Positive | FP, False Positive |
Estimate = 0 | FN, False Negative | TN, True Negative |
上述的表格叫做 confusion matrix,统计了分类器所有的分类结果。可以计算相应的概率,
如果把 τ 当做是变量,即改变对正负类判定的敏感性,那么就会得到不同的 TPR 和 FPR,得到的曲线叫做 ROC, receiver operating characteristic curve. 当 τ=c1+c=0 时,因为 LFN=cLFP ,所以 FP 非常大,那么就会把一且分类为 positive,即为 1 ;相反 τ=1 时, c→∞ ,那么就会把一切分类为 negative,即为零。
ROC curve 好不好,有时候可以用 area uder the curve, AUC 来衡量,取值区间在 [0,1] 之内,越大越好。
另外有统计量可以取 FPR=FNR=1−TPR ,叫做 equal error rate or EER, cross over rate.
定义:
以 τ 为变量画出的曲线为 precision-recall-curve
F-scores 是想用一个值表达准确率和召回率的好坏,定义如下: