在这部分, 给出极大似然法的一个一般性的描述, 以及用于推断的贝叶斯方法.
首先确定观测值的概率密度函数或者概率质量函数
z i ∼ g θ ( z ) , z_{i} \sim g_{\theta}(z) , zi∼gθ(z),
这个表达式中 θ \theta θ 表示一个或多个未知的决定 Z Z Z 分布参数, 称为 Z Z Z的参数模型. 似然函数为
L ( θ ; Z ) = ∏ i = 1 N g θ ( z i ) . L(\theta;\bm{Z}) = \prod\limits^{N}_{i=1}g_{\theta}(z_{i}). L(θ;Z)=i=1∏Ngθ(zi).
对数似然为
ℓ ( θ ; Z ) = ∑ i = 1 N ℓ ( θ ; z i ) = ∑ i = 1 N log g θ ( z i ) , \ell(\theta;\bm{Z}) = \sum\limits^{N}_{i=1}\ell(\theta;z_{i}) = \sum\limits^{N}_{i=1}\log g_{\theta}(z_{i}), ℓ(θ;Z)=i=1∑Nℓ(θ;zi)=i=1∑Nloggθ(zi),
其中每一个 ℓ ( θ ; z i ) = log g θ ( z i ) \ell(\theta;z_{i}) = \log g_{\theta}(z_{i}) ℓ(θ;zi)=loggθ(zi) 称为对数似然组分. 最大似然法选择 θ = θ ^ \theta = \hat{\theta} θ=θ^ 来最大化 ℓ ( θ ; Z ) \ell(\theta;\bm{Z}) ℓ(θ;Z).
似然函数可用来评估 θ ^ \hat{\theta} θ^ 的准确性, 定义
一般情况下, 参数自助法与最大似然一致. 特别地, 当模型有可加的高斯模型时, 参数自助法和最小二乘具有一致性.
本质上自助法是非参自助法或者参数自助法的计算机实现. 与最大似然法相比自助法的好处是允许我们在没有公式的情况下计算标准误差和其他一些量的最大似然估计.
- 非参自助法(nonparametric bootstrap): 通过从训练集中有放回地采样. 该方法与模型无关.
- 参数自助法(parametric bootstrap): 考虑到自助法的方差, 从特定的含参的模型中进行采样, 得到新的数据集.
贝叶斯的主要思想: 对于数据, 我们需要确定一个已知参数的采样模型 P r ( Z ∣ θ ) {\rm Pr}(\bm Z|\theta) Pr(Z∣θ) 以及参数的先验分布 P r ( θ ) {\rm Pr}(\theta) Pr(θ), 然后计算后验分布
P r ( θ ∣ Z ) = P r ( Z ∣ θ ) P r ( θ ) ∫ P r ( Z ∣ θ ) P r ( θ ) d θ . {\rm Pr}(\theta|\bm Z) = \frac{{\rm Pr}(\bm Z|\theta){\rm Pr}(\theta)}{\int{\rm Pr}(\bm Z|\theta){\rm Pr}(\theta)d\theta}. Pr(θ∣Z)=∫Pr(Z∣θ)Pr(θ)dθPr(Z∣θ)Pr(θ).
自助法分布表示参数的(近似的)非参无信息后验分布. 但是自助法分布可以很方便地得到——不需要正式地确定一个先验而且不需要从后验分布中取样. 因此或许可以把自助法分布看成一个“穷人的”贝叶斯后验. 通过扰动数据, 自助法近似于扰动参数后的贝叶斯效应, 而且一般实施更简单.
EM 算法是简化复杂极大似然问题的一种很受欢迎的工具.
从一个不同的角度来看 EM 过程, 看成一个联合最大化(joint maximization)算法, 或者说是轮换最大化过程 (alternative maximization procedure)
吉布斯采样(一个 MCMC 过程)与 EM 算法非常相关: 主要的区别在于前者从条件分布中采样而非对它们最大化.
我们提出模型平均和改善的相关技巧, 包括 committee 方法, bagging, stacking 和 bumping.
之前研究了自助法和贝叶斯方法之间的关系, 而且发现自助法均值近似于一个后验平均. 自助法整合 (Bootstrap aggregation)或者 Bagging 进一步探索这之间的联系.
bagging 估计定义为
f ^ b a g ( x ) = 1 B ∑ b = 1 B f ^ ∗ b ( x ) , \hat{f}_{\rm bag}(x) = \frac{1}{B}\sum\limits_{b=1}^{B}\hat{f}^{*b}(x), f^bag(x)=B1b=1∑Bf^∗b(x),
记 P ^ \hat{\mathcal P} P^为在每个数据点 ( x i , y i ) (x_i,y_i) (xi,yi) 上赋予相同概率 1 / N 1/N 1/N 的经验分布. 实际上, “真正”的 bagging 估计由 E p ^ E_{\hat\mathcal p} Ep^ 定义. 表达式是真实 bagging 估计的蒙特卡洛估计.
作为模型平均的权重, 相比更简单的BIC近似, 不值得这样做.
堆栈的思想实际上比上面所描述的更一般, 可以采用任意学习的方法, 学习方法被堆栈到其它方法上面来给提升预测的效果.
在bagging中, 我们抽取自助样本并且对每个样本拟合模型. 但是不是对这些预测值进行平均, 而是选择拟合训练数据最好的自助样本的模型. 通过打乱数据, bumping试图将拟合过程移动到模型空间的好区域中. 技巧是在自助样本上优化一个不同的, 更方便的准则, 接着选择在训练样本上对于期望的准则产生最优结果的模型.