Mean Field

  • 摘要
    本文从基础概念出发给出了平均场的推导介绍,包括以下三个部分。

    • 预备基础: Jensen's Inequality, Kullback–Leibler divergence (KL散度)
    • 模型相关: 隐变量,联合概率及条件概率,观测量的对数似然性
    • 推导过程
  • K-L divergence
    对于分布 和 ,有

    注意不等号的地方,应用了函数的凸凹性和Jensen's Inequality. 容易看出KL divergence 具有不对称性,也即一般地.
    另外,K-L divergence的另一种常见形式:

  • Jensen's Inequality
    If f is a probability density function and g is any real-valued measurable function and is convex over the range of g, then

    Finite form:
    provided that and
    Generally,
    where and expectation with respect to some probability mesure of .

  • 联合概率与条件概率
    对于多元随机变量和, 一般情况,概率图模型容易给出联合概率,但是求解条件概率却比较困难,因为 , 分母边际分布 涉及到联合概率对求和(或是积分)运算。在隐变量模型中,一般约定表示观测值,表示模型的隐变量。按照贝叶斯理论,模型的参数、超参数等都可视为随机变量,在推导过程中也归到.

  • 观测量的对数似然性
    一般地,观测量的对数似然性 是机器学习模型目标函数的重要组成部分;以下给出的下界和分解的推导。

    • 推导1

      令下界 可得:
      容易看出,挑选不同的 , 最大化观测量的概率,可以通过最大化下界获取, 其中被称为Evidence Lower Bound, 也称ELBO. 因为, , 所以. 注意,虽然为观测量、固定值,但是不是关于的概率分布,因此不能看做 和 的K-L散度。目前有一个问题:和之间的差异是多少?差值为,参考对数似然性的分解推导2。
    • 推导2
      \log P(X) = \sum_Z Q(Z) \log P(X) \\ = \sum_Z Q(Z) \log \left( \frac{P(X,Z)}{P(Z|X)} \cdot \frac{Q(Z)}{Q(Z)} \right) \\ = \sum_Z Q(Z) \log \frac{P(X,Z)}{Q(Z)} + \sum_Z Q(Z) \log \frac{Q(Z)}{P(Z|X)} \\ =E_{Q(Z)} \left[ \log \frac{P(X,Z)}{Q(Z)} \right] +E_{Q(Z)} \left[ \log \frac{Q(Z)}{P(Z|X)} \right]
      也即是:
      由于观测量已知,是固定的,只有 和 与变量有关,并且最大化和最小化是等价的。
      Remark: 借助了条件概率公式,并引入了辅助变量和
  • 变分法和平均场
    已知:为了从联合概率得到条件概率, 假设Q(Z)可因子化,令 ,最小化 , 等价于最大化 ELBO .
    假设从多元变量中抽取一个变量, 中剩余的多个变量记为, 也即. 当固定时,是变量的函数:
    L(z_j) = \sum_Z Q(z_j)Q(z_{-j}) \log\frac{P(X,Z)}{Q(z_j)Q(z_{-j})} \\= \sum_Z Q(z_j)Q(z_{-j}) \log P(X,Z) - \sum_Z Q(z_j)Q(z_{-j}) \log Q(z_j) - \sum_Z Q(z_j)Q(z_{-j}) \log Q(z_{-j}) \\= \sum_{z_j} Q(z_j) \sum_{z_{-j}} Q(z_{-j}) \log P(X,Z) - \sum_{z_j} Q(z_j) \log Q(z_j) - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j})
    上式第1项可通过引入辅助变量化简;第2项为分布的熵,可与第1项合并;第3项为分布的熵,由于z_{-j}固定值,第3项为常量。如果令

    可得:
    L(z_j) = \sum_{z_j} Q(z_j) (\log R(z_j) + \log C) - \sum_{z_j} Q(z_j) \log Q(z_j) - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j}) \\ = \sum_{z_j} Q(z_j) \log \frac{R(z_j)}{Q(z_j)} + \log C - \sum_{z_{-j}} Q(z_{-j}) \log Q(z_{-j}) \\ = \sum_{z_j} Q(z_j) \log \frac{R(z_j)}{Q(z_j)} + \mathbb{const.}
    所以 最大值在时取到,换言之:

  • 参考

    • 课程 1 2
    • Jensen's inequality wiki

你可能感兴趣的:(Mean Field)