Variational Inference数学推导

前言

这篇博客,我们主要通过详尽的数学推导来直观的了解Variational Inference,首先我们还是要讲一下它的背景知识。

背景

对于一组数据x,对其进行编码后得到的特征数据z往往服从某种特定的分布P(z),而这个隐含分布我们是无从得知的,但我们可以通过现有数据X来推断Z的分布,即P(z|x),但在实际问题中这个后验概率分布是很难求,甚至无法得到解析解,所以人们就尝试使用一个q(z) 来近似 P(z),Variational Inference就是用来寻找这个最优的 q(z) 的。
下面我们来介绍一下什么是变分:函数空间的自变量,我们称为宗量,当宗量变化了一点而导致泛函值变化了多少,这就是变分。变分就是微分在函数空间的拓展。

Variational Inference数学推导

在这里插入图片描述
其中P(z|x) 为后验,Variational Inference就是用来求这个后验的,核心思想就是,用以简单的分布q(z),通过改变它的参数,使得q(z) 接近P(z|x)
在这里插入图片描述
当这个优化问题收敛后,我们就可以用q(z) 来代替P(z|x),即被编码后的z 的分布P(z)
根据公式(1)我们继续推导如下:
Variational Inference数学推导_第1张图片
两边同时对q(z) 求期望:
在这里插入图片描述
对于公式(4)等号右边的前两项称为Evidence Lower Bound(ELOB),对公式(4)进一步整理得到下式:
在这里插入图片描述
我们的目标是希望等号右边第二项的值最小,但这里含有P(z|x) 不好求,因为logP(x) 是固定的,我们可以通过最大化ELOB 来获得最小的KL 值。
现在Variational Inference的目标变为:Max[ELOB],而ELOB 又是q(z) 的函数,这也就是变分推断中变分的来源了。
那我们试着找一下ELOB 的上界:
Variational Inference数学推导_第2张图片
从这里也不难明白为啥叫ELOB 了,它就是logP(x) 的下界。
Variational Inference数学推导_第3张图片
其中第一项的作用是让q(z) 更加关注P(x,z) 中概率值大的地方;第二项是避免q(z) 将全部的精力都放在概率值大的地方,让他能够分散一点。
根据平均场近似理论,我们可以假设:
Variational Inference数学推导_第4张图片
Variational Inference数学推导_第5张图片
在这里插入图片描述
先处理第一项:
Variational Inference数学推导_第6张图片
在这里插入图片描述
再处理第二项:
Variational Inference数学推导_第7张图片
Variational Inference数学推导_第8张图片
Variational Inference数学推导_第9张图片
所以参数的更新策略为:
Variational Inference数学推导_第10张图片
最后简单说明如何获得稳定q(z) 的迭代过程:
Variational Inference数学推导_第11张图片
经过多次算法迭代,q(z) 收敛于固定值,从而得到最大ELOB,进而确定所需的KL散度与q(z) 分布。

总结

通过对上述过程的分析,我们可以很清楚q(z) 的初始值是随机的任意独立分布,而且一开始我们需要知道xz 的联合概率分布P(x,z),算法才能迭代。

你可能感兴趣的:(人工智能,Variational,Inference,数学推导)