Understanding disentangling in β-VAE论文阅读笔记

文章目录

  • 前言
  • 一、信息瓶颈是什么?
  • 二、新的训练目标
    • 1.损失函数
  • 总结


前言

文章:Understanding disentangling in β-VAE
原文链接:链接
Understanding disentangling in β-VAE是基于β-VAE的一篇文章。
首先,β-VAE中存在几个问题:
1.β-VAE仅仅是通过在KL项增加一个超参数β,发现了模型具有解耦的特性,但是并没有很好的解释为什么增加一个超参数β会产生解耦的特性。
2.β-VAE发现,解耦效果好时重建效果不好,重建效果好时解耦效果差,所以需要权衡解耦与重建。
基于此,Understanding disentangling in β-VAE通过信息瓶颈理论给出了β-VAE解耦的解释,并且针对于β-VAE需要权衡解耦与重建,他们提出了自己的训练方法----在训练过程中逐步增大潜在变量的信息量。
原文中首先还介绍了一下VAE与β-VAE,这里就不过多介绍了,感兴趣的可以看我之前的文章
VAE
β-VAE


一、信息瓶颈是什么?

Understanding disentangling in β-VAE论文阅读笔记_第1张图片
如图是原文对信息瓶颈的解释,其实信息瓶颈描述了一个受约束的优化目标,其目标是最大化潜在瓶颈Z和任务Y之间的互信息,同时丢弃输入X中可能存在的关于Y的所有不相关信息。
画图比较麻烦,大家将就看一下吧,如下图所示
Understanding disentangling in β-VAE论文阅读笔记_第2张图片
可以看到β-VAE的损失函数为:
L(θ, ϕ, β; x, z) = Eqϕ(z|x)ln pθ(x|z)− βKL (qϕ(z|x) || p(z))
其中等式右边第一项为重构项,第二项为正则项。第二项就是第一项的信息瓶颈,增大第二项的权重也就是β的值,也就是让qϕ(z|x)更接近p(z),由于p(z)是标准正太分布,此时也就是限制了隐变量z中所含x的信息量,所以导致解耦的效果好但是重构的效果差,反之则是解耦的效果差,重构的效果好。

二、新的训练目标

1.损失函数

在这里插入图片描述
其中,γ固定为一个较大的数1000,C是一个可变的数。在训练过程中,C从零逐渐增加到一个足够大的值来产生高质量的重建。

这里的训练过程就与β-VAE不同,β-VAE训练时,需要先固定好β值然后训练,更改β值后需要重新训练。这里的C是一个可变的参数,也成为信息量,他是在训练过程中,从0开始逐渐增加的。


总结

通过控制训练过程中潜在后验编码能力的增加,允许之前的平均KL差异从零逐渐增加,而不是原始β-VAE目标中固定的β加权KL项的增加。与原始公式的结果相比,这促进了解纠缠表示的鲁棒学习,并结合更好的重构保真度。

你可能感兴趣的:(disentanglement,论文阅读,深度学习,机器学习,人工智能,disentanglement)