Review: Gain: Missing Data Imputation using Generative Adversarial Nets

ICML 2018 DOI: [1806.02920] GAIN: Missing Data Imputation using Generative Adversarial Nets

Github: GitHub - jsyoon0823/GAIN: Generative Adversarial Imputation Networks (GAIN)


Abstruct: 

作者提出了基于GAN的数据补全方法。

Back Ground:

数据的缺失是一个很普遍的现象,有时因为数据本身就很难获得,有时是因为各种原因而造成了数据的丢失。

缺失的数据可以分为以下的三大类:

MCAR:数据的缺失完全是随机的,它不依赖于任何的变量

MAR:数据的缺失不完全是随机的,仅依赖于可以观察到的变量

MNAR:数据的缺失不是随机的,它依赖于目前可以观察到的变量,同样也依赖于未观察的变量,我们无法通过可以观察到的变量来掌握数据的情况

The Mile Stone in This Field:

再这篇文章之前数据不全的方法可以分为2类,一类是 Discriminative 另一类是Generative.

Discriminative: MICE 

目前的 Generative 方法存在一些缺陷,比如 DAE 需要完整的数据用于训练。但在实际应用中,这一条件对缺失数据是苛刻的。其他的方法也存在这样的问题,比如 Allen 将Convolutional Gan 用于图像数据补全,但是他们的方法依然需要完整的数据。 Gondara's DAE 训练中由缺失数据的存在, 但是他们的方法只能够利用到未缺失项的信息用于训练模型。

你可能感兴趣的:(Review: Gain: Missing Data Imputation using Generative Adversarial Nets)