AI训练数据不够用?MIT推出新的合成数据开源工具

随着计算机视觉和自然语言处理的预先设计的模型变得越来越普遍和强大,数据科学家必须面对数据的收集和处理这一主要问题。

但企业通常难以在规定时间内获取到足够量的、用于机器训练的数据,手动标记获取数据的方法通常又存在成本高、效率低、难度大的问题。

在这种情况下,合成数据成为了真实数据的替代品。合成数据可以帮助数据科学家和企业克服上述障碍,并支持以更快捷的方式开发可靠的机器学习模型。

合成数据有点像无糖汽水,为了实现真正的效用,它必须在某些方面与“真实数据”相似,即合成数据集必须具有与实际数据集相同的数学和统计属性。

但就像无糖汽水应该比普通汽水含有更少的卡路里一样,合成数据集也必须在关键方面与真实数据集有所不同。

AI数据实验室(DAI)的首席研究员,麻省理工学院信息与决策系统实验室的首席研究科学家Kalyan Veeramachaneni最近发布了一套开源数据生成工具——Synthetic Data Vault。

这是一个一站式商店,用户可以根据时间序列获得其项目所需的所有数据。

Synthetic Data Vault是一个一站式商店

早在2013年,Veeramachaneni的团队就打算花两个星期的时间来创建一个可用于edX项目的数据池。

Veeramachaneni说,这个时间表“看起来很合理”,“但是我们完全失败了”。他们很快意识到,如果他们研发一系列合成数据生成器,便可加速数据处理进程。

该团队在2016年研发了一种算法,该算法可以准确捕捉真实数据中不同领域间的相关性,并创建了一个保存这些联系的合成数据集。

当数据科学家使用合成据解决问题时,他们的解决方案在70%的情况下与那些使用真实数据的解决方案一样有效。

接下来,团队深入研究了机器学习工具箱。2019年,博士生徐磊在温哥华举行的第33届神经信息处理系统会议上提出了他的新算法CTGAN(条件表格生成对抗网络)。徐说,CTGAN使用GANs来构建和完善综合数据表。

GANs是一对“相互竞争”的神经网络,第一个网络为生成器,第二个网络是鉴别器。徐说:“最终,生成器可以生成完美的数据,而鉴别器无法分辨出差异。”

大型数据集可能包含许多不同的关联,每个关联都是严格定义的。Veeramachaneni说:“模型无法学习约束,因为约束非常依赖于环境。”

因此,该团队最近开发了一个界面,允许人们“告诉”合成数据生成器这些限制在哪里。Veeramachaneni说:“数据是在这些限制条件下生成的。”

这些精准的数据可以帮助许多不同领域的公司和组织,其中的一个例子就是银行业。

ING金融服务团队负责人Wim Blommaert说,数字化的增长以及新的数据隐私规则已经“引发了人们对合成数据的兴趣”,“像SDV这样的工具可以避开数据的敏感方面,同时保留这些重要的约束和关系”。

Veeramachaneni说,这个合成数据库将该集团迄今为止建立的所有数据组合成到“一个完整的生态系统”中。其理念是,相关从业人员或学生都可以使用SDV,无论是获得大型表格、少量时间序列数据还是多种不同类型的混合数据。

SDV是开源的、可扩展的。Veeramachaneni说,随着用例的不断涌现,更多工具将被开发并应用到SDV中。这可能要耗时七年之久,但是他们已经做好了准备:“我们只是触及了冰山一角。”

参考:

https://news.mit.edu/2020/real-promise-synthetic-data-1016

你可能感兴趣的:(开源数据,人工智能,机器学习,算法)