尽管文明正在产生大量的数据(根据最近的研究,每天有 2.5 万亿字节的新数据),但计算机视觉和机器学习数据科学家在获取足够的数据来训练和制作计算机视觉模型时仍然面临许多挑战。
算法生成的模型需要对大量数据进行训练,但有时这些数据并不容易获得。
设计高风险生产模型的机器学习工程师在整理训练数据时面临困难,因为大多数模型在投入生产时必须处理大量边缘情况。
只有少数错误的人工智能模型仍然可能产生灾难性的结果。考虑一家寻求将其汽车上路的自动驾驶汽车公司。在这些汽车中运行的人工智能模型需要对每种边缘情况具有准确、快速和实时的预测能力,例如区分行人和行人的倒影,以便车辆可以采取规避行动或继续正常驾驶。
不幸的是,高质量的行人反射图像并不像行人照片那样容易获得。
在机器学习可能产生最重大潜在影响的某些领域,很难找到足够大的训练数据。
考虑一家医疗人工智能公司,试图建立一个诊断罕见疾病的模型。该模型可能需要在数十万张图像上进行训练才能准确执行,但对于这种边缘情况,可能只有几千张图像。其他医学成像数据可能被锁定在私人患者记录中,构建这些模型的数据科学团队可能无法访问这些记录。
即使使用大量开源数据集,您所需的图像或视频数据集也可能不可用。
在这个场景中你能做什么?
答案是生成合成数据、图像、视频和合成数据集。
简而言之,图像和视频等合成数据是人工制造的,而不是从真实世界的事件(如MRI扫描或卫星图像)中捕获的。
合成数据会显著增加这些难以找到的数据集的大小。因此,使用合成数据增强真实世界的数据集可能意味着可行的生产就绪型计算机视觉模型与由于没有足够的数据进行训练而不可行之间的差异。
请记住,任何一种以数据为中心的方法都取决于将正确数据导入模型的能力。以下是我们对为您的计算机视觉模型选择最佳数据的看法。
在无法查找数据的情况下,为机器学习模型创建和使用合成数据集是最有效的方法。
多年来,Unity和Unreal等游戏引擎使游戏工程师能够构建虚拟环境。这些 3D 物理模型与编写代码很好地集成在一起,因此在生成某些类型的合成数据时非常有用。
由于人类现在对物理世界的物理学和相互作用有了深刻的理解,因此数字工程师可以设计这些模型来复制光与不同材料和表面的相互作用。这意味着他们可以继续改变 3D 环境并生成更多包含各种情况和边缘情况的数据。
例如,如果机器学习工程师正在训练自动驾驶汽车模型,数据工程师可以模拟不同的照明场景来创建行人的反射。然后,机器学习工程师将有足够的数据来训练模型,以学习区分行人和实际行人的反射。同样,数据工程师还可以生成代表不同天气情况(晴天、多云、朦胧、下雪)的数据,以便 ML 工程师可以训练模型在各种天气条件下表现适当。
不幸的是,游戏引擎在生成合成数据时有一定的局限性。有时,没有足够的信息或对工作原理的理解来创建数据科学团队所需的边缘案例的 3D 版本。例如,在医学成像方面,来自相机型号和软件、图像格式文件、肠道健康、患者饮食等的许多因素 ⏤ 使模拟数据具有挑战性。
在这些场景中,数据工程师可以使用真实世界的数据,通过深度学习综合生成更多数据,而不是构建 3D 表示。
机器学习使他们能够生成人工数据,而不是从科学家或游戏工程师编程的一组参数中生成人工数据,而是从在真实世界数据集上训练的神经网络中生成。
生成对抗网络 (GAN) 是一个相对较新的发展,它允许我们通过设置两个神经网络来创建合成数据。其中一个模型(生成模型)接受随机输入并生成数据,另一个模型(判别模型)的任务是确定它输入的数据是真实世界的示例还是生成器模型制作的示例。
随着GAN的迭代,这两个“对立的模型”将相互训练和学习。如果生成器未能完成创建可信/逼真的合成数据的任务,它会调整其参数,而鉴别器保持不变。如果鉴别器未能完成将合成数据识别为“假”数据的任务,则会在生成器保持原样的情况下调整其参数。
在多次迭代中,这种相互作用将提高判别模型区分真实数据和合成数据的准确性。同时,生成模型在每次未能“愚弄”鉴别器时都会纳入反馈,从而随着时间的推移提高其创建准确合成数据的有效性。当这个训练完成时,GAN将创建高质量的合成数据,这些数据可以补充训练数据集,否则这些数据集将缺乏足够的真实世界数据来训练模型。
当然,使用合成数据有利有弊。在我的下一篇文章中,我将讨论使用 GAN 生成的合成数据的一些好处,以及这种方法带来的一些挑战。