Data-centric Artificial Intelligence: A Survey

本文是AI相关的论文,针对《Data-centric Artificial Intelligence: A Survey》的翻译。

以数据为中心的人工智能:综述

  • 摘要
  • 1 引言
  • 2 数据为中心AI的背景
  • 3 训练数据开发
  • 4 推理数据开发
  • 5 数据维护
  • 6 数据基准
  • 7 讨论与未来方向
  • 8 结论

摘要

人工智能在几乎所有领域都产生了深远的影响。它取得巨大成功的一个重要因素是为构建机器学习模型提供了丰富而高质量的数据。最近,数据在人工智能中的作用被显著放大,催生了以数据为中心的人工智能概念。研究人员和从业者的注意力逐渐从推进模型设计转向提高数据的质量和数量。在这项调查中,我们讨论了以数据为中心的人工智能的必要性,然后全面看待了三个以数据为核心的通用目标(训练数据开发、推理数据开发和数据维护)和代表性方法。我们还从自动化和协作的角度组织现有文献,讨论挑战,并将各种任务的基准数据制成表格。我们相信这是第一次全面的调查,它提供了数据生命周期各个阶段的一系列任务的全局视图。我们希望它能帮助读者有效地了解这个领域的全貌,并为他们提供技术和进一步的研究思路,为构建人工智能系统系统系统地设计数据。将定期更新以数据为中心的人工智能资源的配套列表https://github.com/daochenzha/data-centric-AI。

1 引言

2 数据为中心AI的背景

3 训练数据开发

4 推理数据开发

5 数据维护

6 数据基准

7 讨论与未来方向

以数据为中心的人工智能研究目前处于什么阶段,未来的潜在方向是什么?本节对以数据为中心的人工智能进行了顶层讨论,并介绍了我们发现的一些悬而未决的问题,旨在激励未来在该领域的探索。我们首先试图回答一开始提出的研究问题:

  • RQ1:让人工智能以数据为中心的必要任务是什么?以数据为中心的人工智能包括一系列任务,包括开发训练数据、推理数据和维护数据。这些任务包括但不限于1)清理、标记、准备、减少和扩充训练数据,2)生成分布内和分布外数据以进行评估,或调整提示以实现所需结果,以及3)构建用于理解、组织和调试数据的高效基础设施。
  • RQ2:为什么自动化对开发和维护数据具有重要意义?鉴于数据量以前所未有的速度不断增加,开发自动化算法以简化数据开发和维护过程至关重要。根据表2、表3和表4中调查的论文,已经为所有子目标开发了自动化算法。这些自动化算法跨越了不同的自动化级别,从编程自动化到基于学习的自动化,再到管道自动化。
  • RQ3:在哪些情况下,为什么人类参与对以数据为中心的人工智能至关重要?人类参与是许多以数据为中心的人工智能任务所必需的,例如大多数数据标记任务(表2)和推理数据开发中的几个任务(表3)。值得注意的是,不同的方法可能需要不同程度的人类参与,从充分参与到提供最少的投入。在许多场景中,人类的参与至关重要,因为这通常是确保人工智能系统的行为与人类意图一致的唯一途径。
  • RQ4:以数据为中心的人工智能目前进展如何?尽管以数据为中心的人工智能是一个相对较新的概念,但在许多相关任务中已经取得了相当大的进展,其中大多数被视为以模型为中心的范式中的预处理步骤。与此同时,最近出现了许多新的任务,对它们的研究仍在进行中。在第6节中,我们对基准论文的元分析显示,在不同领域取得了进展,其中大多数基准来自人工智能领域。在三个以数据为中心的通用人工智能目标中,训练数据开发受到了相对更多的研究关注。对于数据模态,表格和图像数据一直是主要关注点。随着以数据为中心的人工智能研究论文呈指数级增长,我们可能会在未来见证这一领域取得更多进展。

通过试图解决这些问题,我们的调查深入研究了各种任务及其需求和挑战,对以数据为中心的人工智能的范围和进展产生了更具体的了解。然而,尽管我们努力广泛而全面地涵盖各种任务和技术,但不可能涵盖以数据为核心的人工智能,我们将以数据为中心的人工智能与人工智能的另外两个热门研究主题联系起来:

  • 基础模型。基础模型是在大量未标记数据上训练的大型模型,可适用于各种任务,如大型语言模型和稳定扩散。随着模型变得足够强大,用模型执行许多以数据为中心的人工智能任务变得可行,例如数据标记和数据增强。因此,基础模型的最新趋势有可能从根本上改变我们对数据的理解。与将原始数据值存储在数据集中的传统方法不同,模型本身可以是一种数据形式(或原始数据的“容器”),因为模型可以传递信息(见第2.1节中的数据定义)。基础模型模糊了数据和模型之间的边界,但其训练仍然严重依赖于大型高质量的数据集。
  • 强化学习。强化学习是一个研究领域,它在没有任何初始数据的情况下训练智能代理来优化奖励。它是一种独特的学习范式,在用模型生成数据和用自己生成的数据训练模型之间交替。与基础模型一样,强化学习的进步也可能模糊数据和模型之间的边界。此外,强化学习已经在几个以数据为中心的人工智能子目标中被广泛采用,如数据标记、数据准备、数据缩减和数据增强。原因可以归因于它的目标导向性质,它非常适合自动化。

在研究了这两个快速发展的研究领域的联系后,我们假设,在人工智能系统的发展中,以数据为中心的人工智能和以模型为中心的AI可能会更加交织在一起。展望未来,我们提出了我们在以数据为中心的人工智能方面确定的一些潜在的未来方向:

  • 跨任务自动化。尽管在自动化各种以数据为中心的人工智能任务方面取得了重大进展,但跨多个任务的联合自动化在很大程度上仍未得到探索。尽管管道搜索方法已经出现,但它们仅限于训练数据开发。从广泛的以数据为中心的人工智能角度来看,最好有一个统一的框架来联合自动化针对不同目标的任务,从训练数据开发到推理数据开发和数据维护。
  • 数据模型联合设计。尽管以数据为中心的人工智能主张将重点转移到数据上,但这并不一定意味着模型必须保持不变。使用不同的模型时,最佳数据策略可能不同,反之亦然。此外,如上所述,随着基础模型和强化学习的发展,数据和模型之间的边界可能会变得越来越模糊。因此,人工智能的未来进展可能来自于共同设计数据和模型,数据和模型的共同进化可能为更强大的人工智能系统铺平道路。
  • 消除数据失真。在许多高风险应用中,人工智能系统最近被发现对某些群体表现出歧视行为,引发了对公平性的严重担忧。这些偏差通常源于数据中敏感变量的不平衡分布。从以数据为中心的角度来看,需要对数据进行更多的研究,包括但不限于减轻训练数据中的偏见,构建评估数据以揭露不公平问题的系统方法,以及在动态环境中持续维护公平数据。
  • 以各种方式处理数据。根据第6节中的基准分析,大多数研究工作都针对表格和图像数据。然而,在以数据为中心的人工智能中,其他同样重要但研究较少的数据模式带来了重大挑战。例如,时间序列数据表现出复杂的时间相关性,而图形数据具有复杂的数据相关性。因此,需要对如何为这些模态设计数据进行更多的研究。此外,开发能够同时处理多种数据模式的以数据为中心的人工智能解决方案是未来探索的一条有趣途径。
  • 数据基准开发。以模型为中心的人工智能的发展得益于推进模型设计的基准。而以数据为中心的人工智能需要更多地关注基准测试。如第6节所述,以数据为中心的人工智能的现有基准通常只关注特定任务。构建一个统一的基准来全面评估整体数据质量和各种以数据为中心的人工智能技术是一个重大挑战。尽管DataPerf在实现这一目标方面取得了显著进展,但它目前只支持有限数量的任务。制定更加统一的数据基准将大大加快这一领域的研究进展。

8 结论

这项调查的重点是以数据为中心的人工智能,这是人工智能中一个新兴的重要研究领域。我们通过展示精心设计和维护数据可以使人工智能解决方案在学术界和工业界更受欢迎,从而激发了对以数据为核心的人工智能的需求。接下来,我们提供了以数据为中心的人工智能的背景,包括其定义和目标驱动的分类法。然后,在提出的研究问题的指导下,我们从自动化和协作的角度回顾了用于不同目的的各种以数据为中心的人工智能技术。此外,我们收集了来自不同领域的数据基准,并在元级别对其进行了分析。最后,我们从全球角度讨论了以数据为中心的人工智能,并分享了我们对数据和模型之间模糊边界的看法。我们还介绍了该领域未来的潜在方向。总之,我们相信数据将在构建人工智能系统中发挥越来越重要的作用。与此同时,仍有许多挑战需要解决。我们希望我们的调查能够激励我们社区的合作举措,推动这一领域的发展。

你可能感兴趣的:(深度学习,LLM,人工智能,深度学习)