数据标注管理系统的设计与实现 - 文献综述

目录

  • 1 数据标注概述
    • 1.1 数据标注的起源
    • 1.2 数据标注的应用场景
    • 1.3 数据标注的分类
    • 1.4 数据标注的任务
  • 2 数据标注中的工具和平台
  • 3 数据标注规范
    • 3.1 数据标注的角色
    • 3.2 数据标注的质量标准
    • 3.3 数据标注的流程
  • 4 工程化数据标注的管理
    • 4.1 数据标注项目
    • 4.2 工程化数据标注的组织管理
    • 4.3 数据标注项目评估
    • 4.4 工程化数据标注的质量管理
    • 4.5 工程化数据标注的进度管理
    • 4.6 工程化数据标注的成本管理
  • 5 数据标注管理系统的设计
  • 6 数据标注的发展趋势
  • 7 总结与研究意见
  • 参考文献

1 数据标注概述

1.1 数据标注的起源

2007 年,李飞飞等人启动ImageNet 项目,借助亚马逊的劳务众包平台来完成图片的分类和标注。该项目的成功,拉开了数据标注的序幕,并改变了人工智能领域中大众的认知,即数据是人工智能研究的核心,数据比算法重要得多。

在中国电子工业标准化技术协会制定的团体标准(以下简称《规程》)中,将数据标注定义为:对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。[1]

1.2 数据标注的应用场景

自动驾驶、智能安防、智慧医疗、工业4.0、新零售、智慧农业。

1.3 数据标注的分类

根据标注对象,可分为图像标注、语音标注和文本标注三类。

根据标注的构成形式,可分为结构化标注、非结构化标注、半结构化标注三类。标签的结构化的程度越高,数据的存储与统计查找越方便。

根据标注者类型,可分为人工标注与机器标注两类。

1.4 数据标注的任务

包括分类标注、标框标注、区域标注、描点标注等。

2 数据标注中的工具和平台

大部分的开源工具都可以运行在多个操作系统上,而且它们大多只针对特定对象进行标注。标注平台在包含标注工具全部功能的基础上将所有标注环节工具化,可有效地对标注任务进行全局管理和跟踪。[1]

通常,商用的数据标注工具由众包标注平台来提供。数据标注众包模式平台最早出现在美国。近年来,国内的一些互联网公司、大数据公司和人工智能公司也纷纷推出了自己的数据标注众包平台和商用标注工具。这些商业的数据标注平台基本上都能对各类数据进行标注,但各自的业务方向也有一定侧重。

除了众包标注外,标注人力模式还有内部自营标注与第三方标注。[1]

无论是开源的标注工具还是商用的数据标注平台,它们至少要包含以下内容。[2]
1)进度条。
2)标注主体(指需要标注的对象):可以根据标注形式进行设计,一般可以分为单个标注和多个标注的形式。
3)数据导入、导出功能。
4)收藏功能:针对模棱两可的数据,可以减少工作量并提高工作效率。
5)质检机制。

3 数据标注规范

3.1 数据标注的角色

传统手工数据标注中的用户角色可以分为3类。
1)标注员
2)审核员:负责审核已标注的数据,完成数据校对和数据统计。
3)管理员:负责管理相关人员,发放和回收标注任务。

数据标注过程中的各个角色之间相互制约,各司其职。由模型训练人员利用人工标注好的数据训练出算法模型。

3.2 数据标注的质量标准

数据标注要遵循的质量标准,主要以标注对象本身的特征和标注需求为依据。

3.3 数据标注的流程

《综述》以众包模式为例,给出了一个完整的流程。[2]《规程》的框架将标注任务中分为标注任务的创建、分发、开展和回收,以及标注结果的质量检查和控制;将标注结果输出分为输出格式的定义、标注数据的交付和验收。

4 工程化数据标注的管理

4.1 数据标注项目

人们虽然对机器学习有很多研究,却很少关注管理和领导标注工作的方法和注意事项。[3]数据产品生产企业以项目的方式来组织和实施每一项数据标注业务,数据标注业务以项目的方式存在于企业内部。数据标注工程可以划分为数据采集、数据处理、数据标注、数据质检、数据验收交付五大流程。[4]彭博社总结了数据标注项目的经典里程碑[5]。甘焕指出,工期、成本和质量是工程项目的三大目标。[6]

4.2 工程化数据标注的组织管理

刘鹏建议的管理架构是:根据项目安排项目组长,因为一个项目需要多个项目小组共同参与完成,所以需要在项目组长下面设立项目小组长,由质检员担任。[7]

4.3 数据标注项目评估

数据标注作为数据交易中的商品,需要有其明确的价格。当接到一个项目后,需要先对验收标准进行沟通确认,这个过程属于项目范围管理。之后进行试标并验收,然后根据试标用时,计算出项目整体报价。[7]

4.4 工程化数据标注的质量管理

质量标准、质量角色与职责属于质量管理计划。[8]《规程》将质量检查方法归纳为三种:逐条检查、按比例抽查、机器验证。刘鹏则提出了三种质量检验方法:实时检验、全样检验、多重抽样检验。[7]与质量检查面向结果不同,质量控制面向过程。《规程》将质量控制方法归纳为四种:多人验证、埋题验证、标注人员状态验证、机器验证。

4.5 工程化数据标注的进度管理

聂明提出,数据标注进度管理的活动包括项目活动分解排序和估算时间、制定项目进度计划、监控进度计划实施。[4]由项目负责人将任务分配给小组,并根据任务时间要求计算每日任务指标。小组长进行组员任务的分配,并负责组员任务进度管理。[7]

4.6 工程化数据标注的成本管理

绩效测量规则属于成本管理计划。成本汇总的方法是:先把成本估算汇总到WBS中的工作包,再由工作包汇总至更高层次,最终得出整个项目的总成本。[8]WBS结构树可用XML存储,甘焕以此为基础设计了一个大型工程项目管理信息系统。[6]毕星提出,WBS必须与组织分解结构相结合,可以把成本分解结构加在WBS上面。[9]

5 数据标注管理系统的设计

毕秋波提出了一种基于JSON的模型训练数据管理方案。他设计的平台包含项目管理子系统与数据管理子系统。用户可以根据自身需求选择目标模型,创建对应的项目,数据管理子系统负责训练数据的标注、存储和传输。[10]

仝子飞设计了一个通用众包标注系统,将数据集管理抽象出来成为独立的模块。他提出,可以在任务管理模块中定义回调函数来检查标注者提交的数据的格式。[11]

毕倩设计了一个智能数据标注平台。她提出,标签可以重复使用,任务管理可分为平台、小组和个人的任务管理,标注数据应存储在文件系统中。[12]

邬行泽设计了一个实际投入使用的众包平台系统,其中的质量管控服务包括标注前测试、标注中监测、标注中催促、标注后筛选结果的功能,而任务发布的第一个步骤是任务模板选择。[13]

徐茂成设计了百度众测标注系统,其中的管理模块可以设置标注流程所需要各种参数,定义“项目”的概念为任务的生成模板。[14]

“人从众”众包平台具有反馈信息处理功能,用于查看标注员在开展任务时的反馈,包括任务设计的改进和属性的修改。[15]

6 数据标注的发展趋势

随着人工智能的兴起,各类领域对数据标注的需求度越来越高,数据标注的重要性也不断凸显,但是其在发展过程中也面临着一些挑战和问题。比如,标注工具的整体标注效率较为低下。而众包模式下标注质量参差不齐,标注任务存在合格率低、标注不完备、标注不及时等问题,且具有隐私泄露的风险。

7 总结与研究意见

数据标注的准确性决定了人工智能算法的有效性。因此,数据标注不仅需要有系统的方法、技术和工具,还需要有质量保障体系。项目管理系统通常是商用标注平台的一个子系统。考虑到个人能力与时间限制,对本研究可作出以下限制:支持一般的标注对象、结构化标注、人工标注。用开源工具标注数据,将数据标注工作与项目管理融合,将数据标注项目的部分环节工具化。标注人力模式为内部自营标注。不支持试标。将成本管理与WBS、进度管理相结合。用关系数据库存储数据,以JSON、XML作为补充格式。

参考文献

[1]T/CESA 1040—2019,信息技术 人工智能 面向机器学习的数据标注规程[S].中国电子工业标准化技术协会:团体标准,2019 http://www.ttbz.org.cn/Pdfs/Index/?ftype=st&pms=28148
[2]蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. http://www.jos.org.cn/1000-9825/5977.htm
[3]McCulloh I, Burck J, Behling J, et al. Leadership of Data Annotation Teams[C]//2018 International Workshop on Social Sensing (SocialSens). IEEE, 2018: 26-31.
[4]聂明,齐红威主编.数据标注工程:概念、方法、工具与案例[M].北京:电子工业出版社,2021.1
[5]Tseng T, Stent A, Maida D. Best Practices for Managing Data Annotation Projects[J]. arXiv preprint arXiv:2009.11654, 2020.
[6]甘焕. 基于WBS的大型工程项目管理信息系统研究[D].西北工业大学,2007.
[7]刘鹏主编.数据标注工程[M].北京:清华大学出版社,2019
[8]〔美〕Project Management Institute(项目管理协会).项目管理知识体系指南(PMBOK指南)第六版[M].北京:电子工业出版社,2017
[9]毕星. 基于项目管理理论的工程项目成本管理系统研究[D].天津大学,2007.
[10]毕秋波. AI模型训练和开放服务平台的研究与实现[D].北京邮电大学,2021.DOI:10.26969/d.cnki.gbydu.2021.002710.
[11]仝子飞. 通用众包标注系统的设计与实现[D].浙江大学,2015.
[12]毕倩. 智能的数据标注平台的设计与实现[D].北京邮电大学,2020.DOI:10.26969/d.cnki.gbydu.2020.001374.
[13]邬行泽. 数据标注众包平台系统的设计与实现[D].北京交通大学,2020.DOI:10.26944/d.cnki.gbfju.2020.001771.
[14]徐茂成. 百度众测标注系统及其在数据采集方面的扩展应用的设计与实现[D].南京大学,2018.
[15]洪高峰. 面向专业属性标注的众包平台研发及应用[D].浙江大学,2016.

你可能感兴趣的:(大数据,人工智能,ai,毕业设计)