如何撰写一份完善的数据标注规则文档?

在数据标注项目中规则文档是必不可少的,该文档是标注团队和算法团队达成一致标准的一份协议,让我们来看看数据标注规则文档有哪些要点,以及如何撰写一份完善的文档。

需求背景

您的算法团队务必要阐述数据标注的AI应用需求背景和目标,这样一来,标注团队可以更好地理解为什么要这样标注而避免诸多理解分歧,比如说,您希望您的自动驾驶AI能够精确地识别道路上的汽车和行人,而且您需要预测被遮挡的物体边界,这就为后面的标注内容做好了铺垫,为什么需要”脑补“标注以及为什么2D包围框要紧贴目标……

标注范围

算法团队要表达清楚自己的技术需求不能仅仅停留在口头上,必须将所有细节落到白纸黑字上,标注团队可以很清楚地通过文档随时查询标注细节,避免遗忘和遗漏,哪些目标是需要被标注的,而那些是不需要的,请在标注范围中说明标签的种类和废弃数据,这里是一份模拟的标注范围文档供您进行参考。

如何撰写一份完善的数据标注规则文档?_第1张图片
标准文档范围说明

这份范围说明文档仅是临时模拟的一个参考样例,实际标注过程中,该文档应该更全面,比如对于标签的说明最好有配图从而让标注团队消除歧义,在标注范围和不标注范围中尽可能定义一切特殊情况。

标注说明

标注说明是您定义如何使用标注工具对数据进行标注的过程,我们以激光点云标注为例,您至少应该说明标注的精细度,因为激光点云出于设备的限制,通常无法完全捕捉到物体边界,这时候您必须说明标注工具应该紧贴点云标注,或者通过常识或规范对目标的尺寸进行”脑补“,在上文中我们提到,您的需求背景当中应当说明这种情况的原因,因为您的AI模型需要对目标的尺寸进行预测,所以标注团队也会牢记这一点。

如何撰写一份完善的数据标注规则文档?_第2张图片

疑难问题文档

通过疑难问题文档以问答的形式收集标注过程中的所有特殊情况处理是必要的,这为标注团队节省了很多时间。很多时候,您的内部人员在测试标注时,已经发现了许多标注说明无法完全覆盖到的边界情况,虽然您可能已经在标注说明中提到了,但是疑难问题部分更适合口语化表达,问答的形式也有助于标注团队也能更好地理解其含义,这里是一份关于交通灯数据标注项目的模拟的疑难问题文档供您参考。

如何撰写一份完善的数据标注规则文档?_第3张图片
数据标注的疑难问答文档

验收标准

数据标注完成后,您将对数据进行查验以确认是否符合您的标准,标注团队也会依据此标准做为质量管理的基础,这将有助于标注团队匹配最适合的质检方案,您需要说明您的验收方式,全检或是随机抽样检查、抽样检查的比例以及所需达到的准确率、检查的最小元素(以图片为单位或是以标注元素为单位),用一个目标检测标注的案例举例来说:您需要抽样检查30%的图片,以2D边界框作为最小元素,边界框准确率应达到98%。

交付格式

当数据标注团队完成了所有数据标注流程,需要将数据进行返回时,通常情况下标注团队需要对数据集格式进行处理,您需要提供完整的交付格式样例并说明每个字段的含义,这里有一份很简单的模拟的JSON文件供您参考:

{"img": "1.jps", // 图片名称"anno_tags": ["apple","banana","orange"], // 分类标签"valid": True, // 图片是否包含有效信息}

为了加速您的AI迭代,请选择冰山数据

现在越来越多的AI公司正在为数据标注而苦恼,从而选择与专业的第三方公司进行合作,冰山数据是一家全球化的数据标注公司,帮助企业一站式提供AI数据服务,包括各种类型的数据采集和数据标注服务,我们通过自营+全球联盟的形式提供各类数据标注专家从而满足各种丰富的数据标注类型,同时我们也打造了高度流程自动化的数据标注平台,从而让复杂的数据标注流程变地更简单。

今天起,选择与冰山数据合作并提升您的AI迭代速度,请通过冰山数据官方网站联系我们。

你可能感兴趣的:(如何撰写一份完善的数据标注规则文档?)