在机器学习中,数据标注是为原始数据(图像、文本、语音、视频、点云等)上的目标或事件标注丰富的标签以为机器学习模型提供理解数据上下文的能力的过程。例如,标注标签会说明图片中是否包含汽车和行人、在语音文件中的发音人说了哪些词、或者医学图像中是否包含病变细胞等,各种应用场景都需要数据标注,其中包括计算机视觉、语音识别和自然语言处理几个大的范畴。
成功的机器学习模型建立在大量的高质量训练数据的基础之上,但是,获取此类高质量数据标注的过程却十分耗时且昂贵,这就是为什么大多数企业都在寻找自动化数据标注的方法。虽然自动化能够大幅度节约成本,但是其中也包含一些坑,导致发生您预想之外的额外成本,并让您的项目周期耗费更多的时间。
在本文中,我们将详细阐述使用预先数据标注的隐藏风险和复杂性,这些风险和复杂性可能会在数据标注自动化过程中遇到,以及如何优化。
首先,让我们了解下什么是预标注?
预标注数据是通过AI算法生成标注结果的过程。首先,AI算法模型在已经被人类标注员标注的数据集上进行训练,当该模型已经被评定为具有高准确度的情况下,让它自动对其余原始数据进行自动标注。通常情况下,对于具有高精度要求的项目来说,预标注的数据质量仍然不够好,尤其是对于高危场景,如AI医疗和自动驾驶,如果算法精度不够,则可能导致误诊和车祸。
在大部分情况下,在生成了预标注数据后,这些数据的准确性是存疑的,低质量的数据不足以训练性能良好的AI模型,这给团队带来了瓶颈和困扰,并迫使团队要在数据标注过程上下更大的功夫,以满足项目的高质量要求,更佳的解决方案是将自动标注后的数据交给专家处理,人工手动验证预标注的质量,这就是质检步骤为什么非常重要的原因,因为这可以让团队不需要在数据上煞费苦心就能获得高水平的训练数据。
正如我们所看到的,当机器学习模型没有针对特定场景进行适当训练时,或者如果原始数据的复杂度使得自动标注所有特殊情况变得困难,团队会面临一些挑战。 现在让我们仔细看看如果团队选择使用预标注的数据,他们需要应对的潜在问题。
企业和团队采用预标注数据的主要原因是人工标注的成本太高了,拍脑门一想,自动化不就能大幅度节省成本了吗?但是实际上可能不会,不同类型的数据和不同的场景需要开发和调整不同的AI模型进行预标注,成本可能更高。因此,要让此类AI模型的开发变得有意义,为其准备的数据必须足够丰富。
例如要开发ADAS技术,您必须考虑到所有的边缘情况和场景,其中包含许多不确定因素,把它们全部列举出来,然后为这些情况都创建组合,每个组合可能都需要单独的预标注算法,如果您依靠预标注的数据来训练AI模型,则需要不断开发和调整可以标注所有情况的算法,这导致成本显著提升。生成高质量的预标注的成本会根据项目中使用的数据种类呈指数型增长,这可能和完全人工标注的价格没什么两样了。但是如果您未来的标注数据足够多,那么这样做就是值得的。
在上文中,我们谈到了机器学习模型在学习所有边缘情况的能力有限,导致它并不能实现完全的自动化数据标注,也不能达到我们想要的质量水平,数据预标注算法很难理解复杂的场景,根据我们与客户合作的经验,无论他们的团队对预标注的算法多么出色,其质量仍然远未达到训练数据的质量要求,通常最低是95%,最高可达99%,然而,自动标注的数据质量可能只有70%甚至更低。因此,团队会需要在人工质检和修改过程中花费大量的时间,以保证训练数据的准确性。
在这种情况下,最佳解决方案是提前计划数据质量和校正的流程和资源,所以,找到一个靠谱的,经验丰富的合作伙伴可以更好地解决这些问题,合作伙伴可以支持您的团队完成高质量的数据标注项目,以更快的速度完成AI模型迭代。
某些数据标注场景很难通过预标注完成,一般来说,如果AI可能对人的生命安全造成风险,完全依靠自动标注的数据是错误的行为❌。如果做一些相对简单的事情,比如对目标进行2D包围框标注,那么常见的场景中通过自动标注就能基本胜任。然而,对于目标边界不清晰的等复杂的情况,自动标注算法的表现力就十分差劲。
除此之外,在某些场景中预标注可能花费更多的时间,比如您用AI生成了语义分割标注,然而其生成的边界是模糊的,这种情况下用人工修复还不如重新标注,所以您要充分考虑预标注的可行性。
现在越来越多的AI公司正在为数据标注而苦恼,从而选择与专业的第三方公司进行合作,冰山数据是一家全球化的数据标注公司,帮助企业一站式提供AI数据服务,包括各种类型的数据采集和数据标注服务,我们通过自营+全球联盟的形式提供各类数据标注专家从而满足各种丰富的数据标注类型,同时我们也打造了高度流程自动化的数据标注平台,从而让复杂的数据标注流程变地更简单。
今天起,选择与冰山数据合作并提升您的AI迭代速度,请通过冰山数据官方网站联系我们。