目前人工智能商业化在算力、算法层面已达到阶段性基本成熟,想要更加契合落地需求、解决行业具体痛点,还需要大量经过标注处理的相关数据做算法训练支撑。
可以说数据决定了AI的落地程度,更具前瞻性的数据集产品和高度定制化数据服务成为了行业发展的主流。
未来几年,数据标注行业将有如下发展趋势以及挑战。
1.趋势:行业洗牌,竞争加剧
数据标注行业历经多年发展,目前已进入一个快速增长期。
相关统计资料显示,2019年国内数据标注行业市场规模为30.9亿元,未来几年的平均年增长为21.8%,预计到2025年,国内数据标注市场规模将突破100亿元大关。
从微观角度来看,市场规模的不断扩大,意味着会吸引到更多的行业参与者,同时也意味着潜在市场竞争的加剧。由于数据标注行业的准入门槛较低,且过于依赖人力,导致行业内部云集了大量中小规模的数据服务供应商。
随着行业技术门槛的提升、AI企业需求的变化以及人力成本的增加,中小型数据服务供应商将面临越来越严峻的生存压力,在未来1-2年内,行业内部将大概率迎来一波“洗牌期”。
从宏观角度来看,随着AI商业化落地进程的加快,AI企业对于数据服务供应商也提出了新的要求,高质量、精细化、定制化的数据集越来越受到需求方的青睐,这对于数据服务供应商的技术实力、精细化管理能力、流程把控能力等都带来了新的考验。
2.挑战:新需求下落后的行业发展水平
如上文所述,“更具前瞻性的数据集产品和高度定制化数据服务成为行业发展的主流”,然而目前的行业发展水平还远远无法满足这些新需求,数据标注行业面临以下挑战:
01.不同的行业、不同的业务场景对数据标注的需求存在一定的差异性,现有的标注任务还不够细化, 缺乏定制化标注能力。
数据标注的应用场景十分广泛,具体来说有自动驾驶、智慧安防、新零售、AI教育、工业机器人、智慧农业等领域。
不同的应用场景对应不同的标注需求,比如自动驾驶领域主要涉及行人识别、车辆识别、红绿灯识别、道路识别等内容,而智慧安防领域则主要涉及面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等内容,这对数据服务供应商的定制化标注能力提出了新的挑战。
02.标注效率与数据质量均较低,且欠缺人机协作能力。
数据标注行业的特殊性决定了其对于人力的高依赖性,目前主流的标注方法是标注员根据标注需求, 借助相关工具在数据上完成诸如分类、画框、注释和标记等工作。
由于标注员能力素质的参差不齐以及标注工具功能的不完善,数据服务供应商在标注效率以及数据质量上,均有所欠缺。
此外,目前很多数据服务供应商忽视或完全不具备人机协作能力,并没有意识到AI对于数据标注行业的反哺作用。
以曼孚科技标注业务为例,通过在标注过程中引入AI预标注以及在质检过程中引入AI质检,不仅可以有效提高标注效率,同时也可以极大提升标注数据集的准确度。
03.品牌数据标注服务提供商依赖众包、转包模式,造成标注结果质量的层次不齐。
现阶段,数据标注主要依靠人力来完成,人力成本占据数据标注服务企业总成本的绝大部分。因此很多品牌数据服务供应商都放弃自建标注团队,转而通过分包、转包的模式完成标注业务。
与自建标注团队相比,众包与转包的方式,成本较低且比较灵活,但是与自建标注团队相比,这两种模式信息链过长,且质量难以把控,从长远角度来看,自建标注团队更加符合行业发展的需求。
04.基于众包、转包模式下的数据标注任务会造成用户数据缺乏安全性, 并面临隐私泄露的风险。
一些特殊行业的需求方,比如金融机构和政府部门格外注重标注数据的安全性, 但是一些数据标注企业出于成本方面的考虑,会将这些敏感的数据分发、转包给其他服务商或者个人,这就带来了巨大的潜在数据泄露风险。如何建立一套完善的数据安全防护机制就成为当下诸多数据服务供应商需要着重考量的因素。
综上而言,数据标注行业前景广阔,但也面临诸多挑战。
在可预见的行业变革期内,无论是中小数据服务供应商还是品牌数据服务供应商都无法在这场变革中独善其身,唯有不断提升自身技术实力、快速迭代自身业务以适应需求变化、并打造品牌与实力的双重口碑效应,才能在激烈的市场竞争中更具优势,建立高度排他性技术壁垒。