数据标注平台-智成长科技

马云认为,数据在21世纪,就会像上一个世纪的石油一样,“起初没人关心石油能用来干嘛”,但是之后会成为极具价值的东西。


但是,大多数原始数据其实更像原油,并不能直接拿来就用。特别是在如火如荼的AI范畴,更需求先停止数据标注,将原始数据变成算法可用数据。假如数据是原油,那么数据标注就是把原油提炼为废品油的过程。

自然界中很多共生现象,比如帮鳄鱼剔牙的鸟,帮大象清理寄生虫的鸟,非常契合数据标注这个行业的性质。

数据标注得越精准、对算法模型锻炼的效果就越好。大局部算法在具有足够多普通标注数据的状况下,可以将精确率提升到 95%,但从 95% 再提升到 99% 以至 99.9% ,就需求大量高质量的标注数据。能够说,高质量的数据是限制模型和算法打破瓶颈的关键指标。

事实上,正是由于数据标注的重要性,在AI产业的上游曾经构成了一条数据标注产业链。智成长科技也在去年8月推出了专注于人工智能数据标注的科技平台——拇指跳动

智成长科技之所以上马拇指跳动项目,是由于相关公司AI研发的加速推进,急剧增长的数据需求在市场上得不到有效满足。

拇指跳动开发团队总结了各类数据标注平台的优点,并针对效率、质量、数据平安等痛点,进行优化。

1.人员专业度: 经过科学的培训机制和鼓励机制,培养一批专职于数据标注的员工。

2.场景丰厚度:开发了掩盖无人车,智慧医疗,人脸识别等,八大业务场景的一系列魔板。

3.审核机制: 与业内常见的抽检和一重审核不同,拇指跳动设置了双重审核机制。
1.1 、由相关团队进行全面质检,质检合格率要求在百分之99
1.2、负责相关项目的负责人,进行百分之80质检,质检合格率低于百分之99.5的同批次全部打回修改。
1.3、提交给项目负责方,任其抽检或者全检,不符合要求的,同批次重新标注修改。

传统的数据标注行业更像一个劳动密集型产业,主要是靠人工方式对文本、图片、语音、视频等数据标注。

智成长科技推出intellectgrowth-AI快速落地方案,讲人工标注与智能标注同步进行
第一步由人工进行少量标注,生成样本。
第二步对样本进行建模训练,然后用锻炼出来的模型进行预标注。
第三步由人工判断是否精确,并对其进行修改减少相关的标注部奏。

intellectgrowth-AI计划明显进步了数据标注平台效率,用一个星期的时间,就能完成传统形式下一个月的标注任务。

拇指跳动数据标注平台
关于很多企事业单位来说,在将数据标注外包时,都会担忧数据平安问题,特别是关于政府部门、银行等金融机构来说,数据平安问题至关重要。

为了确保涉密数据、中心数据的安全,智成长科技开发了数据与流程别离的DCS架构。协作企业只需提供相关的数据接口,就能够经过调用接口的方式链接到拇指跳动平台,从而确保数据在不外流的状况下,运用拇指跳动现有的工具模板、人员体系、流程体系。

拇指跳动数据标注平台
拇指跳动上线半年来,一位来自人脸识别方面的客户表示:“过去,我们做一条身份证地址标注,本钱是2毛到6毛钱,在拇指跳动平台上只需求5分钱,而且标注周期缩短为原先的四分之一,质量也明显进步。”喜悦之情溢于言表。

总结拇指跳动半年来获得的成果,拇指跳动的负责人表示:“我们做拇指跳动标注平台时,当时脑子里的概念就是
1:严格执行客户要求的数据质量,以客户就是上帝来执行相关的质量方针
2:保证数据安全,杜绝产生的漏洞导致客户的数据受到损失。
3:缩短项目周期,增加人力,宁愿减少利润的情况下也要保证客户的数据提前交付,避免其中产生的问题导致延后交付。
希望在不久的未来,国内大局部的AI公司都能够用我们平台上标注的高质量数据,锻炼出更优质的模型和算法。”

智成长科技旗下拇指数据标注平台

你可能感兴趣的:(数据标注与采集)