AI发电厂——数据标注公司(国内数据标注公司服务调研)

众所周知,深度学习需要大量的标记数据和高效的运算来做支撑。
计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已。
应用时代而生的就是一大批数据众包公司和平台。正好借着一个数据众包任务,对于国内的数据标注公司服务有了更深一步的了解。

原文发布于个人博客(好望角),那里有更好的阅读体验。


伴随着AI兴起的最关键的技术莫过于深度学习,作为深度学习的基础,神经网络是一种以输入为导向的算法,其结果的准确性取决于接近“无穷”量级的数据。
所以摒除那些复杂的中间环节,深度学习最关键的就是需要大量的数据训练,这也是为什么在互联网大数据的时代,AI可以崛起。而在数据训练之前,又必须先对大量的数据进行标注,作为机器学习的先导经验。

因此,催生了大量数据标注公司的诞生。

什么是数据标注

要理解数据标注,得先理解AI其实是部分替代人的认知功能。
回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。

根据应用场景的不同,数据标注有许多类型。大体上分为图像、语音、自然语言三大类。
其中由于图像研究领域的水文热潮,图像标注的任务也尤为众多。。。无人驾驶、人脸识别、物体检测……
语音和语言相对来说,数据标注难度更大一点。价格也相对高昂一些。

在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。

众包标注的困难

众包标注由于是非专业标注,自然会遇到很多问题。这困难主要由以下三个方面组成:

  1. 标注者的水平
    由于标注者是众包标注,因此其标注者的水平也参差不齐,其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样,其不同的模型有不同的输出结果。那么这种情况下,基本上使用多数投票的方法来解决。
  2. 评价困难
    标注的内容可以分为两类,一类是有明确标签的,就好比是试卷里的客观题一样,尽管各个标注都不同,但是还是在有限集合内的。另一类是开放式回答,这种标注如同试卷里的主观题一样,可能会有无限种可能的结果。甚至是截然相反的结果,比如什么是美,什么是丑,每个人的评价标准是不同的。我们本次想要的数据众包也是这个类型的。
  3. 标注稀疏性
    如果一个需要标注的训练集中的数据本身就比较稀疏,而我们又需要把它们分割成一个个小块,这就有可能造成数据稀疏。比如,我们要进行鸟类图片标注,如果本身鸟类种类很多,而分给每个人的鸟的种类也很多的话,由于每个人认识的鸟的种类是不多的,因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分,然后使用多数表决来解决。

数据众包公司调研

由于我们需要众包的数据是中文数据,所以只关心国内的一些数据众包公司。国外的Amazon Mechanical Turk、CrowdFlower、Mighty AI等公司不在考察范围之内。

据悉,在国内的数据标注行业实行这样一套分工流程:上游的科技巨头把任务交给中游的数据标注公司,再由中游众包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散兵游勇”,比如学生或家庭主妇。
这条产业链上,分包现象越严重,最终落到最底层的数据服务公司的价格就越低,一层层的“数据黄牛”压缩了利润空间,所以一些任务经过数手转包,酬劳已低得惊人。
目前的数据标注工作主要是集中在河北、河南、山东、山西等劳动力密集的地区,这样的选址也因为能够以更加低廉的劳动力成本去完成大量的数据标注工作。

下面是我对国内的数据众包公司做的一些调研(按照我搜索得知该公司的顺序排序)。
不知道是否是我们的标注任务太难的缘故,绝大多数公司没有任何反馈。

1.百度数据众包、百度云众包
百度不愧是靠PC端的网页搜索起家的,其前端技术还是不错,网站做的还是比较精致的。但是我提出了数据标注任务之后,贵司的这个相应效率可就有点搞笑了。完全没有反应……

2.泛函科技
第二天下午有反馈, 0.35元/条, 后来涨价到1.5元/条……而且拿走我的数据,试标结果都没有反馈。
但是客户经理态度还比较好,最后给出这样一个方案“您确定一个期望的价格,我们也可以把他发到我们的平台上,我们抽取一定佣金后,按您意愿的价格发布任务。看是否有用户愿意标注,这样的工期我们不敢保证。”,我是不敢采取的,23333。

3.京东众智
数据标注的需求申请是真难用!京东公司就没有一个会前端的人嘛?
但是,京东的效率很高,反应很快(第二天就有回复),对接服务还比较周到细致,测评试标注有标注结果反馈,且效果尚可。最后谈妥的价格是0.55元/条,含6个点的税,增值税普通发票。关键是,京东平台只接受5W元以上的订单。这一点为什么不在官网说明?浪费我那么多的联系时间。

4.数据堂
联系之后没有反馈

5.龙猫数据
联系之后没有反馈

6.阿里众包
联系之后没有反馈

7.星辰数据
网页做的很好看,但是联系之后没有反馈

8.爱数智慧
第二天下午有反应,但进展比较慢。问我要走了样例数据试标注却没有结果反馈。难道不需要顾客审查标注质量么?
最后报出的定价是0.45元/条,但是谁知道他们标注的质量呢?

9.倍赛公司
联系之后没有反馈

10.tagger
联系之后没有反馈

总的来说,我眼中国内最靠谱的数据标注公司是京东众智。不论是客户经理的对接工作,还是数据的试标注反馈,完成的都比较高效和到位。但也有一个致命的缺陷,它们只接受5W元以上的标注任务订单,,,这就基本把高校的科研组统统拒之门外了。另外,泛函科技和爱数智慧的服务以及价格尚可,只是没有京东众志应答迅速,没有试标注的结果反馈。至于其他一些公司,统统没有反馈,令人失望。


PS:上文中,BA已经出镜,不给T家一个机会貌似不太公平。那就给他们一个亮相机会吧。

AI发电厂——数据标注公司(国内数据标注公司服务调研)_第1张图片

参考文献

众包数据标注中的隐类别分析
谈谈人工智能数据标注那些事儿
数据标注员,最后一批被AI取代的人

你可能感兴趣的:(Machine,learning)