1.
两年前,来自山东农村的王磊成为了一位数据标注员。彼时的他,工作内容非常简单且枯燥:识别图片中人的性别。
然而,一段时间之后,他注意到分配给他的任务开始变得越来越复杂:从识别性别到年龄,从框选2D物体到3D物体,图片场景从白天到深夜,甚至出现了多雾天气,用他自己的话来形容,就是“越来越奇怪了”。
小赵今年25岁,别看年龄不大,但是她已经做了足足8年的餐厅服务员。她的人生计划是再做几年服务员,攒上一笔钱就回到老家开一家只属于自己的餐厅。然而,2017年随着她所在的餐厅因质检不合格而关停后,她的人生也因此发生了重大改变。
她本想再找一家餐厅,继续从事“老本行”,然而身边的一位朋友却给小赵推荐了一个新的职业:数据标注员。
她决心尝试一下。
两年之后的现在,小赵已经成为了一家数据标注公司的标注组组长。
“我们会把原始数据分配给一个标注组,通常包括10个标注员和3个质检员。这些专门的标注小组是经过特别训练的,得益于标注工具的技术领先性,我们可以以95%的准确率在8天左右的时间完成大概10,000张自动驾驶车道检测的标注工作。”
2.
现如今,像王磊、小赵这样的普通数据标注员在国内已不下上百万。数据标注员有时候会被称为“AI劳工”或者是“AI领域看不见的工人”。他们标注的数据会用来训练机器学习模型,然后我们才能享受到通过机器学习赋能的产品和服务。
三十年以前机器视觉系统还几乎不能识别手写的数字,但是今天人工智能系统已经可以控制自动驾驶汽车、在病理幻灯片中检测肿瘤细胞,甚至审阅法律合同。先进的算法和强大的底层计算资源,以及精确的标准数据集,在人工智能的复兴中起到了至关重要的作用。
对数据标注需求的持续增长催生了专业数据服务企业的蓬勃发展。以小赵的主要合作企业曼孚科技为例,曼孚科技旗下拥有超过10万+像小赵这样经过严格训练的标注、质检人员,曼孚科技所研发的数据标注工具每天会被数以万计的标注员所操作。
随着数据服务公司规模的扩大,相关企业的估值也水涨船高。旧金山一家名为Scale的AI企业获得了1亿美金的投资,抢占了今夏科技圈的头条。值得注意的是,这家公司是由一位仅仅22岁的MIT毕业生于2016年创立的,现在Scale已经成为了硅谷最受追捧的AI初创企业之一。
Scale AI的高估值归功于他们在自动驾驶领域所提供的多样性数据标注服务。Waygo、Lyft、Zoox、Cruise和Toyota研究所都是他们的客户。TechCrunch报告称Scale AI旗下有将近30,000的签约标注员提供文本、语音、图像和视频的数据标注服务。
另外一家热门的数据标注公司是Mighty AI(以前称为Spare5).今年夏天他们被共享驾驶巨头Uber收购,此举被视为Uber推动自身自动驾驶技术发展的关键一步。
这些新兴的数据标注公司有一些共同点:他们都以自己能提供高质量数据标注服务即经过严格质量控制的专项领域数据而区别于Mturk等传统的数据众包平台;他们的众包标注员都是在全世界范围内经过严格筛选并且接受过专业的培训与管理;此外,这些公司内部的算法则是通过不断研究如何应用算法模型来提高标注效率。
AI公司的训练数据除了来自内部的数据标注团队,通常还非常依赖这些可控、高质量的数据标注服务提供商。Synced被告知,有一些自动驾驶企业每个月需要支付给数据标注企业几百万美金用于数据标注服务。
2019年出现了大批可用的自动驾驶标注数据集。Waygo、Ford自动驾驶分支Argo AI和Lyft都开源了高质量的自动驾驶数据集,这对于高度依赖数据的自动驾驶技术研究的发展是一个非常好的信号。
相比构建一个图像分类数据集,构建一个高质量的自动驾驶数据集要复杂的多。Waygo Open Dataset有16.7个小时的视频数据、3,000个驾驶场景、600,000视频帧、将近2500万3D多边形和2200万2D多边形标注,而这只是Waygo大量私有自动驾驶数据集中的一小部分。
中国领先的自动驾驶服务提供商Baidu Apollo告诉Synced一个典型的高质量自动驾驶数据集一般包括:
---像素级语义标注
---3D语义标注
---像素级物体类别标注(pixel-wise object instance annotation)
---精准道路分割
---移动物体关系标注
---高精度的GPS/IMO信息
自动驾驶这个领域本身的一些特质,要求自动驾驶相关企业必须制定严格的数据标注标准。当一个语言模型出错时,最多只是句子不通顺。但是一个自动驾驶数据集的错误可能会造成自动驾驶车辆在行驶过程中出现灾难性的后果。
去年UC Berkeley开源了包括100K驾驶录像视频的BDD100K数据集,成为了当时最大的自动驾驶数据集。
Fisher Yu,BDD100K的主要贡献者之一,告诉Synced,出于对传统众包平台糟糕的标注数据质量的担忧,他们选择把标注工作外包给了第三方的数据服务企业。
“传统众包标注员很难交付自动驾驶所需的高质量,高精度的分割数据集,所以企业一般依赖公司内部的标注团队或者第三方的数据标注服务企业”,Yu这样告诉记者,“Garbage in, garbage out”(没有高精度训练数据,就没有高精度模型产出)。
3.
横店影视城,也被称为“中国的好莱坞”,是亚洲最大的电影拍摄基地。它位于浙江省中部,由数千公里的农田改造而成,数以千计的影视工作者在这里拍摄电影、电视剧以及网络剧。
曼孚科技就在这里设立了一个基地。不过他们不是在拍摄电视剧,而是用来专门拍摄和记录演员的面部表情——大笑,哭泣,愤怒等等,这些合法采集的数据可以被AI公司拿来做面部关键点标注的素材。
曼孚科技成立于2018年,随着人工智能在中国的迅猛发展,团队成员已经由最初的几个人扩展到几十人,同时曼孚科技还与数以万计的全职标注员合作。另外,曼孚科技还设有专门的算法团队致力于把最新的AI技术应用到数据标注中。
中国的科技公司在高质量标注数据对算法的重要性方面有着深刻的理解。一些企业在数据标注的精度、复杂性、时间等方面有了更高的要求。去年众多数据标注企业的倒下与他们不能满足这些新的要求有很大关系。
曼孚科技的CEO章越(以下简称“章”)告诉Synced:“回到2015年和2016年,AI企业通过开源数据集或者爬取网络上公开数据训练出来的AI模型就可以获得融资。但是如果他们想把算法应用在现实场景中,就必须提高标注数据质量。”
章以面部关键点识别为例介绍说:“几年以前,标注员只需要在人脸上标注几个点就可以了,但是现在面部关键点标注需要206点:每个眉毛上8个,嘴唇个20多个,脸颊17个等等。”
章继续说道:“领域内的专家在标注中发挥了关键的作用。那些廉价的标注员一般只能标注不需要什么背景知识的数据,对于法律合同分类,医学图像和科学文献等,必须要有相关领域的专业知识才可以做。
一般情况下,有驾驶经验的人比没有驾驶证的人,可以更好更有效的标注自动驾驶的数据集。相同的,有医学,病理学,放射学或者其他医学方面有学术背景的人,可以更准确的标注医学图像。但是领域专家的使用成本可不便宜。”
4.
Wilson Pang是Appen的首席技术官,Appen是一家位于悉尼的标注数据交易公司,拥有180多种语言的专业知识,在130多个国家拥有超过100万名熟练标注员。Pang告诉Synced,当公司购买数据时,成本不再是最重要的决定因素。
“如果数据质量不合格,AI模型的性能将不尽如人意。 当发生这种情况时,人们通常需要再次收集和标注数据,这会浪费大量数据科学家的时间,并增加训练这些模型的硬件成本。”
“但最重要的是,当公司无法得到高质量的训练数据时,他们无法及时推出算法模型,也就不能赶上竞争对手的进度 ”Pang说。 今年3月,Appen以3亿美元的价格收购了位于旧金山的高质量数据标注公司FigureEight(以前称为Crowdflower)。
5.
鲍里索夫在莫斯科国立大学获得计算机科学博士学位。两年前,他联合创立了Supervise.ly,这是一家位于硅谷的创业公司,该公司研发的软件旨在用深度学习模型提高数据标注的效率。 Supervise.ly平台现已被超过15,000家公司和工程师使用,主要来自农业、建筑、消费电子、医疗保健和自动驾驶汽车等行业。
Supervisely.ly是过去几年数据标注潮流中涌现出的众多公司之一。Borisov说最近几年复杂耗时的数据注释工作(如头发分割和视频标注)的需求激增,推动了公司的快速发展。
“在头发分割的过程中需要耗费多少标注员并不重要,重要的是高质量准确像素级的标注。”数据标注软件公司Watchful的联合创始人Singleton说,大多数需要高质量标注数据的公司在数据科学和机器学习专业知识方面本身相对不成熟,而且发展人工智能项目的预算也有限。
“数据标注往往是由一个小型并且已经工作量饱和的数据团队完成的,以致于他们不能专心的研究算法模型,而这个才是真正有意义的工作”,Singleton说。
对于Watchful和Supervise.ly,这些中小型客户代表了一个不断扩大的机器学习工具市场,这些工具可以帮助他们从有限数据中提取尽可能多的信息。根据Grand View Research的一项新研究,全球数据标注工具的市场规模预计在2025年将达到16亿美元。
机器学习辅助数据标注的方式有很多。 Borisov描述了一种“人在环”的图像分割方法,其中用户首先在未标记图像上应用预训练过的分割模型来自动生成大概的轮廓。然后用户手动调整轮廓。其中一个例子是Polygon RNN,这是由多伦多大学和NVIDIA开发的一个研究项目,目的是为分割数据集提供高效标注。
Supervise.ly还设计了一个交互式标注模式。用户首先在一个物体周围画一个框。然后,模型会自动创建粗略的轮廓并预测其类/域。用户可以通过简单的鼠标点击来调整模型的预测 :绿色表示正确的预测;红色表示错误的预测。
Kaggle首席技术官Ben Hamner表示,主动学习是数据标注领域的的另一个热门话题。在最近在旧金山举行的种子奖活动中,Hamner告诉Synced“使用主动学习是为了辨别哪些数据点需要分类或值得标注。这样我们就只需要对机器尚未了解或不确定的数据进行分类。”
6.
学术界在推动数据标注方面的努力:“我怎样才能使用你刚才介绍的数据标注工具?”Huan Ling说这是他今年6月在加利福尼亚州长滩举行的顶级人工智能会议计算机视觉和模式识别(CVPR)2019中听到的最常见问题。
Ling是多伦多大学Vector Institute的研究生。他的研究团队最近发表了使用Curve-GCN进行快速交互式物体标注的文章,该文章已被CVPR 2019接收。该研究的一项重大创新是使用图形卷积网络(GCN)自动勾勒出物体的轮廓。在实验中,这种端到端框架表现优于目前所有自动和交互的模型。
Ling的顾问是Sanja Fidler教授,他是一位受人尊敬的研究员,带领NVIDIA的多伦多AI实验室。她的团队在对象分割和图像标注方面投入了大量精力,并为PolyGon RNN及其改进版PolyGon RNN ++的创建做出了重要贡献。新的GCN方法比PolyGON RNN ++快10倍(在自动模式下)和100倍(在交互模式下)。 Ling的CVPR2019报告会议受到与会者的热烈欢迎。
与Fidler教授的团队一样,谷歌、Adobe、苏黎世联邦理工学院和其他大型AI实验室也对图像和视频标注非常感兴趣,谷歌的Open Image,Adobe的交互式视频分割以及ETH的Dextr代表着对这个领域的强大投资力量。
Ling告诉Synced,数据标注中的难题主要是3D标注和视频标注。 Appen CTO Pang表示,目前基于机器学习的对象跟踪算法已经可以辅助视频标注。标注员在第一帧上标注对象,然后算法通过后续帧跟踪这些对象。标注员只需在算法跟踪功能不正确时调整标注。该方法比没有辅助标注时快100倍。
“监督学习仍然是人工智能解决方案最有效的方法,尤其是那些创新性的系统,而且我认为这种趋势短期不会改变。”