Man-Ching Yuen , Irwin King , and Kwong-Sak Leung
Department of Computer Science and Engineering, The Chinese University of Hong Kong, Hong Kong
AT&T Labs Research, San Francisco, USA
{mcyuen, king, ksleung}; [email protected]
近年来,众包作为一种分布式问题解决和商业生产模式正在发展。在众包范例中,任务被分配给联网的人来完成,这样就可以大大降低公司的生产成本。2003年,路易斯·冯·安和他的同事开创了“人类计算”的概念,它利用人类的能力执行计算机难以处理的计算任务。后来,“众包”这个词是由Jeff Howe在2006创造的。从那时起,众包领域的许多工作都集中在众包的不同方面,例如计算技术和性能分析。本文综述了有关众包技术的文献,根据其应用领域、算法、性能和数据集进行了分类。本文提供了一个结构化的观点,目前的众包研究。
为了降低企业的生产成本,更有效地利用劳动力和资源,提出了众包概念 [33]。众包是一种分布式的解决问题和企业生产模式。在2006年为《连线》杂志撰写的一篇文章中,Jeff Howe将“众包”定义为“将传统上由员工以公开呼叫的形式执行的任务外包给一大群人的理念”[32]。众包任务的一个例子是创造性的图纸,如Sheep Market[3],[46]。Sheep Market是一部基于网络的艺术作品,它让数千名工人参与到大量绘画数据库的创建中。工人们用简单的绘图工具制作他们的“面向左边的羊”的版本。每一个工人负责一张图纸支付两分钱作为他的劳动。
由于Web 2.0技术的普及,众包网站目前引起了广泛的关注[91],[90]。众包网站有两组用户:请求者和工人。众包站点显示一个可用的任务列表,与请求者给出的奖励和时间周期相关联;在此期间,工人们竞争提供最佳提交。同时,工人从任务列表中选择任务并完成任务,因为工人希望获得相关的奖励。在此期间结束时,选择提交的子集,并且相应的工人被请求者授予奖励。除了金钱报酬外,工人在接受请求者接受的任务时也会获得信誉。有时,任务请求者有义务根据要求向完成任务的每个工人支付报酬。在某些情况下,员工不是出于奖励而工作,而是为了娱乐或Altruist[66]工作。在这一部分中,我们将众包应用分成四类,即投票系统( voting system)、信息共享系统(information sharing system)、游戏( game)和创意系统(creative system)。
流行的众包网站的一个例子是Amazon Mechanical Turk(或MTurk)[1]。在Amazon的MTurk网站上进行了大量的应用或实验。它可以支持大量的投票任务。这些投票任务需要众包工作者从多个选择中选择他的答案。多数选择的答案被认为是正确的。投票可以作为评估人群回答正确性的工具。下面列举了一些例子:
Geometric reasoning tasks(几何推理任务)——解释和推理形状的能力是一种特定的人类能力,已经证明很难通过算法来再现。一些解决几何推理问题的工作在MTurk被提出[39],[28]。
Named entity annotation(命名实体注释)——命名实体识别用于识别和分类文本引用的对象在世界上,如个人和组织。MTurk是一种非常有前途的用于注释大型语料库的工具,例如阿拉伯昵称、Twitter数据、大型电子邮件数据集和医学命名实体[29],[20],[49],[89]。
Relevance evaluation(相关性评估)——人类必须阅读语料库中的每个文档以确定其与一组测试查询的相关性。Alonso等人[6]提出了相关性评价的众包,因此每个众包工作执行一个小的评估任务。
Natural language annotation(自然语言注释)——自然语言注释对人类来说很容易,但是目前对于自动化过程来说很困难。最近,研究人员研究了MTurk作为非专家自然语言注释的来源,它是专家注释的廉价而快速的替代[4],[11],[21],[41],[65],[72]。Akkaya等人[4]表明,众包的主观性词义标注是可靠的。Callison-Burch和Dredze[11]展示了他们以非常低的成本为语音和语言应用程序创建数据的成功。Gao和Vogel[21]证明了,从对齐错误率来看,众包工作者在单词对齐任务上优于专家。Jha等人[41]指出,通过众包工作者可以建立一个准确的介词短语依附语料库。Parent和Eskenazi[65]演示了一种在MTurk中定义字典定义任务的方法。Skory和Eskenazi[72]向MTurk的工作人员提交了开放式完形填空任务,并讨论了评估这些任务结果的质量的方法。
Spam identification(垃圾邮件识别)——如果没有人类理解内容的任务,就无法确定垃圾邮件。一些反垃圾邮件机制如Vipul’s Razor.1使用人工投票来确定给定的电子邮件是否为垃圾邮件。
在线ESP游戏[77]是第一个人类计算系统,随后被用作 Google Image Labeler.8。它的目的是收集标签在网络上的图像。除了图像注释之外,Peekaboom系统[81]可以帮助确定图像中对象的位置,Squigl系统[2]提供图像中对象的完整轮廓。此外,Phetch[78],[79]提供了图像描述,改善了网络的可访问性和图像搜索,而Matchin系统[2]帮助图像搜索引擎根据哪些图像最吸引人,对图像进行排序。ESP游戏的概念已被应用于其他问题。例如,TagATune系统[48]、MajorMiner[54]和Listen Game[75]为声音和音乐提供注释,这可以改进音频搜索。详细系统[80]和共同共识系统[51]收集常识知识,这些知识对于常识推理和增强交互式用户界面的设计是有价值的。 Green[26]提出了一种挖掘语义数据的PACKPLACE方法。在[8],[9],[85]中描述了社会注释的例子。近年来,已经提出了几种基于GWAP的地理空间标记系统,如Mobi.on[25]、Gopher游戏[13]和CityExplorer[57]、[58]。为了简化一个特定问题的社交游戏的设计方法,Chan等人[14]提出了总体设计社交游戏的形式框架。
人类在创造力中的作用不能被任何先进技术所取代。创造性的任务,如绘图和编码,只能由人类来完成。因此,一些研究人员寻求众包工人做一些创造性的任务,以减少生产成本。Sheep Market就是一个例子。Sheep Market是一部基于网络的艺术作品,它让成千上万的在线工作者参与到一个庞大的绘画数据库的创建中。这是一组由MTurk工人创造的10000只绵羊的集合,每个工人被支付0.02美元来画一头朝左的绵羊[3],[46]。另一个例子是Threadless.9。Threadless是一个收集由通信产生的图形T恤设计的平台。虽然当今技术发展迅速,但人类在产品设计过程中可以创新创意,而计算机却不能。关于如何开发新产品的具体问题,目前尚无定论。不同的人可能会产生不同的想法,比如设计一件T恤衫[10]。此外,Leimeister等人[50]建议将软件开发任务作为思想竞赛来众包化,以激励更多的用户支持和参与。如今,科学家们面临着日益复杂的问题,但是目前的技术无法提供解决方案。一些众包系统被设计来解决这些问题。Foldit.10是一款革命性的新电脑游戏,它允许玩家利用人类解谜的直觉来帮助预测蛋白质结构,这是生物化学的一个重要领域,旨在寻找疾病的治疗方法。
众包系统通常只支持简单、独立的任务,例如标记图像或判断搜索结果的相关性。一些工作提出了许多个体之间的协调以完成更复杂的人工计算任务[52]、[44]。Little等人介绍了TurKIT[52],它是探索MTurk上的人类计算算法的工具包。TurKit允许用户以直接的命令式编程风格编写算法,将MTurk抽象为函数调用。TurKit没有解决分成单个HIT的许多小的,不相关的任务,而是提出了一个概念,即单个任务(如排序或编辑文本)可能需要多个协调的HIT,并提供持久层,使迭代开发此类任务变得简单,而不会产生过多的HIT成本。Kittur et等人提出了CrowdForge[44]的微任务市场的通用框架,该框架为更复杂的人工计算任务提供了框架,这些任务需要许多个人之间的协调,例如撰写一篇文章。CrowdForge通过将分区/映射/缩减步骤作为分布式流程流的基本构建块,将创建和管理子任务的许多编程细节抽象出来,从而使复杂的任务能够系统地、动态地分解为连续的、可并行的子任务。
一种算法可以帮助形式化的众包系统的设计。Yan等人[87]为iPhone设计了一个精确的实时图像搜索系统CuldDebug。CrowdSearch结合了自点动图像搜索和使用MTurk对搜索结果进行实时人工验证。然而,算法可以模拟众包系统的性能。 Wang等人[83]将任务完成时间建模为随机过程,建立了MTurk任务完成预期时间的统计预测方法。实验结果表明,发布任务的时间独立变量(例如,任务类型、HIT价格、发布日期等)如何影响完成时间。Singh[71]提出了一个研究社交媒体网络中用户行为和动机模式的博弈论框架。DiPalantino和Vojnovic[16]建立了一个竞争性众包系统的模型,并证明参与率随着提供的奖励而呈对数增长。 Ipeirotis等人[38]提出了一种用于大众外包系统中标签过程的质量管理的算法。该算法可以生成标量分数,表示每个工人的固有质量。Carterette和Soboroff[12]针对人群的相关性判断提出了八个可能的误差模型,并展示了每个模型如何影响平均精度的估计。Jain和Parkes[40]调查了各种人类计算设计的现有博弈论模型,并概述了通过推进博弈论以更好地设计人类计算系统的研究挑战。
除了为众包概念设计新的应用和算法之外,最近一些研究还研究了众包的性能方面。如本节所示,这些工作可以分为用户参与(User Participation)、质量管理(Quality Management)和作弊检测(Cheating Detection)。
在众包系统中,请求者必须决定如何将一个任务分解成几个小任务。众包系统中的一个中心挑战是如何设计一个任务以便从工人那里获得好的输出。一些研究使用真实数据集进行了综合实验,以研究用户行为对人工审查数据质量的影响。 Mason和Watts[56]指出,增加的金钱刺激增加了群众外包工人的工作数量,但质量没有提高。为了保证工人的输出质量,有必要推导出一套关于众包系统任务的设计原则。
由于众包工作者的匿名性,恶意工作者常常试图通过产生通用答案来最大化他们的经济收益,而不是实际地完成任务。目前,欺诈检测技术要么基于自动评估的控制问题,要么依赖于请求者的手动检查。Eickhoff和de Vries[18]检查了常见的恶意众包工作者的方法,如任务依赖评估、界面依赖评估和观众依赖评估。基于实验结果,他们得出结论,在涉及一定程度的创造性和抽象性的新任务中,恶意工作者不太常见,并且先前的人群过滤可以大大减少恶意工作者的数量。
对于控制问题不适用并且手动重新检查无效的众包系统。Hirth等人[30]提出了两种基于人群的方法来检测作弊工人:多数决策(Majority Decision,MD)和使用控制组(Control Group,CG)来重新检查主要任务的方法。对于MD,同样的任务是给几个不同的工人,并对结果进行比较。大多数工人提交的结果被认为是正确的。对于CG,单个工人处理一个主要任务,而由某些其他工人组成的控制组重新检查结果,无论它是否有效。通常,主要任务是昂贵的,而重新检查任务更便宜。如果控制组的大多数成员认为任务正确完成,则认为任务是有效的。实验结果表明,基于人群的欺诈检测机制廉价、可靠、易于实现,适用于不同类型的典型众包任务。
一些众包数据集现在可用于进一步的研究。例如,von Ahn等人从他们的ESP Game.11提供了100000张带有英文标签的图片列表。Law等人发布了一个名为Taatatune.12[48]的人类计算游戏的研究数据集。他们的网站包含由TagATune游戏收集的人类注释、从下载名为Magnatune.13的歌曲的网站下载的相应声音剪辑、脚本的源代码、以及曲目结构和音乐内容的详细分析。最近,Chen等人开发了ESP Lite游戏,类似于von Ahn等人介绍的ESP游戏,并收集了玩家玩Game.14的统计数据。Oversite有限公司开发了CiteULike.15,一个免费的网站,帮助学者跟踪他们阅读的文章。鼓励用户在网上公开他们的库,这样其他人就可以从发现他们可能没有发现的有用文章中获益。2009年,Benjamin Markines和Filippo Menczer从两个社交书签系统——Bibson.16和.AL.17——的可用数据集中提取了标签和资源之间的关系[55]。在2010, Ipeirotis等人通过计算新项目的每日统计数据和每天一次完成的任务,从Amazon Machine Turk收集所有可用的信息,并将数据集共享给公众.18。Körner和Strohmaier[47]发布了一份可用于研究的社交标签数据集.19。
我们调查了各种众包系统,并将它们分为四类:应用程序,算法,性能和数据集。 据我们所知,这是对新兴众包问题的第一次广泛调查。 该调查不仅提供了对众包系统的更好理解,还促进了众包领域未来的研究活动和应用开发。
