Yongjian Zhao and Qi Han
众包依靠大量工人的贡献来完成空间任务,近年来越来越受到人们的关注。许多众包任务都是在网上完成的,因为它方便快捷。然而,由于涉及实际物理位置的特殊要求,这种传统方法有时可能无法工作。因此,在过去几年中出现了一种新的数据收集模式,称为空间众包。空间众包由特定位置的任务组成,这些任务要求人们实际在特定位置完成。在本文中,我们讨论了空间众包所面临的独特挑战,通过引入分类法对这一新范式进行了全面的阐述,并给出了未来的发展方向。
众包”一词最早是由Jeff Howe于2006年6月在Wired杂志一篇名为“众包的兴起”的文章中提出:“众包是指本应该由公司或机构的工人履行的职责,以公开招募的方式将其外包给一个未知的(通常是大量的)人群网络的行为。众包任务可以由个人完成,也可以通过合作完成。根据这个定义,大量的人群和公开招募是众包的两个关键组成部分。各种各样的术语被用于众包,包括社交计算、集体智能、人类计算[1]、众包感知、众包计算、对等生产用户驱动系统、众包智慧、智能群和大规模协作。
传统上,众包被用于数据挖掘,以确保获得足够的数据,排除不良数据,或获得更精确的答案。它也被用于软件工程以支持各种活动。通常,众包是在网上进行的,因为它可以很容易地吸引到很多人。例如,Amazon Mechanical Turk(AMT)是一个基于web的市场,它让人们完成由个人或公司发布的任务。在线众包可以用于各种目的,如寻找失踪人员和社会科学实验(如人口学)。通常,接收或请求任务的工人根据自己的知识回答问题,而不需要出现在特定的物理位置。移动设备的日益普及使得移动众包成为可能,即移动用户可以在一个位置完成各种无法完成的任务。特别是,由于移动设备通常有各种内置传感器,众包感知(crowdsensing)是众包的一个子类,现在,许多用户可以通过使用内置在移动设备中的传感器感知和报告某些信息来完成任务。
在本文中,我们特别关注一种移动众包:空间众包(spatial crowdsourcing,空间众包)。空间众包要求工人在特定地点完成任务。在这种群体智慧中,人们在现实世界中收集、分析和传播地理和/或社会信息。空间众包有时被称为位置感知或地理众包。关于众包的研究已经有很多,但是对于空间众包的关注却很少,很多应用都能从中受益。例如,政府希望在不同的时间(即小时、日、月、年)从城市的不同地点收集空气质量信息,而每个地点都需要几个工人提供数据。由于工人分布在城市的地理位置,一个传统的众包系统,工人只是在他们选择的时间上传他们附近的数据,可能无法提供城市空气质量状况的完整图片。这是因为当时某些地区没有足够的工人而导致在这些地点或时间报告的数据可能不够。相比之下,一个主动派遣工人的空间众包系统将解决这个问题。近年来,地理数据或地理空间数据的收集引起了各国政府的重视。例如,美国和英国政府已经批准了收集、生产和许可地理空间数据的项目,以作为国家战略的一部分。Grassroots Mapping是利用气球测绘平台采集航空影像的项目。收集到的图像然后进行地理注册并共享给公众。此外,Open Street Map(OSM)、Google MapMaker和Wikimapia都是使用空间众包的优秀地理项目,因此,开发完善的空间众包技术来支持这些应用是非常重要的。
本文对空间众包进行了全面的回顾,将空间众包与传统众包进行了比较,确定了空间众包的独特性,并对空间众包进行了分类,以帮助更好地理解空间众包中的关键问题和该领域的研究现状。最后,我们讨论了未来的几个方向。
通常,众包系统关注以下问题。
所有这些问题并不是相互独立的;相反,它们常常相互影响。例如,工人的选择往往需要考虑工人的可靠性、贡献数据的质量和激励;激励机制也不能忽视工人的可靠性和数据质量。
除了这些问题,空间众包还带来了新的挑战,因为它要求人们在某个地方亲自到场完成任务。空间众包可以很容易地透露工人的位置,这引起了严重的隐私问题。PriGeoCrowd[3]是一个交互式可视化开发的,用于保护隐私的空间众包的调整工具箱。系统设计人员可以通过PriGeoCrowd来研究分配策略、任务分配启发算法、隐私预算、私有任务匹配的数据集密度等参数的影响。只有隐私得到保护,才能鼓励人们参与空间众包应用程序。此外,还应处理其他几个问题。
由于没有可直接用于空间众包的真实数据集,空间众包算法通常使用综合数据集进行评估:使用分布函数生成用户和任务位置,然后使用用户移动模型模拟用户行为。为科研人员设计一个通用的空间众包数据采集平台,对促进空间众包领域的研究具有巨大的潜力。
为了帮助识别未来应用的需求,我们开发了潜在应用的分类法(图1)。第一个部分涉及空间众包工人的建模方式,第二个部分涉及众包任务的需求,第三个部分涉及工人提供的各种类型的回答,第四部分是应用程序希望优化什么以及它面临什么约束。在图1中,阴影框显示需要修改以适合空间众包的问题,而其他框显示空间众包和一般众包中常见的问题。
空间众包系统由一组工人组成。每个工人 w i w_i wi都与一组属性相关联,这些属性表示为 { i d i , l a t i , l o n g i , d i , e x p i , r e l i , p u n c i , t r a i } \{id_i, lat_i, long_i, d_i, exp_i, rel_i, punc_i, tra_i\} {idi,lati,longi,di,expi,reli,punci,trai},其中 i d i id_i idi表示工人的唯一标识符, l a t i lat_i lati和 l o n g i long_i longi表示用户的地理坐标, d i d_i di表示用户在 e x p i exp_i expi方面的熟练程度。例如,专业摄影师可以提供比业余摄影师更高质量的照片。用户可靠性表示为 r e l i rel_i reli,它反映了工人提供准确答案的可能性, p u n c i punc_i punci表示用户准时性,它衡量用户在最后期限内到达任务位置的可能性。 t r a i tra_i trai代表工人过去的轨迹,可以用来预测工人未来的位置。
据工人的动机,我们可以将工人分为两类:寻求奖励和志愿。
每个任务 j j j都与一组属性关联: { i d j , d e a d l i n e j , l o c j , q u e j , n u m j , i n c e n t i v e j i , b u d g e t j } \{id_j,deadline_j,loc_j,que_j,num_j,incentive_{ji},budget_j\} {idj,deadlinej,locj,quej,numj,incentiveji,budgetj}。 i d j id_j idj表示任务的唯一标识符, d e a d l i n e j deadline_j deadlinej表示任务的截止日期,这意味着任务具有实时约束, q u e j que_j quej是工人需要回答的问题。可以是“是/否”问题来验证某些信息;也可以要求工人拍摄某个地方的照片,等等。 l o c j loc_j locj代表任务的物理位置。如果位置是二维坐标,则将任务视为点任务;否则,位置可能由区域(如校园或城市)表示,在这种情况下,任务被视为区域任务。例如,VGI[4]正在众包一个区域任务,在该任务中,工人自愿收集某个区域的地理空间信息,以提高数据质量。 n u m j num_j numj是指完成任务所需的工人数量。在某些系统中,工人被认为是可信和准确的;因此,任务只分配给单个工人。然而,在现实世界中,用户可能并不总是可靠的,因此最好将一个任务分配给多个工人,以确保收到的回答集合的质量。 i n c e n t i v e j i incentive_{ji} incentiveji表示完成任务 j j j时对工人 i i i的奖励,而 b u d g e t j budget_j budgetj表示任务的总预算。
根据任务是否需要单个或多个工人,我们可以将任务分为以下两类。
一旦建立了任务模型和工人模型,我们就可以考虑任务分配或工人选择。一般来说,主要有两种模式:一种是让服务器分配任务,另一种是让工人选择任务。
在这两种模式下,都需要考虑工人的出行路线。当一个工人分配或选择多个任务时,这个问题变得更加突出。这是因为这些任务可能不在同一个位置,所以我们需要通过仔细选择路径和调度任务来避免不必要的位置间旅行。例如,可以使用协调任务分配方法[10],其中系统将任务序列分配给每个工人,同时考虑到从个人历史移动预测的预期轨迹。
不同的空间众包应用程序可能会带来不同的任务。在每个任务中,工作者可以贡献不同类型的数据,例如分类数据、连续数据或多媒体数据。有些人可能会要求工人在特定位置验证某些信息,因此回答只是“是/否”;另一些人可能会提出需要更详细回答的问题;还有一些人可能会要求工人使用图片或视频等多媒体数据进行回答。照片可以在不同的时间,从不同的角度,从不同的距离,等等。考虑回答的一个有趣的方法是引入“多样性”的概念的基于可靠多样性的空间众包(RDB-空间众包)[11]。它将时间受限的空间任务分配给动态移动的工人,使得任务能够以高可靠性和时空多样性完成,其中多样性值被表示为所提供回答的熵。由于该问题是NP难问题,因此提供了三个近似解(贪婪、采样和分治)。
不同的空间众包系统有不同的焦点,这些焦点从工人或系统的角度可以有所不同。从一个工人的角度来看,他的目标通常是使他的总净报酬最大化,即他从系统中获得的报酬与成本(如旅行成本)之间的差额。为了达到这个目标,一个工人可能会在他的旅行路线上寻求尽可能多的任务,然后工人可能会互相竞争。这可以通过使用不同的博弈论模型来实现帕累托最优(Pareto Optimality)。为了降低成本,工人可以选择最佳路径来完成所有任务,因此在选择任务时需要综合考虑任务调度和路径选择。
从系统的角度来看,目标往往是以最小的成本最大化任务覆盖率,获得最大的质量。
最大化任务覆盖率. 这是为了最大化分配任务的数量。为了实现这一目标,服务器首先收集工人的所有位置,然后设计一个策略,以最大化分配的任务的总数。有些系统不考虑工人的不同专业水平,所以他们对工人一视同仁。然后将任务分配问题表示为匹配问题[12],其中工人和任务形成一个二分图;工人和任务之间的边的权重为1。考虑工人的技能水平其他系统通过定义一个专业技能匹配分数来向专家分配任务[13]。专家匹配的得分高于非专家匹配。该问题可以表示为一个加权b-匹配问题。
由于空间众包中固有的旅行性质,任务分配问题往往需要考虑任务调度问题。一旦将一组任务分配给工人,工人必须确定完成任务的最佳方式。例如,为了使分配给每个工人的任务数量最大化,两个精确算法使用动态规划和分支定界策略开发了来解决任务调度问题[9]。此外,还开发了一个基于对分的LALS框架[14],该框架迭代地执行自上而下的递归对分和自下而上的合并过程,以便可以在更小的有希望的空间中本地执行分配和调度。
图2显示了空间众包的流程。最初,每个工人下载空间众包应用程序,并能够看到任务发布者发布的所有任务。如果服务器将分配任务,则服务器将收集所有工人的信息并招募适当的工人;如果工人将选择任务,则工人将选择适当的任务集以使其报酬最大化。工人选择和任务选择都利用来自工人模型和任务模型的信息。设计了一种激励机制来激励工人完成任务。任务完成后,任务发布者将从工人收集数据。系统从贡献质量、用户可靠性等方面衡量用户的贡献。结果进一步用于调整激励措施。例如,任务发布后,工人的可靠性和准时性可能会发生变化,必须更新对该工人的激励。只要有可用的任务,这个过程就会迭代。
现有的关于空间众包的工作已经对空间众包的各个方面进行了研究,接下来我们将着重介绍未来研究的几个方向。
上述问题解决了可能有针对性的技术问题。此外,在现实中,没有可用的数据集可以直接用于空间众包任务。因此,从工程的角度来看,有必要收集真实世界的数据,以帮助验证不同的研究思路和系统,而不是对合成数据进行模拟。
在这篇文章中,我们调查了众包的一个新分支-空间众包-它要求工人在特定的物理位置以完成任务。我们讨论了空间众包的独特性,然后将最新研究分为不同的类别。最后,我们提出了目前文献中尚未研究的几个有希望的问题。
[1] A. J. Quinn and B. B. Bederson, “Human Computation: A Survey and Taxonomy of a Growing Field,” Proc. Int’l. Conf. Human Factors in Computing Systems, 2011, pp. 1403–12.
[2] M. Van Exel, E. Dias, and S. Fruijtier, “The Impact of Crowdsourcing on Spatial Data Quality Indicators,” Proc. 6th GIScience Int’l. Conf. Geographic Info. Science, 2010.
[3] H. To, G. Ghinita, and C. Shahabi, “Privgeocrowd: A Toolbox for Studying Private Spatial Crowdsourcing,” Proc. 31st IEEE Int’l. Conf. Data Engineering, 2015, pp. 1404–07.
[4] R. Karam and M. Melchiori, “A Crowdsourcing-Based Framework for Improving Geo-Spatial Open Data,” Proc. IEEE Int’l. Conf. Systems, Man, and Cybernetics, 2013, pp. 468–73.
[5] M. F. Bulut, Y. S. Yilmaz, and M. Demirbas, “Crowdsourcing Location-Based Queries,” Proc. IEEE Int’l. Conf. Pervasive Computing and Communications Wksps., 2011, pp. 513–18.
[6] Z. Chen et al., “Gmission: A General Spatial Crowdsourcing Platform,” VLDB Endowment, vol. 7, no. 13, 2014, pp. 1629–32.
[7] X. Xie, H. Chen, and H. Wu, “Bargain-Based Stimulation Mechanism for Selfi sh Mobile Nodes in Participatory Sensing Network,” Proc. 6th Annual IEEE ComSoc Conf. Sensor, Mesh and Ad Hoc Commun. and Networks, 2009, pp. 1–9.
[8] L. Kazemi and C. Shahabi, “Geocrowd: Enabling Query Answering with Spatial Crowdsourcing,” Proc. 20th ACM Int’l. Conf. Advances in Geographic Information Systems, 2012, pp. 189–98.
[9] D. Deng, C. Shahabi, and U. Demiryurek, “Maximizing the Number of Worker’s Self-Selected Tasks in Spatial Crowdsourcing,” Proc. 21st ACM SIGSPATIAL Int’l. Conf. Advances in Geographic Information Systems, 2013, pp. 324–33.
[10] C. Chen et al., “Towards City-Scale Mobile Crowdsourcing: Task Recommendations Under Trajectory Uncertainties,” Proc. 24th Int’l. Joint Conf. Artifi cial Intelligence, 2015, pp. 1113–19.
[11] P. Cheng et al., “Reliable Diversity-Based Spatial Crowdsourcing by Moving Workers,” PVLDB, vol. 8, no. 10, pp. 1022–33, 2015.
[12] L. Kazemi, C. Shahabi, and L. Chen, “Geotrucrowd: Trustworthy Query Answering with Spatial Crowdsourcing,” Proc. 21st ACM SIGSPATIAL Int’l. Conf. Advances in Geographic Information Systems, 2013, pp. 314–23.
[13] H. To, C. Shahabi, and L. Kazemi, “A Server-Assigned Spatial Crowdsourcing Framework,” ACM Trans. Spatial Algorithms and Systems, vol. 1, no. 1, 2015, p. 2.
[14] D. Deng, C. Shahabi, and L. Zhu, “Task Matching and Scheduling for Multiple Workers in Spatial Crowdsourcing,” Proc. 23rd Int’l. Conf. Advances in Geographic Information Systems, 2015, pp. 21:1–21:10.
[15] I. Boutsis and V. Kalogeraki, “On Task Assignment for Real-Time Reliable Crowdsourcing,” Proc.