- 带有可微分池化的分层图表示学习;
- 叙利亚和也门的国内流离失所人口迁移模式预测;
- 社会网络中基于时间活动路径的人物矫正;
- 在线系统搜索排名欺诈去匿名化;
- 使用网络层次和社区结构的社会中心性;
- 城市间流行病控制和预防的集合种群传播网络推断;
- 转发我们,我们将转发您:发现涉及黑市服务的串通转播者;
- LinkedIn经济图如何绑定了信息和产品:在LinkedIn薪水中的应用;
- 衡量十家美国新闻网站的新闻相似性;
- 使用受限制的基于Bandit的个性化得到平衡的新闻;
- 时空网络上的统计物理协调动态路由;
- Heap法则,来自样本空间缩减过程的共享组件和时间模式的统计数据;
带有可微分池化的分层图表示学习
原文标题: Hierarchical Graph Representation Learning with Differentiable Pooling
地址: http://arxiv.org/abs/1806.08804
作者: Rex Ying, Jiaxuan You, Christopher Morris, Xiang Ren, William L. Hamilton, Jure Leskovec
摘要: 最近,图神经网络(GNNs)通过有效学习节点嵌入技术革新了图表示学习领域,并在节点分类和链路预测等任务中取得了最先进的成果。然而,目前的GNN方法本质上是平坦的,并且不学习图的分层表示 - 对于图分类任务来说特别有问题的限制,其目标是预测与整个图相关联的标签。在这里,我们提出DiffPool,一种可微分图池模块,可以生成图的分层表示,并可以与端点到端的各种图神经网络架构相结合。 DiffPool为深GNN每层的节点学习可微软软件集指派,将节点映射到一组集群,然后形成下一个GNN层的粗化输入。我们的实验结果表明,将现有的GNN方法与DiffPool相结合,与所有现有池化方法相比,在图分类基准测试中的平均准确度提高了5-10%,实现了五分之四的基准数据的最新技术水平集。
叙利亚和也门的国内流离失所人口迁移模式预测
原文标题: Forecasting Internally Displaced Population Migration Patterns in Syria and Yemen
地址: http://arxiv.org/abs/1806.08819
作者: Benjamin Q. Huynh, Sanjay Basu
摘要: 武装冲突导致空前数量的国内流离失所者 - 被迫离开家园但留在本国的个人。国内流离失所者经常迫切需要住所,食物和医疗保健,但是预测大量流入国内流离失所者将流入一个地区仍然是援助提供机构的主要挑战。准确预测国内流离失所者的迁移将使人道主义援助团队能够在冲突期间更有效地分配资源。我们显示,利用公开数据可以提前一个月准确预测叙利亚和也门从省到省的国内流离失所者每月流量。我们使用食品价格,燃料价格,工资,地理空间数据和新闻数据的数据对每月的IDP流量进行建模。我们发现机器学习方法可以比基准持久性模型更准确地预测迁移趋势。因此,我们的研究结果有可能在预测到港人数的预期情况下为国内流离失所者提供积极的援助分配。
社会网络中基于时间活动路径的人物矫正
原文标题: Temporal Activity Path Based Character Correction in Social Networks
地址: http://arxiv.org/abs/1806.08904
作者: Jun Long, Lei Zhu, Zhan Yang, Chengyuan Zhang, Xinpan Yuan
摘要: 大量的多媒体数据包含用于构建大型社会网络的庞大而多样的社交信息。在一个复杂的社会网络中,一个角色应该理想地由唯一的一个顶点表示。然而,普遍的是,一个字符由两个或多个不同名称的顶点表示,因此它通常被认为是多个不同的字符。此问题导致网络分析和挖掘结果不正确。事实上的挑战是由于许多复杂的因素,字符独特性难以正确确认,例如,名称改变和匿名化,导致字符重复。早期有限的研究表明,以前的方法过度依赖数据库的补充属性信息。在本文中,我们提出了一种合并字符顶点的新方法,这些顶点引用为相同的实体,但用不同的名称表示。利用这种方法,我们首先基于从多媒体源中提取的参与社交活动的记录建立人物间的关系网络。然后为每个角色定义随时间推移的时间活动路径(TAP)。之后,我们测量任意两个字符的TAP的相似性。如果相似度足够高,则应将两个顶点视为相同的字符。基于TAP,我们可以确定是否合并两个字符顶点。我们的实验表明,该解决方案可以准确地确定大型社会网络中的字符唯一性。
在线系统搜索排名欺诈去匿名化
原文标题: Search Rank Fraud De-Anonymization in Online Systems
地址: http://arxiv.org/abs/1806.08910
作者: Mizanur Rahman, Nestor Hernandez, Bogdan Carbunar, Duen Horng Chau
摘要: 我们介绍了欺诈去匿名问题,这超出了欺诈检测,揭露了负责在线系统中发布搜索排名欺诈的人类主谋。我们收集并研究Upwork的搜索排名欺诈数据,并调查从6个众包网站招募的58名搜索排名欺诈者的能力和行为。我们提出了Dolos,一种利用从这些研究中提取的特征和行为的欺诈去匿名系统,将检测到的欺诈归因于众包网站诈骗者,从而将真实身份和银行账户归因于欺诈。我们引入了MCDense,一种最小密度分量检测算法,以揭示不同欺诈者控制的用户帐户组,并利用测试和深度学习将它们归入众包网站配置文件。 Dolos正确识别了95%的欺诈者控制社区的所有者,并发现了欺诈者,他们推广了我们从Google Play收集的多达97.5%的欺诈应用。当我们对超过6个月以上的13,087个应用(820,760条评论)进行评估时,Dolos确定了1,056个带有可疑评论者组的应用。我们报告他们的欺诈的正面证据,包括欺诈重复和欺诈重新发布。
使用网络层次和社区结构的社会中心性
原文标题: Social Centrality using Network Hierarchy and Community Structure
地址: http://arxiv.org/abs/1806.08964
作者: Rakhi Saxena, Sharanjit Kaur, Vasudha Bhatnagar
摘要: 已经制定了几项中心性措施来量化社会网络中行动者的“重要性”概念。目前的措施对节点的本地或全球连通性进行审查,并且发现这些措施对社会网络来说是不够的。忽视所有人类社会网络中固有的层次结构和社区结构是造成这种不足的主要原因。一个演员在社区中的位置层次和嵌入性直观上决定了他的重要性。社会资本理论认为,演员的重要性来源于他在网络层次中的地位,以及通过社区间(邦际)和社区间(桥接)纽带调动资源的潜力。受这个想法的启发,我们为社会网络中的演员提出了一种新颖的中心性测量SC(社会中心)。我们的措施解释了 - 个人的社交倾向,以及他在社区内外的联系。这两个因素适当合并以产生社会中心性分数。使用大型公共网络进行SC测量与经典和近期中心性测量的比较分析表明,它始终如一地产生更真实的节点排名。推断基于每个测试网络的可用基础事实。 SC测量所提供的排名以及在已充分研究的网络中与已知事实进行映射的大量分析证明其在各种社会网络中的有效性。 SC测量的可扩展性评估证明了其对于真实世界大型网络的功效。
城市间流行病控制和预防的集合种群传播网络推断
原文标题: Inferring Metapopulation Propagation Network for Intra-city Epidemic Control and Prevention
地址: http://arxiv.org/abs/1806.08978
作者: Jingyuan Wang, Xiaojian Wang, Junjie Wu
摘要: 自21世纪以来,全球范围内的传染病如2003年的非典,2009年的H1N1和2013年的H7N9爆发,已成为公共卫生的重要威胁,也是政府狩猎的噩梦。因此,了解在大规模人群中的传播并预测未来疫情暴发对于控制和预防流行病变得非常重要。在文献中,关于建模城市内流行病传播的研究很多,但有单一种群假设(均匀性)。然而,近期有关集合种群繁殖的一些研究集中于寻找特定的人类移动物理网络来近似疾病传播网络,其传播网络的适应性不能保证其通用性。在本文中,我们认为城市间疫情传播应该建立在人口聚集的基础上,并为此提出一个两步法。第一步是通过推断潜在的疾病感染网络来了解传播系统。为此,我们提出了一种称为D $ ^ 2 $ PRI的新型网络推理模型,该模型将个体网络减少为没有信息损失的子群体网络,并将先前的幂律分布和先前的数据合并以获得更好的性能。第二步是通过将经典SIR模型扩展到允许访问者在任何两个亚群之间传播的群体SIR模型来预测疾病传播。我们的模型的有效性在深圳市的一个关于空气传播疾病的实际临床报告数据集上进行了验证。具有扩展SIR模型的D $ ^ 2 $ PRI模型在包括网络推断,感染预测和爆发模拟在内的各种任务中表现出优越的性能。
转发我们,我们将转发您:发现涉及黑市服务的串通转播者
原文标题: Retweet Us, We Will Retweet You: Spotting Collusive Retweeters Involved in Blackmarket Services
地址: http://arxiv.org/abs/1806.08979
作者: Hridoy Sankar Dutta, Aditya Chetan, Brihi Joshi, Tanmoy Chakraborty
摘要: Twitter已经越来越成为分享新闻和用户意见的流行平台。如果通过转推接收到来自其他Twitter用户的大量肯定性反应,则认为推文是重要的。因此,转推计数被认为是正面群众反应的替代衡量标准 - 推特助推器在推动其话题趋势时发生大量转推。这反过来又增强了推文作者的社会声誉。由于用户/推文的社会声誉/影响力影响很多决定(如推广品牌,广告等),因此几家黑市集团积极参与了以合谋的方式制作假转发。想要提高其推文的影响力的用户接近黑市服务,并通过支付金钱(优质服务)或转发其他客户的推文获得转发自己的推文。因此,他们成为黑市集团的顾客并参与假冒活动。有趣的是,这些客户既不是机器人,也不是假用户 - 他们通常是正常的人;他们表达了有机和无机转发活动的组合,而且他们的行为没有同步性。在本文中,我们首先尝试调查这些从事生产假转发的黑客客户。我们收集并注释了一个由许多黑市服务客户组成的新数据集,并展示他们的社交行为与真实用户的不同之处。然后,我们使用最先进的监督模型来检测三种类型的客户(机器人,促销,普通用户)和真正的用户。我们使用支持向量机获得0.87的宏观F1分数,显著优于其他四条基线。我们进一步设计了一个浏览器扩展,SCoRe,它给出了推文的链接,实时地发现它的假转发器。我们还收集了用户对SCoRe性能的反馈,并获得了85%的准确性。
LinkedIn经济图如何绑定了信息和产品:在LinkedIn薪水中的应用
原文标题: How LinkedIn Economic Graph Bonds Information and Product: Applications in LinkedIn Salary
地址: http://arxiv.org/abs/1806.09063
作者: Xi Chen, Yiqun Liu, Liang Zhang, Krishnaram Kenthapadi
摘要: LinkedIn Salary产品于2016年下半年推出,旨在向求职者提供有关薪酬分配的见解,以便他们在发现和评估职业机会时做出更明智的决策。薪酬洞察是基于从LinkedIn会员收集的数据提供的,并以保护隐私的方式进行汇总。鉴于同时渴望计算稳健可靠的洞察力和洞察力以尽可能满足求职者的需求,一个关键的挑战就是在数据有限或没有数据时可靠地推断公司层面的见解。我们提出了一个两步框架,利用公司的新颖语义表示(Company2vec)和贝叶斯统计模型来解决这个问题。我们的方法利用了LinkedIn经济图表中丰富的信息,特别是,如果员工很可能从一家公司转换到另一家公司,反之亦然,那么两家公司的直觉可能会相似。我们通过使用机器学习算法分析LinkedIn成员的公司转换数据,然后计算基于这些嵌入的公司之间的成对相似性,并最终将公司相似性以同行公司团体的形式作为所提出的贝叶斯统计模型的一部分来计算公司的嵌入预测公司层面的见解。我们使用多种不同的评估技术进行广泛的验证,并表明我们可以显著增加洞察力的覆盖范围,实际上甚至可以提高获得的洞察力的质量。例如,与以前的工作相比,我们能够计算美国35倍的职位 - 区域 - 公司组合的薪水洞察力,相当于每月活跃用户的4.9倍。最后,我们重点介绍部署我们系统的经验教训。
衡量十家美国新闻网站的新闻相似性
原文标题: Measuring News Similarity Across Ten U.S. News Sites
地址: http://arxiv.org/abs/1806.09082
作者: Grant C. Atkins, Alexander Nwala, Michele C. Weigle, Michael L. Nelson
摘要: 新闻网站对关于在其网站主页上包含什么故事以及要强调什么故事做出编辑决定(例如,主要故事的大字号)。新闻网站上强调的故事通常与其他许多新闻网站高度相似(例如恐怖事件的故事)。顶尖新闻报道的选择性强调以及新闻组织间新闻的相似性是众所周知的现象,但并不完善。我们提供了一种方法,用于识别选定的美国新闻网站的最新新闻报道,然后量化它们之间的相似性。为了实现这一目标,我们首先开发了一个标题和链接提取器,用于解析选定的网站,然后在2016年11月至2017年1月的三个月期间内审查了10个美国新闻网站主页。使用从互联网档案库中检索的存档副本),我们讨论解析这些网站的方法和困难,以及像总统选举这样的事件如何导致新闻网站仅仅为了这些事件而改变其文档表示。我们使用我们的解析器为每个新闻站点提取k = 1,3,10的最大故事数。其次,我们在三个月的每一天的东部时间晚上8点使用余弦相似性度量来计算新闻相似度。相似性分数显示选举日前增加(0.335),选举日减少值(0.328),选举日增加(0.354)。我们的方法表明,我们可以有效识别顶级故事并量化新闻相似度。
使用受限制的基于Bandit的个性化得到平衡的新闻
原文标题: Balanced News Using Constrained Bandit-based Personalization
地址: http://arxiv.org/abs/1806.09202
作者: Sayash Kapoor, Vijay Keswani, Nisheeth K. Vishnoi, L. Elisa Celis
摘要: 我们提供了一个新闻搜索引擎的原型,它提供了横跨自由主义和保守文章的平衡观点,其目标是去除内容并允许用户摆脱过滤泡沫。平衡是根据灵活的用户定义的约束来完成的,并且利用了最近在约束匪优化方面的进展。我们通过与传统(极化)饲料生成的新闻饲料并排显示,以展示我们均衡的新闻饲料。
时空网络上的统计物理协调动态路由
原文标题: Coordinating Dynamical Routes with Statistical Physics on Space-time Networks
地址: http://arxiv.org/abs/1806.09289
作者: Chi Ho Yeung
摘要: 动力路线的协调可以缓解交通堵塞,对于即将到来的自动驾驶汽车时代而言至关重要。但是,动态路由协调是困难的,许多现有的路由协议要么是静态的,要么没有车辆间的协调。在本文中,我们首先将统计物理中的腔体方法应用于导出动态路径协调的理论行为和优化算法,但随着时间段数量的增加,它们变得难以计算。因此,我们将静态空间网络映射到空时网络,以推导出与任意系统参数兼容的计算可行的消息传递算法;它与传统腔体方法的分析和算法结果非常吻合,并且在模拟中节省了多达15%的总行程时间,优于多启动贪婪搜索。该研究揭示了动力学路线协调协议的设计,以及通过空间网络上的静态分析方法解决其他动力学问题的方法。
Heap法则,来自样本空间缩减过程的共享组件和时间模式的统计数据
原文标题: Heaps' law, statistics of shared components and temporal patterns from a sample-space-reducing process
地址: http://arxiv.org/abs/1806.09419
作者: Andrea Mazzolini, Alberto Colliva, Michele Caselle, Matteo Osella
摘要: 齐夫定律是几个具有模块化结构的复杂系统的标志,例如由基因组成的词汇或基因组组成的书籍。在这些分量系统中,Zipf定律描述了分量频率的经验幂律分布。最近提出了基于采样空间减少(SSR)机制的随机过程,该机制随着系统的演变而减少可访问状态的数量,这是对该法无处不在的出现的简单解释。然而,许多复杂的组件系统的特点是Zipf定律以外的其他统计模式,如组件词汇与系统规模的子线性增长(称为堆法则)以及共享组件的特定统计量。这项工作通过分析计算和模拟显示,这些统计特性可以从SSR机制共同出现,因此使它成为组件系统的适当的参数较差表示。例如基于优先附着机制的一些替代(并且同样简单)的模型也可以再现堆和Zipf定律,这表明应该考虑额外的统计特性以选择特定系统的最可能的生成过程。沿着这条线,我们将展示SSR模型预测的时间分量分布与流行的富裕 - 更丰富的机制出现的分布明显不同。与来自自然语言的经验数据的比较表明,基于这种统计特性,可以选择SSR过程作为用于文本生成的更好的候选模型。最后,将指出SSR模型在再现文本中词出现的经验“突发性”方面的局限性,从而表明扩展基本SSR过程的可能方向。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。