Arxiv网络科学论文摘要21篇(2017-03-07)

  • 社会机器人的兴起;
  • 科学数据科学和开放获取的案例;
  • 剥离二部图发现密集子图;
  • 同质作用在出现意见争议中的作用;
  • 当信心和能力冲突时:对在线决策讨论的影响;
  • 在市场中具有不同主观预测的交易者的群体行为;
  • 量化中国区域经济复杂性;
  • 中国区域经济发展的集体学习;
  • 相互依赖的安全的外部性内部化:大型网络案例;
  • 理解和预测相互关系的延迟;
  • 时间推荐的反复泊松因子分解;
  • 在Twitter中发现影响:时间影响排名模型;
  • 跟踪数字时代的知识网络;
  • 如果世界将被抹消我不会去种苹果树:在MMORPG Beta测试期间分析数百万玩家的行为记录;
  • 基于认知偏见的意见动力学模型;
  • 图采样与决定性过程;
  • 做事情两次:确定目标验证研究的策略;
  • 猫和字幕vs创作者和钟表: 在预测相对流行度时比较多模内容与上下文;
  • 信任感知Top-N推荐系统与相关去噪自动编码器;
  • 利用时变图Lasso的网络推理;
  • FairPlay:Google Play中的欺诈和恶意软件检测;

社会机器人的兴起

地址: http://arxiv.org/abs/1407.5225

作者: Emilio Ferrara, Onur Varol, Clayton Davis, Filippo Menczer, Alessandro Flammini

摘要: 图灵测试旨在从计算机算法的行为识别人的行为。在今天的社交媒体环境中,这种挑战比以往任何时候都更加重要,在这种环境中,有限的注意力和技术限制了人类的表达能力,而激励措施丰富了开发模拟人类的软件代理。这些社交机器人与社交媒体生态系统中的真实人物相互作用,经常被忽视,但是它们的丰度是不确定的。虽然许多机器人是良性的,人们可以设计有害的机器人具有说服,涂抹或欺骗的目标。在这里,我们讨论现代的,复杂的社会机器人的特点,以及他们的存在如何可能危及在线生态系统和我们的社会。然后,我们审查当前的努力,以检测社交机器人在Twitter上。与内容,网络,情绪和活动的时间模式相关的特征由机器人模仿,但同时可以帮助区分合成行为与人类行为,产生工程社会篡改的签名。

科学数据科学和开放获取的案例

地址: http://arxiv.org/abs/1611.00097

作者: Gopal P. Sarma

摘要: “开放获取”已成为学术出版杂志改革的中心主题。在本文中,我将研究一个重要的技术漏洞的后果,发布商可以通过发布不能由自动化工具处理的专有或“锁定”格式的文章来声明自己遵守开放获取原则,即使是简单的复制和文本的粘贴被禁用。这些限制将阻止发展现代研究企业的重要基础设施要素,即科学数据科学,或使用数据分析技术对科学语料库进行荟萃分析和调查。我给出了开放获取运动的简要历史,讨论新颖的新闻实践,以及对数据驱动的科学语料库的调查的概述。我认为,特别是在许多研究的真实性受到质疑的时代,科学数据科学应该是开放获取出版的主要动机之一。不受限制地访问研究文献的巨大好处应该促使所有学科的学者拒绝出版模型,由此文章以专有格式发布,或者作为数据科学管道的一部分被自动化工具处理。

剥离二部图发现密集子图

地址: http://arxiv.org/abs/1611.02756

作者: A. Erdem Sariyuce, Ali Pinar

摘要: 两部图是模拟联系网络(例如演员电影,文档关键字和用户产品网络)的自然方式。发现密集的两部分子图并检测它们之间的关系是在一系列领域中出现的归属网络的重要问题,例如社交网络分析,词语文档聚类,互联网广告和生物信息学。然而,最密集的子图发现算法是为经典的,单一的图形设计的。随后,对共存图(co-occurrence graph)(例如,共同作者和共同购买网络)进行关联网络的研究,其通过连接两个实体(如果它们共享隶属关系)将二分体结构投影到单分子结构。尽管它们方便,但是共存网络以信息丢失和图大小的爆炸为代价,这限制了解决方案的质量和效率。在本文中,我们研究二部图上的密集子图发现问题。我们定义了一个基于蝴蝶图案(2,2-biclique)的二部图的框架,以模拟分层结构中的密集区域。我们引入有效的剥离算法来找到密集的子图并建立它们之间的关系。实验表明,与共现图上的现有技术相比,我们可以识别更密集的结构。我们的算法也是记忆效率高的,因为它们不遭受共现图的边缘数量的爆炸。对顶级数据库会议的作者论文网络的分析突出了通过处理二部图可以识别的更丰富的结构,否则在共现图中丢失。

同质作用在出现意见争议中的作用

地址: http://arxiv.org/abs/1612.05483

作者: F. Gargiulo, Y. Gandica

摘要: 理解现代社会中存在的有争议的问题是意见研究中的一个关键问题。一个普遍的想法是,由于现代信息通信技术,社会网络中同质性的增加可能是偏见观点的驱动力。在本文中,我们通过三个基本步骤的建模方法解决问题。我们首先介绍一个网络形态发生模型来重建网络结构,其中homophily可以用一个参数调谐。我们显示作为同源增加标记拓扑社区结构的出现在网络中提高。其次,我们对同源依赖网络执行一个意见动力学过程,我们显示,与常见的想法相反,homophily有助于共识形成。最后,我们介绍一个可调谐的外部媒体压力,我们显示,实际上,homophily和媒体的组合使媒体效果较不有效,并导致强极化观点集群。

当信心和能力冲突时:对在线决策讨论的影响

地址: http://arxiv.org/abs/1702.07717

作者: Liye Fu, Lillian Lee, Cristian Danescu-Niculescu-Mizil

摘要: 小组讨论是个人交流想法和论点的方式,以便达成比他们自己更好的决定。有效讨论的前提之一是更好的解决方案将占优势,并且想法选择过程由所涉及的个人的(相对)能力介导。然而,由于人们可能不知道他们对新任务的实际能力,他们的行为受到他们自我估计能力的影响 - 也就是说,他们的信心 - 可能与他们的实际能力错位。我们在这项工作的目标是了解信心能力失调对讨论的动态和结果的影响。为此,我们设计了一个大规模的自然环境,以在线团队地理游戏的形式,允许我们从能力中解散信心,从而分离他们的影响。我们发现,在面向任务的讨论中,更加自信的人对团队的决定有更大的影响,即使这些人与团队成员的能力相同。此外,信任对决策过程的这种不合理的作用常常导致团队表现不佳。我们通过调查信心对会话动力学的影响来探讨这种现象。

在市场中具有不同主观预测的交易者的群体行为

地址: http://arxiv.org/abs/1703.01291

作者: Hiroshi Toyoizumi

摘要: 优先排队模型和平均场理论的组合显示了交易者的群体行为的出现,即使每个人都有由限价订单簿驱动的市场的主观预测。使用非线性马尔科夫模型,我们分析了选择有利订单价格的交易者的动态,考虑到他人产生的等待成本。我们发现,由于交易者对市场的反应的延迟,群体行为出现,并且群体的方向由当前市场位置和零智能随机行为的强度决定,而不是主观交易者预测。

量化中国区域经济复杂性

地址: http://arxiv.org/abs/1703.01292

作者: Jian Gao, Tao Zhou

摘要: 中国在过去几十年中经历了巨大的经济扩张,然而,关于显示中国区域经济发展现状的非货币指标的文献仍然缺乏。在本文中,我们通过分析25年的企业数据来量化中国各省的经济复杂性来填补这一空白。首先,我们估计区域经济复杂性指数(ECI),并显示各省ECI的总体时间演变相对稳定和缓慢。然后,在将ECI与经济发展和收入不平等联系起来后,我们发现ECI的预测能力对前者是正的,而对后者则是负的。接下来,我们比较不同的经济多样性措施,并探讨它们与货币宏观经济指标的关系。结果表明,ECI和健身是比较的,他们具有比其他基准测量,如熵更好的预测能力。进一步的多元回归表明控制其他社会经济因素后我们的结果的鲁棒性。我们的工作朝着更好地了解中国区域经济发展和非货币宏观经济指标迈出了一步。

中国区域经济发展的集体学习

地址: http://arxiv.org/abs/1703.01369

作者: Jian Gao, Bogang Jun, Alex "Sandy" Pentland, Tao Zhou, Cesar A. Hidalgo

摘要: 工业发展是经济学习如何生产新产品和服务的过程。但经济学怎么学?他们从谁学习?关于经济地理和经济发展的文献强调了两个学习渠道:行业间学习,涉及从相关行业学习;和区域间学习,涉及从邻近地区学习。在这里,我们使用25年的数据描述中国经济在1990年到2015年之间的演变 - 中国将人均GDP增长10倍的时期 - 探讨中国各省如何实现经济多样化。首先,我们显示一个省将开发新产业的概率随着该省已经存在的相关行业的数量而增加,这表明行业间的学习。此外,我们表明,一个省将发展一个行业的概率随着该行业发展的邻近省份的数量而增加,这表明区域间学习。此外,我们发现这两个通道的组合显示递减的回报,意味着当另一个存在时,这些学习通道中的任一个的贡献是多余的。最后,我们通过引入高速铁路作为隔离区域间学习效果的工具来解决内生性问题。我们的差异分析(DID)分析显示,高速铁路的引入增加了高速铁路连接的省份的行业相似性。此外,通过铁路连接的省份的工业在通过铁路连接到其他已经存在该行业的省份时提高了生产率。这些研究结果表明,区域间和行业间的学习在中国的巨大经济扩张中发挥了作用。

相互依赖的安全的外部性内部化:大型网络案例

地址: http://arxiv.org/abs/1703.01380

作者: Richard J. La

摘要: 随着包括大型复杂系统中的代理或(子)系统之间的连接的增加,对理解相互依赖的安全性和处理安全投资的低效率的兴趣日益增长。利用人口游戏模型和着名的中庸随机图模型,我们研究如何通过内部化其安全投资产生的外部性来鼓励自私代理更多地投资于安全。为此,我们首先在社会成本的局部最小化与人口游戏的Nash均衡之间建立一个有趣的关系,成本略有改变。其次,在温和的技术假设下,我们证明存在一个独特的社会成本最小化,它与人口游戏的独特的纳什均衡。这个发现告诉我们如何修改自私代理的私人成本函数,以提高整体安全性和降低社会成本。此外,它揭示了整体安全对代理人的证券投资的敏感性如何影响他们的外部性,以及因此应该对外部性内部化施加的惩罚或税收。最后,我们说明了代理的程度分布如何影响他们的安全投资和整体安全在人口游戏和社会最优的NE。

理解和预测相互关系的延迟

地址: http://arxiv.org/abs/1703.01393

作者: Jundong Li, Jiliang Tang, Yilin Wang, Yali Wan, Yi Chang, Huan Liu

摘要: 定向网络中的互惠指向用户愿意返回建立相互交互的好处。高度互惠已经在许多有向的社交媒体网络中广泛观察到,例如在Twitter和Tumblr中的关系。因此,用户之间的互惠关系往往被视为创造稳定的社会关系和在网络形成和演进中发挥关键作用的基本机制。每个互易关系由具有时间延迟的前后方式的两个寄生链路形成。因此,理解延迟可以帮助我们更好地了解网络动力学的基本机制。同时,准确的延迟预测对推进各种现实世界的应用,如朋友推荐和营销活动具有实际意义。例如,通过知道用户何时将追踪,服务提供商可以关注具有潜在的长的相互延迟的用户以用于有效的目标营销。本文介绍了互惠关系时间延迟的初步调查。我们的研究是基于Tumblr的大型定向网络,包括6280万用户和31亿用户跟随关系与多年的时间跨度(从2007年10月31日到2013年7月24日)。我们揭示了一些有关延迟的有趣模式,激励开发一个原则性的学习模型来预测互惠关系的延迟。上述动态网络的实验结果证实了所提出的延迟预测模型的有效性。

时间推荐的反复泊松因子分解

地址: http://arxiv.org/abs/1703.01442

作者: Seyed Abbas Hosseini, Keivan Alizadeh, Ali Khodadadi, Ali Arabzadeh, Mehrdad Farajtabar, Hongyuan Zha, Hamid R. Rabiee

摘要: 泊松因子分解是推荐系统的用户和项目的概率模型,其中所谓的隐式消费者数据通过因子分解的泊松分布来建模。存在许多Poisson因子分解方法的变体,其在真实世界推荐任务上显示出最先进的性能。然而,他们中的大多数没有明确地考虑用户的时间行为和周期性活动,这对于在适当的时间向正确的用户推荐正确的项目是必要的。在本文中,我们引入循环泊松因子分解(RPF)框架,通过利用泊松过程对隐式反馈进行建模来推广经典PF方法。 RPF将时间视为模型的天然组成部分,并为表提供了一个丰富的时间敏感因子分解模型系列。详细说,我们实例化了RPF的几个变体,它们能够处理动态用户偏好和项目规范(DRPF),建模产品采用(SRPF)的社会方面,以及捕获用户和项目(HRPF)之间的消费异质性。我们还开发了一种用于近似后验推理的变分算法,其可以扩展到大量数据集。此外,我们演示了RPF在许多最先进的方法对合成数据集,大规模真实世界数据集音乐流日志和用户项目交互在M商务平台上的卓越性能。

在Twitter中发现影响:时间影响排名模型

地址: http://arxiv.org/abs/1703.01468

作者: Xingjun Ma, Chunping Li, James Bailey, Sudanthi Wijewickrema

摘要: 随着在线社交媒体的日益普及,在这些社交网络中识别有影响力的用户已变得非常受欢迎。现有工作在测量用户影响时已经研究了用户属性,网络结构和用户交互。与这些作品相反,我们关注用户行为特征。我们调查用户活动模式的时间动态,以及这些模式如何影响用户交互。我们将这些特征同化为基于PageRank的时间影响排名模型(TIR)来识别有影响力的用户。通过逻辑回归模型和随机游走,根据用户的时间活动模式偏倚来预测TIR中的转移概率。实验证明TIR具有更好的性能,并且比现有的模型在全球影响力排名和朋友推荐更稳定。

跟踪数字时代的知识网络

地址: http://arxiv.org/abs/1703.01476

作者: Mirco Musolesi

摘要: 新数字技术的出现使得人类行为的规模和粒度水平的研究在十年前是不可想象的。特别地,通过分析在线和离线世界中人们交互所留下的数字痕迹,我们能够追踪在本地和全球尺度上的知识和想法的传播。在本文中,我们将讨论如何使用这些数字痕迹来映射世界各地的知识,概述了执行这种类型分析的限制和挑战。我们将重点关注从社交媒体平台,大型数字存储库和移动数据收集的数据。最后,我们将提供学习者和从业者可以使用这些新形式的数据了解这些过程的工具的概述。

如果世界将被抹消我不会去种苹果树:在MMORPG Beta测试期间分析数百万玩家的行为记录

地址: http://arxiv.org/abs/1703.01500

作者: Ah Reum Kang, Jeremy Blackburn, Haewoon Kwak, Huy Kang Kim

摘要: 在这项工作中,我们在MMORPG ArcheAge的封闭beta测试期间使用玩家行为作为极端情况的代理:在封闭式beta测试结束时,所有用户数据被删除,因此,结果(或惩罚)玩家在游戏中的行为在过去几天失去了它的意义。我们在ArcheAge的第四次封闭Beta测试中分析了2.7亿个玩家行为记录。我们的研究结果表明,没有明显的大流行行为的变化,但一些异常值更可能表现出反社会行为(例如,玩家杀人)。我们还发现,与令人放心的说法相反,即使我知道世界会明天去做,我仍然会种植我的苹果树,“球员放弃了角色进步,显示任务完成,水平和能力变化大幅减少在beta测试结束时。

基于认知偏见的意见动力学模型

地址: http://arxiv.org/abs/1703.01501

作者: Pawel Sobkowicz

摘要: 我们介绍个人和集体观点动态的新模型,考虑不同的信息来源由于认知偏差而被过滤的不同方式。基于代理的模型,使用贝叶斯更新个人信念分布,是基于丹卡汉最近的心理工作。模型的开放性质允许研究静态和时间依赖偏差和信息处理滤波器的影响。特别是,本文比较了两个重要的心理机制的影响:确认偏差和政治动机的推理。根据信息过滤(代理偏差)的有效性,面对客观信息源的代理可以基于真实达成共识,或者尽管有证据仍然分开。一般来说,模型可以提供对越来越极化的现代社会的理解,特别是因为它允许混合不同类型的过滤器:心理,社会和算法。

图采样与决定性过程

地址: http://arxiv.org/abs/1703.01594

作者: Nicolas Tremblay, Pierre-Olivier Amblard, Simon Barthelmé

摘要: 我们提出一个新的随机抽样策略的k带限制信号定义在图表上,基于决定点过程(DPP)。对于小图,即,在图的频谱可访问的情况下,我们展示DPP采样方案,其使得能够完全恢复带限信号。对于大图,即在图的谱不可访问的情况下,我们在理论和经验两方面研究基于图上的循环擦除随机游走的次优但更快的DPP。初步实验显示了有希望的结果,特别是在测量的数量应该尽可能小并且具有强的团体结构的图的情况下。我们的抽样方案是有效率的,可以应用于图表,高达$ 10 ^ 6 $节点。

做事情两次:确定目标验证研究的策略

地址: http://arxiv.org/abs/1703.01601

作者: Gopal P. Sarma

摘要: “再现性危机”是一个高度可见的科学争议和争议的来源。在这里,我提出并审查几种途径,以确定和优先研究的目的,以确定目标。在讨论的各种建议中,我认为科学数据科学是一个值得在重现性感兴趣的人中更加注意的战略。我认为科学数据科学发现高价值研究的巨大潜力是一个重要的,很少讨论的转变到一个完全开放式出版模式的好处。

猫和字幕vs创作者和钟表: 在预测相对流行度时比较多模内容与上下文

地址: http://arxiv.org/abs/1703.01725

作者: Jack Hessel, Lillian Lee, David Mimno

摘要: 今天的社交媒体的内容变得越来越丰富,越来越混合文本,图像,视频和音频。这是一个有趣的研究问题,以模拟这些不同模式之间的相互作用,吸引用户的注意和参与。但是为了追求多模态内容的研究,我们还必须考虑上下文:时间效应,社区偏好和社会因素(例如,作者已经流行)也影响社交媒体帖子所接收的反馈和反应的量。在这项工作中,我们以几种方式分离出这些非内容因素的影响。首先,我们专注于对快速连续发布到同一社群的提交对进行排名,例如在30秒内,此框架鼓励模型关注与时间无关和社区特定的内容功能。在该设置中,我们确定作者与内容功能的相对性能。我们发现胜利通常属于“猫和字幕”,因为视觉和文本特征一起倾向于优于基于身份的特征。此外,我们的实验表明,当孤立考虑时,简单单字文本特征和深度神经网络视觉特征单独产生最高精度,并且两种模态的组合通常导致整体的最佳准确性。

信任感知Top-N推荐系统与相关去噪自动编码器

地址: http://arxiv.org/abs/1703.01760

作者: Yiteng Pan, Fazhi He, Haiping Yu

摘要: 评级和信任关系的反馈可以用于揭示用户偏好以改善推荐性能,特别是对于冷用户。然而,现有工作总是忽略了各种数据之间的高阶相关性。针对这个问题,我们提出一个相关去噪自动编码器(CoDAE)模型,从Top-N推荐的评级和信任数据学习相关性。首先,一个新的深度学习模型CoDAE,其中两个中间层从单独的堆栈去噪自动编码器融合到一个共享层。推进在浅层利用这些数据的以前的工作,该模型可以有效地从这些数据的低级表示提取高阶相关性用于推荐。第二,为了进一步学习这两个自动编码器之间的隐式校正,我们开发了一种新的相关调节来建立两个单独的自动编码器的其他隐藏层之间的关系。这样,该模型可以更有效地学习相关性,从而提高推荐质量。对两个公共数据集的综合实验表明,CoDAE在前N个推荐任务中显着优于其他最先进的方法。

利用时变图Lasso的网络推理

地址: http://arxiv.org/abs/1703.01958

作者: David Hallac, Youngsuk Park, Stephen Boyd, Jure Leskovec

摘要: 许多重要问题可以被建模为互连实体的系统,其中每个实体记录时间相关的观察或测量。为了发现趋势,检测异常,并解释这些数据的时间动态,理解不同实体之间的关系以及这些关系如何随时间发展是至关重要的。在本文中,我们引入时变图Lasso(TVGL),一种从原始时间序列数据推断时变网络的方法。我们在估计稀疏时变反协方差矩阵方面投入了这个问题,揭示了实体之间的相互依赖的动态网络。由于动态网络推理是一个计算昂贵的任务,我们基于交叉方向乘法器(ADMM)推导出一种可扩展的消息传递算法,以有效的方式解决这个问题。我们还讨论了几个扩展,包括流算法来更新模型和实时合并新的观察。最后,我们评估我们的TVGL算法对真实和合成数据集,获得可解释的结果和在精度和可扩展性方面超越最先进的基线。

FairPlay:Google Play中的欺诈和恶意软件检测

地址: http://arxiv.org/abs/1703.02002

作者: Mahmudur Rahman, Mizanur Rahman, Bogdan Carbunar, Duen Horng Chau

摘要: Google Android应用市场中的欺诈行为加剧了搜索排名滥用和恶意软件泛滥。我们提供FairPlay,一个新的系统,揭露恶意软件和搜索排名欺诈应用程序,通过选择欺诈者留下的痕迹。为了识别可疑应用,FairPlay PCF算法将审查活动相关联,并将检测到的审核关系与从纵向Google Play应用数据收集的语言和行为信号进行独特组合。我们为社区贡献了一个新的纵向应用数据集,其中包括超过半年的超过87,000个应用,2.9M评论和2.4M评论者。 FairPlay在分类恶意软件,欺诈和合法应用程序的黄金标准数据集时可实现超过95%的准确性。我们发现,75%的已识别恶意软件应用程序涉及搜索排名欺诈。 FairPlay发现数以百计的欺诈性应用程式,目前躲避Google Bouncer侦测技术,并揭示了一种新型的攻击活动,用户被骚扰撰写积极评价,以及安装和审核其他应用程式。

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在个人博客网络科学研究速递 进行同步更新,并提供RSS订阅。

你可能感兴趣的:(Arxiv网络科学论文摘要21篇(2017-03-07))