- 多季分析揭示了疾病传播的空间结构;
- 基于元图的活跃社会网络对齐;
- 广义模块度和统计显著社区检测的渐近分辨率边界;
- WikiLinkGraphs:完整,纵向和多语言的维基百科链接网络数据集;
- 美国在线政治广告透明度分析;
- 中国城市大气污染物的时空相关模式;
- RTbust:分析时间模式检测Twitter上的僵尸网络;
- 维基百科和数字货币:集体关注与市场表现之间的相互作用;
- 通信网络中节点级异常检测的概率框架;
多季分析揭示了疾病传播的空间结构
原文标题: Multi-Season Analysis Reveals the Spatial Structure of Disease Spread
地址: http://arxiv.org/abs/1902.04073
作者: Inbar Seroussi, Nir Levy, Elad Yom-Tov
摘要: 了解在异质群体中传播的传染病的动态是设计控制策略的重要因素。在这里,我们开发了一种新的张量驱动的多隔室版本的经典感染 - 感染 - 恢复(SIR)模型,并将其应用于互联网数据,以揭示疾病传播的复杂空间结构的信息。该模型用于分析来自美国的州级Google搜索数据,这些数据涉及两种病毒,呼吸道合胞病毒(RSV)和西尼罗河病毒(WNV)。我们将数据与RSV和WNV的 R ^ 2 = 0.70 和 0.52 的相关性拟合。虽然没有先前对空间结构的假设,但美国的人类运动模式解释了估计的国家间传输速率的27-30%。州内的传播率与已知的人口统计指标相关,例如人口密度和平均年龄。最后,我们表明,后续季节的疾病负荷模式可以使用之前季节估计的模型参数和当前季节的7美元周数据来预测。我们的结果适用于其他国家和类似的病毒,允许在季节早期识别疾病传播参数和预测季节性病毒的疾病负荷。
基于元图的活跃社会网络对齐
原文标题: Meta Diagram based Active Social Networks Alignment
地址: http://arxiv.org/abs/1902.04220
作者: Yuxiang Ren, Charu C. Aggarwal, Jiawei Zhang
摘要: 网络对齐旨在推断与不同信息网络之间的共享实体匹配的一组锚链接,这已成为有效融合多个信息网络的先决步骤。在本文中,我们将研究网络对齐问题,专门融合在线社会网络。由于几个原因,即缺乏训练数据,网络异质性和一对一约束,社会网络对齐极难解决。现有的网络对齐工作通常需要大量的训练数据,但是在应用中很难满足这种要求,因为手动锚链标记非常昂贵。与其他同构网络对齐工作明显不同,在线社会网络中的信息通常是异构类别,在模型构建中的结合并不是一件容易的事。此外,锚链接上的一对一基数约束使得它们的推理过程相互关联。为了解决这三个挑战,本文介绍了一种新颖的网络对齐模型,即ActiveIter。 ActiveIter定义了一组用于锚链接特征提取的网络间元图,采用主动学习进行有效标签查询,并使用贪心链接选择进行锚链接基数过滤。对真实世界排列的网络数据集进行了大量实验,实验结果证明了ActiveIter与其他最先进的基线方法相比的有效性。
广义模块度和统计显著社区检测的渐近分辨率边界
原文标题: Asymptotic resolution bounds of generalized modularity and statistically significant community detection
地址: http://arxiv.org/abs/1902.04243
作者: Xiaoyan Lu, Boleslaw K. Szymanski
摘要: 广义模块度的最大化在网络上表现良好,其中所有社区的成员在统计上彼此无法区分。然而,没有理论在更现实的网络中定义最大化性能,其中边在社区内和社区之间异质地分布。我们利用随机图特性建立了广义模块性分辨率参数的渐近理论界。从这个随机图模型的新视角,我们发现模块化最大化的分辨率极限可以用一种非常简单和直接的方式来解释。给定由随机块模型产生的网络,分辨率参数大于其密度的社区可能在多个集群之间传播;而分辨率参数小于其背景社区间边密度的社区将合并为一个大组件。因此,当子图中的社区内边密度低于某个其他子图中的社区间边密度时,不存在合适的分辨率参数。对于这样的网络,我们提出了一种渐进的凝聚启发式算法来检测多尺度的统计上显著的社区。
WikiLinkGraphs:完整,纵向和多语言的维基百科链接网络数据集
原文标题: WikiLinkGraphs: A complete, longitudinal and multi-language dataset of the Wikipedia link networks
地址: http://arxiv.org/abs/1902.04298
作者: Cristian Consonni, David Laniado, Alberto Montresor
摘要: 维基百科文章包含将主题连接到百科全书的其他页面的多个链接。用维基百科的说法,这些链接称为内部链接或wikilinks。我们提供了一个完整的内部维基百科链接网络数据集,用于9美元最大的语言版本。该数据集包含网络的年度快照,从2001年创建维基百科到2018年3月1日,每年花费17美元。虽然以前的工作主要集中在完整的超链接图上,其中包括由模板自动生成的链接,但我们分析了每个修改每篇文章以跟踪正文中出现的链接。通过这种方式,我们获得了一个更清洁的网络,丢弃了超过一半的链接并代表了编辑人员有意添加的所有链接。我们详细描述了Wikipedia转储是如何处理的以及我们遇到的挑战,包括处理重有向等特殊页面的需要,即替代文章标题。我们提供了该网络的几个快照的描述性统计数据。最后,我们提出了几个可以使用这个新数据集进行探索的研究机会。
美国在线政治广告透明度分析
原文标题: An Analysis of United States Online Political Advertising Transparency
地址: http://arxiv.org/abs/1902.04385
作者: Laura Edelson, Shikhar Sakhuja, Ratan Dey, Damon McCoy
摘要: 在2018年夏天,Facebook,谷歌和Twitter制定了政策并实施了透明档案,其中包括在其平台上运行的美国政治广告。通过我们对超过130万个具有政治内容的广告的分析,我们展示了不同类型的政治广告商如何使用Facebook,Google和Twitter的广告平台传播美国的政治信息。我们发现,这些档案中包含政治内容的广告总共产生了86.7亿-338亿印象,赞助商花费了超过3亿美元用于美国政治内容的广告。我们能够在这些平台上提高对政治广告商的理解。我们还发现了准营利性媒体公司的大量广告,这些公司似乎只是为了创建欺骗性的在线社区,专注于传播政治信息而不是直接创造利润。这些群体的广告是一种相对较新的现象,由于与传统广告平台相比较低的监管要求,似乎在网络平台上蓬勃发展。我们通过收集和分析这些数据的尝试发现,存在许多限制和弱点,使得有意或无意的欺骗和绕过这些透明度档案的当前实施。我们就如何使这些档案更加强大和有用提供了一些建议。总的来说,Facebook,谷歌和Twitter的这些努力提高了诚实的政治广告透明度,在某些情况下,可能是他们平台上不诚实的广告商。我们感谢这些公司的人们建立了这些档案并继续改进它们。
中国城市大气污染物的时空相关模式
原文标题: Temporal and spatial correlation patterns of air pollutants in Chinese cities
地址: http://arxiv.org/abs/1902.04441
作者: Yue-Hua Dai, Wei-Xing Zhou (ECUST)
摘要: 作为对公众健康的巨大威胁,中国的空气污染已引起广泛关注,并继续与经济同步发展。虽然可以利用实时空气质量报告来更新我们对空气质量的了解,但有关污染物如何随时间演变以及污染物如何在空间上相关的问题仍然是一个难题。鉴于这一点,我们采用PMFG网络方法分析中国350个城市的六种污染物小时数据,试图找出这些污染物在时间和空间上的相互关系。在时间维度方面,结果表明,除了O _3 之外,污染物具有强烈日内模式的共同特征,其中日变化由两个收缩期和两个扩展期组成。此外,六种污染物的所有时间序列都具有很强的长期相关性,这种时间记忆效应有助于解释为什么烟雾日总是一个接一个地跟着。在空间维度方面,相关结构表明O _3 的特征是空间连接最高。 PMFG通过过滤相关矩阵中的层次结构并将集团细化为细小的空间集群,揭示了这种空间相关性与省级行政区划之间的关系。最后,我们检查相关结构的稳定性,并得出结论,除了PM _ {10} 和O _3 之外,其他污染物具有总体稳定的相关性,并且所有污染物都有一个小的趋势,在空间。这些结果不仅增强了我们对空气污染物演化过程的理解,而且还阐明了复杂网络方法在地理问题中的应用。
RTbust:分析时间模式检测Twitter上的僵尸网络
原文标题: RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter
地址: http://arxiv.org/abs/1902.04506
作者: Michele Mazza, Stefano Cresci, Marco Avvenuti, Walter Quattrociocchi, Maurizio Tesconi
摘要: 在OSN中,许多我们所谓的在线朋友可能会被称为社交机器人的虚假账户,这是有意重新分享目标内容的大型团体的一部分。在这里,我们研究Twitter上的转发行为,最终目标是检测转发社交机器人。我们收集了10M转推的数据集。我们设计了一种新颖的可视化,用于突出转发活动的良性和恶意模式。通过这种方式,我们发现了一种人为操作账户特有的“正常”转发模式,以及3种与机器人活动相关的可疑模式。然后,我们提出了一种机器人检测技术,这种技术源于之前对转发行为的探索。我们的技术称为Retweet-Buster(RTbust),它利用无监督的特征提取和聚类。 LSTM自动编码器将转发时间序列转换为紧凑且信息丰富的潜在特征向量,然后使用基于分层密度的算法对其进行聚类。属于以恶意转发模式为特征的大型集群的帐户被标记为机器人。 RTbust获得了优异的检测结果,F1 = 0.87,而竞争对手达到F1 <0.76。最后,我们将RTbust应用于转发的大型数据集,使用数百个帐户发现2个以前未知的活动僵尸网络。
维基百科和数字货币:集体关注与市场表现之间的相互作用
原文标题: Wikipedia and Digital Currencies: Interplay Between Collective Attention and Market Performance
地址: http://arxiv.org/abs/1902.04517
作者: Abeer ElBahrawy, Laura Alessandretti, Andrea Baronchelli
摘要: 有关比特币和其他数字货币或“加密”货币的信息的生产和消费与其市值一起增长。然而,仍然缺乏对多种数字货币的在线关注与市场动态之间关系的系统性调查。在这里,我们量化维基百科对数字货币的关注与其市场表现之间的相互作用。我们从2015年7月开始考虑货币相关页面的整个编辑历史及其查看历史。首先,我们通过分析编辑活动和共同编辑页面的网络来量化维基百科中加密货币存在的演变。我们发现,一个由紧密联系的编辑组成的小社区负责维基百科中关于加密货币的大部分信息的制作。然后,我们表明,维基百科观点提供的简单交易策略在投资回报方面比大多数涵盖期间的经典基线策略表现更好。我们的结果有助于最近关于在线信息和投资市场之间相互作用的文献,我们预计它将对研究人员和投资者感兴趣。
通信网络中节点级异常检测的概率框架
原文标题: A Probabilistic Framework to Node-level Anomaly Detection in Communication Networks
地址: http://arxiv.org/abs/1902.04521
作者: Batiste Le Bars, Argyris Kalogeratos
摘要: 在本文中,我们考虑检测通信网络中节点级发生的异常通信量的任务。通过clique流建模通信活动的信号:每个发生的通信事件是瞬时的,并且激活跨越一组同等参与节点的无向子图。我们提出了一个概率框架来模拟和评估在任何单个节点上观察到的通信量。具体来说,我们使用非参数回归来了解节点参与特定事件的概率,知道所涉及的其他节点集。最重要的是,我们在节点可以参与的事件的估计量周围呈现集中不等式,这反过来允许我们构建有效且可解释的异常评分函数。最后,所提出的方法的优越性能在实际传感器网络数据中经验性地证明,以及使用与后一种设置一致的合成通信活动。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。