- 利用CDC网络流量数据预测流感发病率:使用新型数据集进行演示;
- 环境变迁与音乐认同动力学;
- 从时间序列中发现在线流行的模式;
- 网络深度:识别复杂网络的中位数和轮廓;
- 与其遗憾不如谨慎:改进社会机器人检测的对抗方法;
- 使用网络模体了解级联中的信息流;
- 科学地下城:绘制信仰场所和空间;
- 基于时态数据的社会网络社区检测;
- 不确定图上s-t可靠性算法的深入比较;
- 一种识别假新闻网站的分类算法;
- 比特币价格预测:ARIMA方法;
- 考虑风险的前k推荐重排序;
- 变为无标记的坟墓:社交媒体上的死者内容分类;
- 政策辩论中的内生联盟形成;
- PropTech对印度房地产市场分类广告中房屋的主动定价;
- GraSPy:Python图统计;
- 多路网络中社区检测的分层随机块模型;
- 基于风味的食物推荐;
- 异构群体非对齐网络的社区检测;
- 随机块模型中潜在维数和社团的贝叶斯估计;
- 分析网络数据的九个快速技巧;
- 修改随机块模型用于幂律度分布;
- 未知环境中行人出行的稳健设计优化;
利用CDC网络流量数据预测流感发病率:使用新型数据集进行演示
原文标题: Nowcasting Influenza Incidence with CDC Web Traffic Data: A Demonstration Using a Novel Data Set
地址: http://arxiv.org/abs/1904.04931
作者: Wendy K. Caldwell, Geoffrey Fairchild, Sara Y. Del Valle
摘要: 流感疫情导致全球公共卫生和经济负担。传统的监测技术依赖于医生的访问,提供的数据延迟1-2周。需要一种获取实时数据和预测未来爆发的方法,以便及时响应流感流行病。在这项工作中,我们通过展示其在多个空间分辨率下补充传统疾病监测的能力,提出了新数据集的首次实施。我们使用疾病控制和预防中心(CDC)网站的互联网流量数据来确定此数据源的潜在可用性。我们测试了美国境内8个州和9个人口普查部门的10个流感相关页面产生的流量,并将其与临床监测数据进行比较。在最成功的情况下,我们的结果产生 r ^ 2 = 0.955,对于某些情况有希望的结果,而对于其他情况则不成功。这些结果表明,互联网数据可能在某些情况下可以补充传统的流感监测,但在其他情况下却不能。具体而言,我们的结果表明,CDC网站流量可能会告知国家和部门级别的模型,但不会为每个州提供模型。此外,我们的结果表明,当数据按季节分解而不是数年累计时,会有更好的一致性。出于科学透明的考虑,为了进一步理解互联网数据流何时是适当的补充数据源,我们还包括负面结果(即不成功的模型)。我们预计这项工作将导致使用此数据流的更复杂的临近预报和预测模型。
环境变迁与音乐认同动力学
原文标题: Environmental Changes and the Dynamics of Musical Identity
地址: http://arxiv.org/abs/1904.04948
作者: Samuel F. Way, Santiago Gil, Ian Anderson, Aaron Clauset
摘要: 音乐品味反映了我们独特的价值观和经验,我们与他人的关系以及我们生活的地方。但随着这些事情的变化,我们的品味是否也会改变以反映现在,或者保持固定,反映我们的过去?在这里,我们研究一个人的生活方式如何塑造他们的音乐偏好,使用地理重新定位来构建衡量短期和长期影响的准自然实验。通过分析Spotify上超过1600万用户的综合数据,我们发现美国境内的搬迁对个人品味的影响很小,与过去的环境相似。然后,我们表明,一个人与他们消费的音乐之间的年龄差距表明青春期,以及这些年来他们的环境,可能塑造他们终生的音乐品味。我们的研究结果证明了个人音乐身份的稳健性,并为偏好的发展提供了新的视角。
从时间序列中发现在线流行的模式
原文标题: Discovering patterns of online popularity from time series
地址: http://arxiv.org/abs/1904.04994
作者: Mert Ozer, Anna Sapienza, Andrés Abeliuk, Goran Muric, Emilio Ferrara
摘要: 如何在线获得人气?是否成功与在线平台中快速成为病毒有关,还是可以以稳定和纪律的方式获得人气?什么是其他时间特征可以揭示在线内容的流行?为了回答这些问题,我们利用对流行在线内容演变的多方面时间分析。在这里,我们提出了dipm-SC:一种基于多维形状的时间序列聚类算法,其具有启发式算法以找到最佳聚类数。首先,我们验证了算法在基准时间序列模型生成的合成数据集上的准确性。其次,我们展示了dipm-SC可以在现实世界的Twitter数据集中发现有意义的流行行为集群。通过聚集内容流行度与其他特定领域维度相结合的多维时间序列,我们发现了两种主要的流行模式:突发和稳定的时间行为。此外,我们发现随着时间的推移获得人气的方式对最终的累积人气没有显著影响。
网络深度:识别复杂网络的中位数和轮廓
原文标题: Network depth: identifying median and contours in complex networks
地址: http://arxiv.org/abs/1904.05060
作者: G. Bertagnolli, C. Agostinelli, M. De Domenico
摘要: 中心描述符被广泛用于根据重要的特定概念对节点进行排序。尽管现在有大量的中心性措施,但仍然很难理解如何识别可被视为复杂网络“中心”的节点。实际上,这个问题对应于找到复杂网络的中值。中值是概率分布的位置参数的非参数且稳健的估计器。在这项工作中,我们将中位数概念最自然地推广到复杂网络领域,讨论它在定义系统中心和围绕该中心的百分位数方面的优势。为此,我们引入了新的统计数据深度,并将其应用于嵌入由不同度量引起的几何空间中的网络。将我们的框架应用于经验网络使我们能够识别具有社会或生物相关性的中值节点。
与其遗憾不如谨慎:改进社会机器人检测的对抗方法
原文标题: Better Safe Than Sorry: An Adversarial Approach to Improve Social Bot Detection
地址: http://arxiv.org/abs/1904.05132
作者: Stefano Cresci, Marinella Petrocchi, Angelo Spognardi, Stefano Tognazzi
摘要: spambots和spambot-detector之间的军备竞赛由几个周期(或几代)组成:创建新的spambots浪潮(并传播新的垃圾邮件),新的spambot过滤器被派生出来,旧的spambot变异(或演化)到新物种。最近,随着对抗性学习方法的推广,出现了一种新的实践:操纵目标样本,以便制作更强大的检测模型。在这里,我们操纵几代Twitter社交机器人,获取并研究他们未来可能的演变,目的是最终获得更有效的检测技术。具体而言,我们提出并试验了一种用于在线账户综合的新型遗传算法。该算法允许创建当前最先进的社交机器人的合成演化版本。结果表明,合成机器人真的逃避了当前的检测技术。但是,它们提供了改进此类技术所需的所有元素,使得社交机器人检测系统的设计成为可能的主动方法。
使用网络模体了解级联中的信息流
原文标题: Understanding Information Flow in Cascades Using Network Motifs
地址: http://arxiv.org/abs/1904.05161
作者: Soumajyoti Sarkar, Hamidreza Alvari, Paulo Shakarian
摘要: 越来越多的应用程序通过使用子图作为生成网络拓扑的工具来考虑网络形成的过程。因此,迫切的研究挑战之一是能够使用这些子图来理解信息级联的网络拓扑结构,这最终为理论化信息如何随时间推移铺平了道路。在本文中,我们首次尝试使用网络模体来了解它们是否可以在级联生命周期的不同阶段用作扩散网络组织的生成元素。在这样做的过程中,我们提出了一种基于图渗透的算法,该算法使用网络模体来衡量它们代表时间级联网络组织的程度。我们从扩散的角度比较了级联生命周期的两个阶段 - 陡峭生长的阶段和饱和前的抑制阶段。我们对来自微博平台和5节点模体的一组级联的实验表明,只有少数特定的模体模式具有三元组,能够表征扩散过程,因此抑制区域内的网络组织比高增长阶段。相比之下,我们没有找到陡峭增长阶段的令人信服的结果。
科学地下城:绘制信仰场所和空间
原文标题: Dungeons for Science: Mapping Belief Places and Spaces
地址: http://arxiv.org/abs/1904.05216
作者: Aaron Dant, Philip Feldman, Wayne Lutters
摘要: 几十年来,桌面幻想角色扮演博弈(TFRPG)已经存在于离线和在线环境中,但很少出现在科学文献中。本文介绍了一个案例研究,其中TFRPG用于生成和收集信息环境地图的数据,使用由多个小型在线桌面博弈玩家共同创建的小说。 TFRPG的可供性使我们能够在在线现场条件下收集可重复的,有针对性的数据。这些数据不仅包括允许我们构建地图的术语,还包括从位置协作的角度探索细微的道德问题。
基于时态数据的社会网络社区检测
原文标题: Community Detection in Social Network using Temporal Data
地址: http://arxiv.org/abs/1904.05291
作者: Victor Stany Rozario, A.Z.M. Ehtesham Chowdhury, Muhammad Sarwar Jahan Morshed
摘要: 社会网络促进了演员或用户之间有联系的社交空间。关系及其模式基于他们的生活方式和沟通。类似地,在Facebook,Twitter,Myspace等在线社交媒体网络中,多个用户属于多个特定社区。社会网络代表大型真实世界的社交图。从这些图中检测社区或群集是一个具有相当大研究兴趣的问题。使用具有共同边和共同属性的相邻节点形成社区。大多数现有的社区检测算法通常会考虑节点内容来分析社区的属性。一些算法使用节点之间的链接来确定图中的密集区域。但是,利用边内容和顶点内容来检测社区仍有待考虑和验证,因为传统的顶点和边数据提取方法不考虑节点之间的连通性。本文提出了一种相互关联的空间聚类模型(ILSCM),它提供相关的内容选择和时间主题的提取,用于基于上下文密钥来识别节点之间的中介性以检测社区。
不确定图上s-t可靠性算法的深入比较
原文标题: An In-Depth Comparison of s-t Reliability Algorithms over Uncertain Graphs
地址: http://arxiv.org/abs/1904.05300
作者: Xiangyu Ke, Arijit Khan, Leroy Lim Hong Quan
摘要: 不确定或概率图已越来越多地用于表示许多新兴应用中的噪声链接数据,并且最近引起了数据库研究界的关注。不确定图上的基本问题是s-t可靠性,其测量目标节点t在概率(或不确定)图中可从源节点s到达的概率,即,每个边被分配存在概率的图。由于s-t可靠性估计问题(P-hard)的固有复杂性,文献中提出了各种基于采样和索引的有效算法。但是,由于它们尚未进行彻底的比较,因此不清楚后一种算法是否优于早期的算法。更重要的是,在这些工作中,比较框架,数据集和度量通常不一致(例如,采用不同的收敛标准来找到最佳样本数)。我们通过在一个通用系统和代码库中重新实施六种最先进的可靠性评估方法来解决这一严重问题,使用多个中型和大型真实世界图数据集,相同的评估指标和查询工作负载。通过我们对实验结果的系统和深入分析,我们报告了令人惊讶的发现,例如许多后续算法实际上可能是几个数量级的低效率,不太准确,并且与之前提出的那些相比,内存密集程度更高。最后,我们讨论了我们对未来道路的建议。
一种识别假新闻网站的分类算法
原文标题: A Classification Algorithm to Recognize Fake News Websites
地址: http://arxiv.org/abs/1904.05305
作者: Davide Bennato, Giuseppe Pernagallo, Benedetto Torrisi
摘要: “假新闻”是指通常在网络上传播的信息,仅模仿可靠新闻媒体内容的形式。近年来,这种现象呈现出无法控制的程度,引起了当局和公民的关注。在本文中,我们提出了一个能够区分可靠来源和虚假新闻网站的分类器。我们准备了一个由200个虚假新闻网站和200个来自世界各地的可靠网站组成的数据集,用作网站上可能提供的预测信息,例如“联系我们”部分或安全连接。该算法基于逻辑回归,而进一步分析使用四分相关系数进行二分变量和卡方检验。该框架提供了一个具体的解决方案,将“可靠性得分”归因于新闻网站,定义为来源可靠或不可靠的概率,并且用户可以根据这种概率决定新闻是否值得共享。
比特币价格预测:ARIMA方法
原文标题: Bitcoin Price Prediction: An ARIMA Approach
地址: http://arxiv.org/abs/1904.05315
作者: Amin Azari
摘要: 比特币被认为是世界上最有价值的货币。除了具有很高的价值外,它的价值也经历了急剧的增长,从2010年的1美元到2017年的18000左右。然后,近年来,它在包括经济学和计算机科学在内的各种领域引起了相当大的关注。前者主要侧重于研究它如何影响市场,确定其价格波动背后的原因,以及预测其未来价格。后者主要关注其漏洞,可扩展性和其他技术加密经济问题。在这里,我们旨在通过分析3年长时间段内的价格时间序列,揭示传统自回归整合移动平均(ARIMA)模型在预测比特币未来价值方面的作用。一方面,我们的实证研究表明,这种简单的方案在子时期是有效的,其中时间序列的行为几乎不变,特别是当它用于短期预测时,例如, 1天。另一方面,当我们尝试将ARIMA模型训练为3年的时间段,在此期间比特币价格经历了不同的行为,或者当我们尝试将其用于长期预测时,我们观察到它引入了大的预测误差。特别是,ARIMA模型无法捕捉价格的剧烈波动,例如2017年底的波动性。然后,它要求提取更多的功能并与价格一起使用,以便更准确地预测价格。我们进一步研究了比特币价格预测,使用ARIMA模型,在大型数据集上训练,以及比特币价格的有限测试窗口,长度为 w ,作为输入。我们的研究揭示了预测准确性,( p,q,d )和窗口大小 w 的选择的相互作用。
考虑风险的前k推荐重排序
原文标题: Risk Aware Reranking for Top-k Recommendations
地址: http://arxiv.org/abs/1904.05325
作者: Shameem A Puthiya Parambath, Nishant Vijayakumar, Sanjay Chawla
摘要: 给定关于一组用户和项目的不完整评级数据,偏好完成问题旨在估计项目子集上的个性化总偏好顺序。在实际设置中,以最终消费的优先级递减顺序向最终用户推荐来自估计的优先顺序的最高 k 项目的排序列表。我们分析该模型并观察当与推荐项目相关联的收益不同时,这种排名模型导致次优性能。考虑到项目收益的不确定性,我们提出了一种新颖且非常有效的偏好重新排序算法。一旦使用任何偏好学习算法获得用户的偏好分数,我们显示使用风险寻求效用函数对项目重新排名导致最佳排名性能。
变为无标记的坟墓:社交媒体上的死者内容分类
原文标题: Tending Unmarked Graves: Classification of Post-mortem Content on Social Media
地址: http://arxiv.org/abs/1904.05326
作者: Jialun "Aaron" Jiang, Jed R. Brubaker
摘要: 用户生成的内容是社交计算奖学金的核心。然而,研究人员和从业者通常认为这些用户还活着。在社交媒体中没有考虑死亡率是有问题的,其中越来越多的个人资料代表死亡的人。识别死亡率可以使设计人员能够更好地管理内容并支持死者,并促进高质量的数据科学。基于对验尸社交媒体概况和内容的计算语言学分析,我们报告了为检测死亡率而开发的分类器,并表明死亡率可在最初几次死后内容后确定。将我们的分类器应用于其他两个平台的内容也提供了良好的结果。最后,我们讨论模型之间的权衡,强调在这种敏感的背景下的前期与后期精确度。这些结果标志着大规模识别死亡率的第一步,并展示了设计师和科学家如何处理他们工作中的死亡率。
政策辩论中的内生联盟形成
原文标题: Endogenous Coalition Formation in Policy Debates
地址: http://arxiv.org/abs/1904.05327
作者: Philip Leifeld, Laurence Brandenberger
摘要: 政治行动者围绕其共同政策信仰形成联盟,以便影响有关气候变化或人口老龄化等有争议问题的政策进程。本文通过关注行动者采用其他行为者的政策信念的方式来解释联盟的形成和维持。政策辩论是一个复杂的系统,当参与者为辩论提供意识形态陈述时,它以横截面和纵向的方式展示网络依赖性。在这样的时空网络,在三个互补的方式的政策信仰问题的学习:通过联盟内的键合关系正互惠,通过冲突的关系,强化桥关系,并通过排斥负礼尚往来,否则极化,对抗联盟的跨联盟的创新。我们在政策辩论中使用结合网络和事件历史分析的新型推理技术来检验这种内生联盟形成理论,并找到三种联盟形成机制相互作用的系统证据。
PropTech对印度房地产市场分类广告中房屋的主动定价
原文标题: PropTech for Proactive Pricing of Houses in Classified Advertisements in the Indian Real Estate Market
地址: http://arxiv.org/abs/1904.05328
作者: Sayan Putatunda
摘要: 房地产技术(PropTech)是下一个将破坏房地产市场的重大事件。如今,我们在几乎所有领域都看到了机器学习(ML)和人工智能(AI)的应用,但很长一段时间以来,房地产行业在采用数据科学和机器学习解决问题和改进流程方面进展缓慢。然而,随着我们在美国和欧洲房地产市场上大量采用AI和ML,情况正在迅速发生变化。但印度房地产市场必须赶上很多。本文提出了一种机器学习方法,用于解决分类广告中的房价预测问题。本研究的重点是印度房地产市场。我们在现实世界数据集上应用先进的机器学习算法,如随机森林,梯度增强和人工神经网络,并比较这些方法的性能。我们发现随机森林方法在预测精度方面表现最佳。
GraSPy:Python图统计
原文标题: GraSPy: Graph Statistics in Python
地址: http://arxiv.org/abs/1904.05329
作者: Jaewon Chung, Benjamin D. Pedigo, Eric W. Bridgeford, Bijan K. Varjavand, Joshua T. Vogelstein
摘要: 我们介绍GraSPy,这是一个专门用于统计推断,机器学习以及随机图和图群体可视化的Python库。该软件包提供灵活且易于使用的算法,可通过符合scikit-learn的API分析和理解图。 GraSPy可以从Python Package Index(PyPi)下载,并在Apache 2.0开源许可下发布。文档和所有版本可在https://neurodata.io/graspy上找到。
多路网络中社区检测的分层随机块模型
原文标题: Hierarchical Stochastic Block Model for Community Detection in Multiplex Networks
地址: http://arxiv.org/abs/1904.05330
作者: Marina S. Paez, Arash A. Amini, Lizhen Lin
摘要: 多路网络在许多领域中变得越来越普遍,并且已经成为用于对真实网络的复杂性进行建模的强大工具。迫切需要开发用于多路网络的推理模型,其可以考虑跨不同层的潜在依赖性,特别是当目标是社区检测时。我们通过提出一种用于多路网络中的社区检测的新颖且有效的贝叶斯模型来增加有限的文献。我们方法的一个关键特征是能够在不同的网络层对不同的社区进行建模。相比之下,许多现有模型假设所有层都具有相同的社区。此外,我们的模型会自动在每一层获取必要数量的社区(由实际数据示例验证)。这很有吸引力,因为决定社区数量是社区检测的一个具有挑战性的方面,尤其是在多路设置中,如果允许社区跨层更改。借用分层贝叶斯建模的思想,我们在跨层的模型社区标签之前使用分层Dirichlet,允许其结构中的依赖。给定社区标签,假设每层的随机块模型(SBM)。我们开发了一种有效的切片采样器,用于对社区标签的后验分布以及社区之间的链接概率进行采样。在这样做的过程中,我们通过将SBM的复杂可能性与标签上的先验的分层性质相结合来解决一些独特的挑战。对模拟和真实数据进行了广泛的经验验证,证明了模型相对于单层替代方案的卓越性能,以及在真实网络中发现有趣结构的能力。
基于风味的食物推荐
原文标题: Flavour Based Food Recommendation
地址: http://arxiv.org/abs/1904.05331
作者: Aditya Bharadwaj, Aditya Narendra Rao, Akash Kulhalli, Kushal Samir Mehta, Nishant Bhattacharya, Pratul Ramkumar, Nitish Nag, Ramesh Jain, Dinkar Sitaram
摘要: 在这项工作中,我们探讨了风味对推荐质量的影响。我们尝试建立一种经验方法来确定食物的味道并将它们整合到推荐引擎中。当与主动建议更健康的常见食品替代品的系统结合时,这是特别有利的。这样的系统将具有双重优势,即建议用户更可能消费的食物项目,同时还实现确保食物摄入更倾向于更健康的替代物的目标。这解决了建议食品通常被认为是健康但很少被纳入饮食的问题。
异构群体非对齐网络的社区检测
原文标题: Community detection over a heterogeneous population of non-aligned networks
地址: http://arxiv.org/abs/1904.05332
作者: Guilherme Gomes, Vinayak Rao, Jennifer Neville
摘要: 具有多个图的聚类和社区检测通常关注于对齐的图,其中在图之间存在节点之间的映射(例如,多视图,多层,含时图)。但是,有许多应用程序区域具有多个图,这些图仅部分对齐,甚至未对齐。这些图通常来自相同的群体,具有可能不同大小的群落具有相似的结构。在本文中,我们开发了一个联合随机块模型(Joint SBM)来估计各组异构非对齐图的共享社区。我们推导出一种有效的谱聚类方法来学习联合SBM的参数。我们在合成和真实世界数据集上评估模型,并显示联合模型能够利用交叉图信息来更好地估计社区,而不是在每个单独的图上学习单独的SBM。
随机块模型中潜在维数和社团的贝叶斯估计
原文标题: Bayesian estimation of the latent dimension and communities in stochastic blockmodels
地址: http://arxiv.org/abs/1904.05333
作者: Francesco Sanna Passino, Nicholas A. Heard
摘要: 无向图的邻接或拉普拉斯矩阵的谱嵌入是用于在较低维潜在空间中表示网络的常用技术,具有最佳理论保证。嵌入可用于估计网络的社区结构,在随机块模型框架中具有强一致性结果。用于谱嵌入的社区检测的标准算法的主要实际限制之一是必须事先指定社区的数量和嵌入的潜在维度。在本文中,提出了一种新的贝叶斯模型,用于同时和自动选择潜在空间的适当维数和块数。讨论了有向图和二部图的扩展。该模型在模拟和现实世界网络数据上进行测试,显示出恢复潜在社区结构的有希望的性能。
分析网络数据的九个快速技巧
原文标题: Nine Quick Tips for Analyzing Network Data
地址: http://arxiv.org/abs/1904.05334
作者: Vincent Miele (LBBE), Catherine Matias (LPSM UMR 8001), Stephane Robin (MIA-Paris), Stéphane Dray (LBBE)
摘要: 这些技巧为初学者分析网络数据提供了快速而集中的指导。
修改随机块模型用于幂律度分布
原文标题: Adapting Stochastic Block Models to Power-Law Degree Distributions
地址: http://arxiv.org/abs/1904.05335
作者: Maoying Qiao, Jun Yu, Wei Bian, Qiang Li, Dacheng Tao
摘要: 随机块模型(SBM)在建模网络数据的集群或社区结构方面发挥了重要作用。但是,它无法处理在现实世界网络中普遍展示的几个复杂特征,其中之一就是幂律度特征。为此,我们提出了一种新的SBM变体,称为幂律度SBM(PLD-SBM),通过引入度衰减变量来明确编码所有节点上的变化度分布。利用指数先验,证明了PLD-SBM近似保留了真实网络中的无标度特征。此外,从变分E-Step的推断,PLD-SBM确实用引入的度衰减因子来校正在SBM中继承的偏差。此外,在合成网络和两个真实世界数据集(包括青少年健康数据和政治博客网络)上进行的实验验证了所提出模型在聚类预测准确性方面的有效性。
未知环境中行人出行的稳健设计优化
原文标题: Robust Design Optimization for Egressing Pedestrians in Unknown Environments
地址: http://arxiv.org/abs/1904.05336
作者: Emiliano Cristiani, Daniele Peri
摘要: 在本文中,我们讨论了一个大小可变的行人群体,这些行人在未知的受限环境中移动并寻找出口。通过最近引入的微观(基于试剂)模型模拟行人动力学,其特征在于探索阶段和出口阶段。首先,我们研究模型以揭示其主要参数的作用及其定性特性。其次,我们通过粒子群优化方法解决了一个强大的优化问题,旨在通过在步行区域添加最佳放置和成形的多个障碍来减少目标时间。针对群体中的人数寻求稳健性,这是由具有给定概率密度分布的随机变量描述的不确定量。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。