- 分析Goodreads上的社会书籍阅读行为及其如何预测亚马逊畅销书;
- 揭开全球价值链的复杂性:单层,多路和多层国际贸易网络中的强度和熵;
- 多尺度下的社会碎片化;
- 比特币网络双花检测系统建模;
- 基于代数拓扑的蜂窝网络基站基础知识;
- 寻找图中实体相关性解释的综述;
- 网站访问者的实证网络分析;
- 通过多变量标记霍克斯过程推断多路扩散网络;
- 最优流量分析,预测和应用;
- 网络社区检测理论进展综述;
- 用于社区答案质量排名的改进在线Wilson分数区间法;
- 图神经网络的多任务学习 - 学习统一网络的多图中心度量;
- 高阶图卷积网络;
- 使用嵌入来应对冗余和模型衰减;
- 学术网络的可视化查询系统;
- 标本作为研究对象:跨分布式存储库进行协调以进行元数据传播;
- PriPeARL:LinkedIn隐私保护分析和报告框架;
分析Goodreads上的社会书籍阅读行为及其如何预测亚马逊畅销书
原文标题: Analyzing Social Book Reading Behavior on Goodreads and how it predicts Amazon Best Sellers
地址: http://arxiv.org/abs/1809.07354
作者: Suman Kalyan Maity, Abhishek Panigrahi, Animesh Mukherjee
摘要: 一本书的成功/受欢迎程度取决于各种参数 - 外在和内在。在本文中,我们研究了图书阅读特征如何影响图书的受欢迎程度。为实现这一目标,我们对Goodreads实体进行了跨平台研究,并尝试建立各种Goodreads实体与流行书籍(“亚马逊畅销书”)之间的联系。我们分析了Goodreads平台上的集体阅读行为,并量化了Goodreads实体的各种特征,以确定这些亚马逊畅销书(ABS)与其他非畅销书之间的差异。然后,我们使用特征特征开发预测模型,以预测一本书自出版后一个月(15天)后是否应成为畅销书。在平衡集上,对于预测,我们能够实现88.72%(85.66%)的非常高的平均准确度,而其他竞争类包含从Goodreads数据集中随机选择的书籍。我们的方法主要基于来自用户帖子和类型相关特征属性的特征,比基于传统的流行因素(评级,评论)的基线方法提高了16.4%。我们还使用两本更具竞争力的书籍来评估我们的模型a)评价很高并且收到了大量的评论(但不是畅销书)(HRHR)和b)Goodreads Choice Awards非最佳的提名书籍卖家(GCAN)。我们能够取得非常好的结果,平均准确度非常高,达到87.1%,而且ABS与GCAN的ROC也很高。对于ABS与HRHR,我们的模型产生的平均准确度高达86.22%。
揭开全球价值链的复杂性:单层,多路和多层国际贸易网络中的强度和熵
原文标题: Unfolding the complexity of the global value chain: Strengths and entropy in the single-layer, multiplex, and multi-layer international trade networks
地址: http://arxiv.org/abs/1809.07407
作者: Luiz G. A. Alves, Giuseppe Mangioni, Francisco A. Rodrigues, Pietro Panzarasa, Yamir Moreno
摘要: 通过不同的数据集和网络表示对全球贸易网络进行了广泛研究,以便更好地了解国家和产品之间的相互作用。在这里,我们通过单层,多路复用和多层网络的镜头研究国际贸易。我们讨论了三个网络框架在捕获贸易的突出拓扑特征方面的相对优势之间的差异。我们利用世界投入产出数据库来建立三个网络。然后,我们通过计算每个网络中的强度分布和熵来发现在国家和交易之间分配力量的方式的异质性来源。此外,我们追踪熵如何演变,并显示观察到的峰值如何与全球经济衰退的开始相关联。调查结果表明,更复杂的贸易表征(如多层网络)使我们能够消除内部和跨行业交易在推动熵在更加聚合的层面演变中的不同作用。我们讨论了我们的结果以及我们对网络的比较分析对于跨国自然和社会科学的国际贸易和其他经验领域的研究的意义。
多尺度下的社会碎片化
原文标题: Social Fragmentation at Multiple Scales
地址: http://arxiv.org/abs/1809.07676
作者: Leila Hedayatifar, Yaneer Bar-Yam, Alfredo J. Morales
摘要: 尽管全球连通性,但社会似乎日益两极分化。这种现象植根于社会系统的潜在复杂结构和动态。个人不仅无情地混合或采用一致的观点,而是自我组织成多个群体,从朋友和家庭到城市和文化。在本文中,我们使用从社交媒体数据获得的移动性和通信网络来研究美国社会的分散结构。我们发现自组织的补丁具有明确的地理边界,在物理和虚拟空间之间是一致的。这些补丁具有从城市的部分到整个国家的多尺度内部结构。我们的观察与社会群体的出现是一致的,社会群体的分离关联和沟通加强了不同的身份。多尺度身份表明在较小尺度上逐渐加强关联,但允许在较大尺度上与较大群体自我关联。那些在更精细尺度上是“外国人”的人可能是更大规模的同一群体的一部分。在互联网时代和全球化时代,理解超连接社会系统中碎片化的出现是必不可少的。
比特币网络双花检测系统建模
原文标题: Modeling a Double-Spending Detection System for the Bitcoin Network
地址: http://arxiv.org/abs/1809.07678
作者: Marco Alberto Javarone, Craig Steven Wright
摘要: 比特币协议防止出现双重支出(DS),即多次使用相同的货币单位。同时,可以执行DS攻击,其中生成更多冲突的事务,以欺骗用户,例如,用户。一个商人。因此,在这项工作中,我们提出了一种模型,用于通过轮询比特币网络节点子集的“oracle”来检测冲突事务的存在。我们假设后者具有复杂的结构。因此,我们研究了几个复杂网络的拓扑与oracle为轮询选择的节点子集的最佳数量和分布之间的关系。结果表明,小世界网络需要比常规网络轮询更少量的节点。此外,在随机拓扑中,即使底层网络增长,少量轮询节点也可以使检测系统快速可靠。
基于代数拓扑的蜂窝网络基站基础知识
原文标题: Fundamentals on Base Stations in Cellular Networks: From the Perspective of Algebraic Topology
地址: http://arxiv.org/abs/1809.07681
作者: Ying Chen, Rongpeng Li, Zhifeng Zhao, Honggang Zhang
摘要: 近几十年来,蜂窝网络的部署经历了前所未有的扩展。在这方面,从拓扑的角度获得对蜂窝网络的深刻了解是有益的,从而可以通过适当放置基站(BS)来实现突出的网络性能。在我们的研究中,八个代表性城市中BS的实际位置数据用经典代数几何仪器处理,包括 \ alpha -Shapes,Betti数和Euler特征。首先,从Betti数和Hurst系数的两个角度在BS拓扑中揭示分形性质。此外,确认对数正态分布以提供对实际BS部署的欧拉特性的最佳适应性。
寻找图中实体相关性解释的综述
原文标题: Finding Explanations of Entity Relatedness in Graphs: A Survey
地址: http://arxiv.org/abs/1809.07685
作者: Raoul Biagioni, Pierre-Yves Vandenbussche, Vit Novacek
摘要: 分析和解释图中实体之间的关系是与许多实际应用相关的基本问题。例如,生物途径图可用于发现两种蛋白质之间先前未知的关系。然而,领域专家可能不愿意相信这样的发现而没有详细解释为什么两个蛋白质在图中被认为是相关的。本文概述了解决方案的类型,它们的相关方法和策略,已经提出用于在图中查找实体相关性解释。第一种解决方案依赖于连接实体的路径固有的信息。这种类型的解决方案以排序路径列表的形式提供实体相关性解释。路径的等级是根据重要性,独特性,新颖性和信息量来衡量的。第二种解决方案依赖于节点相关性的度量。在这种情况下,节点的相关性是在w.r.t.测量的。感兴趣的实体和相关性解释以子图的形式提供,其最大化节点相关性得分。本文使用这种方法分类来讨论和对比一些关键概念,这些概念指导图中实体相关性解释问题的不同解决方案。
网站访问者的实证网络分析
原文标题: The Empirical Network Analysis of Website Visitors
地址: http://arxiv.org/abs/1809.07686
作者: Mohammed K A Kaabar
摘要: 本文探讨了如何根据经验分析来自世界上几个国家的网站访问者网络。在探索全球范围内庞大的网站访问者网络时,本文展示了一个实证数据分析,其中包含如何分析和解释数据的可视化。通过评估分析和解释这些数据所使用的方法,本文提供了从具有不同浏览器和IP地址的网站访问者实证分析一组各种获得的数据所需的知识。关键词:网站数据分析,网站社区,可视化
通过多变量标记霍克斯过程推断多路扩散网络
原文标题: Inferring Multiplex Diffusion Network via Multivariate Marked Hawkes Process
地址: http://arxiv.org/abs/1809.07688
作者: Peiyuan Suny, Jianxin Li, Yongyi Mao, Richong Zhang, Lihong Wang
摘要: 了解社会网络中的传播是一项重要任务。然而,这项任务具有挑战性,因为(1)网络结构通常仅隐藏在与每个节点相关的事件(如“post”或“repost”)的观察中,以及(2)节点之间的交互包含多个不同的模式,这反过来影响扩散模式。例如,社交互动很少在单一渠道上发展,并且由于各种共同兴趣,多种关系可以绑定人群。以前的大多数工作只考虑这两个挑战中的一个,这显然是不切实际的。在本文中,我们研究了社会网络中的\ emph {推断多路复用网络}的问题。我们提出了多重扩散模型(MDM),它结合了多变量标记的Hawkes过程和主题模型来推断社会网络的多元结构。开发基于MCMC的算法以推断潜在的多路复用结构并估计与节点相关的参数。我们基于合成和真实数据集评估我们的模型。结果表明,我们的模型在揭示多路网络结构方面更有效。
最优流量分析,预测和应用
原文标题: Optimal flow analysis, prediction and application
地址: http://arxiv.org/abs/1809.07690
作者: Weili Zhang
摘要: 本文采用统计学习技术来分析,预测和解决固定费用网络流量(FCNF)问题,这是许多现实网络问题中常见的问题。 FCNF流量的成本结构涉及固定成本和可变成本。 FCNF问题是建模混合二进制线性程序,可以使用标准商业求解器求解,它使用分支定界算法。这个问题对其广泛的应用和解决挑战很重要。由于缺乏紧密界限,没有一种有效的算法可以最佳地解决这个问题。据我们所知,这是第一项采用统计学习技术分析FCNF问题最优流程的工作。为解决FCNF问题而开发的大多数算法都是基于成本结构,松弛等。我们从网络特征入手,探索节点,弧和网络的属性与最优流的关系。这是一种双向方法,该结果可用于定位最显著影响最佳流量的特征,预测最佳弧并提供解决FCNF问题的信息。特别地,我们基于网络特征定义了33个特征,使用逐步回归,我们确定了26个逻辑回归的统计显著预测因子,以预测哪些弧将在最优解中具有正流量。预测模型达到88%的准确度,接收器工作特性曲线下的面积为0.95。调查了两个应用程序。首先,预测结果可以直接用作组件关键指标。具有较高临界指数的电弧的故障导致整个网络的成本增加。
网络社区检测理论进展综述
原文标题: A Survey on Theoretical Advances of Community Detection in Networks
地址: http://arxiv.org/abs/1809.07691
作者: Yunpeng Zhao
摘要: 现实世界的网络通常具有社区结构,即节点被分组为密集连接的社区。社区检测是网络科学中最受欢迎和研究最多的研究课题之一,并在许多不同领域引起了关注,包括计算机科学,统计学,社会科学等。在文献中已经提出了许多用于社区检测的方法,从ad-hoc算法到基于系统模型的方法。大量可用方法导致一个基本问题:某种方法是否能够提供对社区标签的一致估计。随机块模型(SBM)及其变体为研究这些问题提供了方便的框架。本文是对近年来社区检测理论进展的一项调查。作者回顾了许多社区检测方法及其理论性质,包括图切割方法,轮廓可能性,伪似然方法,变分方法,信念传播,谱聚类和SBM的半定松弛。作者还简要讨论了社区检测中的其他研究课题,如强大的社区检测,社区检测与节点协变量和模型选择,以及为未来研究提出一些可能的方向。
用于社区答案质量排名的改进在线Wilson分数区间法
原文标题: Improved Online Wilson Score Interval Method for Community Answer Quality Ranking
地址: http://arxiv.org/abs/1809.07694
作者: Xin Cao
摘要: 本文提出了一种快速,易于部署的方法,对社区答案质量排名具有很强的可解释性。该方法基于Wilson得分区间法[Wilson,1927]进行了改进,该方法保留了其优点,同时提高了对高质量答案排名的满意度。改进的答案质量得分考虑了威尔逊得分间隔和聚光灯指数,后者将在文章中介绍。该方法可以在不同场景中高度关注地显著提高最佳答案的排名。
图神经网络的多任务学习 - 学习统一网络的多图中心度量
原文标题: Multitask Learning on Graph Neural Networks - Learning Multiple Graph Centrality Measures with a Unified Network
地址: http://arxiv.org/abs/1809.07695
作者: Pedro H. C. Avelar, Henrique Lemos, Marcelo O. R. Prates, Luis Lamb
摘要: 将深度学习应用于符号领域仍然是一项积极的研究工作。图神经网络(GNN)由经过训练的神经模块组成,可以在运行时以不同的拓扑结构排列,是处理关系问题的合理替代方案,它们可以用于图表示。在本文中,我们展示了GNN能够进行多任务学习,这可以通过训练模型来自然地强化一组多维嵌入 \ in \ mathbb {R} ^ d 并通过连接将它们解码为多个输出管道末端的MLP。我们在估计网络中心度量的相关关系问题中证明了模型的多任务学习能力,即顶点 v_1 比顶点 v_2 更中心给定中心性 c ?。然后,我们展示了可以训练GNN来开发 lingua franca 顶点嵌入,从中可以解码有关任何训练中心度量的所有相关信息。所提出的模型在具有多达128个顶点的随机实例的测试数据集上实现了 89 \%的准确度,并且显示出可以推广到更大的问题大小。该模型还显示在具有多达4k个顶点的真实世界实例的数据集上获得合理的准确性,远远超过模型训练的最大实例的大小( n = 128 )。最后,我们相信我们的贡献证明了GNN在符号领域,特别是关系学习方面的潜力。
高阶图卷积网络
原文标题: Higher-order Graph Convolutional Networks
地址: http://arxiv.org/abs/1809.07697
作者: John Boaz Lee, Ryan A. Rossi, Xiangnan Kong, Sungchul Kim, Eunyee Koh, Anup Rao
摘要: 随着深度卷积网络在各种视觉和语音相关任务中的成功,研究人员开始研究图结构数据的众所周知技术的概括。最近提出的称为图卷积网络的方法已经能够在节点分类的任务中实现最先进的结果。然而,由于所提出的方法依赖于谱图卷积的局部一阶近似,因此无法捕获图中节点之间的高阶交互。在这项工作中,我们提出了一个基于图案的图注意模型,称为Motif卷积网络(MCNs),它通过使用加权多跳主题邻接矩阵来捕获高阶邻域来概括过去的方法。一种新颖的注意机制用于允许每个单独的节点选择最相关的邻域来应用其过滤器。实验表明,我们提出的方法能够在半监督节点分类任务上实现最先进的结果。
使用嵌入来应对冗余和模型衰减
原文标题: Fighting Redundancy and Model Decay with Embeddings
地址: http://arxiv.org/abs/1809.07703
作者: Dan Shiebler, Luca Belli, Jay Baxter, Hanchen Xiong, Abhishek Tayal
摘要: 每天都有数以亿计的新推文,其中包含超过40种不断变化的白话语言。试图从这些信息中汲取洞察力的模型必须面对Twitter平台特有的贪婪协变量转变。虽然定期重新训练的算法可以在面对这种转变时保持性能,但未能代表新趋势和令牌的固定模型功能可能很快变得陈旧,导致性能下降。为了缓解这个问题,我们采用了学习特征或嵌入模型,可以有效地表示数据分布的最相关方面。跨团队共享这些嵌入模型还可以减少冗余并增加跨团队建模效率。在本文中,我们详细介绍了我们已经开发并正在Twitter上开发的商品化工具,算法和流水线,以定期生成高质量,最新的嵌入并在整个公司内广泛分享。
学术网络的可视化查询系统
原文标题: A Visual Query System for Scholar Networks
地址: http://arxiv.org/abs/1809.07720
作者: Hongze Li
摘要: 大型学者网络在学术领域非常受欢迎,如Aminer。它提供显示学术社会网络,包括个人资料搜索,专家发现,会议分析,课程搜索,子图搜索,主题浏览器,学术等级和用户管理。通常搜索结果被列为项目,而它们之间的关系对用户是隐藏的。可视化是帮助用户探索隐藏关系并发现更多有用信息的可行方法。本文旨在以更加用户友好的方式在Aminer中可视化搜索结果,并帮助他们更好地利用该工具。我们提供了三种不同的设计来可视化结果并在用户研究中对其进行测试。我们研究的实证结果表明,设计的图表可以帮助用户更好地理解他们想要了解的领域,并使他们的搜索更有效。
标本作为研究对象:跨分布式存储库进行协调以进行元数据传播
原文标题: Specimens as research objects: reconciliation across distributed repositories to enable metadata propagation
地址: http://arxiv.org/abs/1809.07725
作者: Nicky Nicolson, Alan Paton, Sarah Phillips, Allan Tucker
摘要: 植物标本作为长期可咨询的研究对象在全球标本库网络中共享。从共享的场收集事件生成多个样本;然后,在单独的存储库中单独管理生成的样本,并使用可以传播到其重复对等体的研究和管理元数据进行独立增强。建立用于元数据传播的数据衍生网络将能够对密切相关的样本进行协调,这些样本目前是独立分散,不连接和管理的。数据挖掘练习应用于来自292个单独样本库的19,827,998个样本记录的汇总数据集,36%或7,102,710个样本被评估为参与重复关系,允许在这些关系中参与者之间传播元数据,总计:93,044类型引用,1,121,865个地理参考,1,097,168个图像和2,191,179个科学名称确定。结果使得能够创建网络以识别哪些存储库可以协作工作。某些类别的注释(特别是关于科学名称确定的注释)代表了科学工作的单元:对这些数据的适当管理将允许学术信用积累给个体研究人员:讨论该领域的潜在进一步工作。
PriPeARL:LinkedIn隐私保护分析和报告框架
原文标题: PriPeARL: A Framework for Privacy-Preserving Analytics and Reporting at LinkedIn
地址: http://arxiv.org/abs/1809.07754
作者: Krishnaram Kenthapadi, Thanh T. L. Tran
摘要: 保护用户隐私是网络规模分析和报告应用程序的关键要求,并且鉴于最近的数据泄露和GDPR等新法规,已经重新关注。我们专注于以保护隐私的方式计算稳健,可靠的分析,同时满足产品要求。我们提供PriPeARL,这是一个隐私保护分析和报告框架,受到差异隐私的启发。我们描述了整体设计和架构以及关键建模组件,重点关注与隐私,覆盖范围,实用性和一致性相关的独特挑战。我们在LinkedIn的广告分析和报告环境中进行实验研究,从而证明了隐私和公用事业需求之间的权衡,以及隐私保护机制对现实世界数据的适用性。我们还重点介绍了LinkedIn系统生产部署的经验教训。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。