- 什么推动了名人涨粉?语言使用还是社交连接;
- 用于推荐的动态图中的链路预测;
- 多智能体强化学习中语言学习惯的涌现;
- 深入了解匿名:对Quora问题的大规模分析;
- 再现科学家的流动性:数据驱动的模型;
- 用于实际系统的基于拓扑和优化的通用网络恢复;
- 社会网络上意见形成的Ising-PageRank模型;
- 用精英集团探索小世界网络:将嵌入理论引入风险投资网络的动态演化;
- 众包平台的贡献者资料模型化;
- 属性网络的离群感知网络嵌入;
- Twitter上基于影响的聚类模型;
- 城市系统的空间测度:从熵到分形维数;
- 非法过马路中的不确定行为;
- 综合社会联系网络复杂性与现实性的实证评估;
- 超图的Forman-Ricci曲率;
- 夸大的新闻内容在社交媒体的传播特征;
- 论网络可见性问题;
什么推动了名人涨粉?语言使用还是社交连接
原文标题: What Propels Celebrity Follower Counts? Language Use or Social Connectivity
地址: http://arxiv.org/abs/1811.07169
作者: Jasabanta Patro, Rameshwar Bhaskaran, Animesh Mukherjee
摘要: 追随者数量是量化名人受欢迎程度的因素。它反映了他们的力量,声望和整体社会影响力。在本文中,我们调查社交连接或语言选择是否与名人的未来追随者数量更相关。我们通过经过验证的Twitter帐户收集有关471名印度名人的推文,转推和提及的数据。我们建立了两个新的网络来近似名人的社交连接。我们研究了这两个网络的各种结构特性,并观察它们与未来跟随者数量的相关性。同时,我们分析推文的语言结构(LIWC特征,语法和情感特征以及风格和可读性特征),并观察每个推文与名人未来追随者数量的相关性。作为最后一步,我们使用这些功能对未来追随者数量(HIGH,MID或LOW)的特定桶中的名人进行分类。我们观察到单独的网络特征实现了0.52的准确度,而单独的语言特征实现了0.69的准确度,远远超过网络特征。网络和语言特征结合起来产生0.76的准确度。我们还讨论了一些最终的见解,我们从进一步的数据分析中得到了更多关注者数量的名人,这些推文包括(i)来自朋友和家庭LIWC类别的更多单词,(ii)更积极的情绪负担词,(iii)有更好的语言结构并且(iv)更具可读性。
用于推荐的动态图中的链路预测
原文标题: Link Prediction in Dynamic Graphs for Recommendation
地址: http://arxiv.org/abs/1811.07174
作者: Samuel G. Fadel, Ricardo da S. Torres
摘要: 在图域上使用神经网络的最新进展有助于推动链路预测任务中的现有技术,特别是在推荐服务中。然而,在链路预测问题中忽略了时间上下文信息的使用,其通常被建模为编码用户 - 项目关系随时间的演变的动态图。在本文中,我们考虑利用这些信息的假设使模型能够做出更好的预测,为此提出一种新的神经网络方法。我们在广泛使用的ML-100k和ML-1M数据集上进行的实验表明,我们的方法可以在用户项关系模式随时间变化的情况下产生更好的预测。此外,他们还认为现有方法会受到这些变化的显著影响。
多智能体强化学习中语言学习惯的涌现
原文标题: Emergence of linguistic conventions in multi-agent reinforcement learning
地址: http://arxiv.org/abs/1811.07208
作者: Dorota Lipowska, Adam Lipowski
摘要: 最近,信号传播惯例的出现,其中语言是一个主要的例子,引起了相当大的跨学科兴趣,从博弈论到机器人学到演化语言学。如此广泛的研究基于不同的假设和方法,但问题的复杂性排除了制定统一和普遍接受的解释。我们在多智能体强化学习模型的框架中研究信号传递约定的形成。当代理之间的交互网络是完整的图或足够密集的随机图时,通常会达到全球共识,新兴语言是几乎唯一的对象 - 字映射或包含一些同义词和同音异义词。在有限维晶格上,模型陷入无序配置,只有局部共识。通过引入种群更新可以避免这种诱捕,其在存在超线性增强的情况下恢复普通的表面张力驱动的粗化并且显著增强有效信号的形成。
深入了解匿名:对Quora问题的大规模分析
原文标题: Deep Dive into Anonymity: A Large Scale Analysis of Quora Questions
地址: http://arxiv.org/abs/1811.07223
作者: Binny Mathew, Ritam Dutt, Suman Kalyan Maity, Pawan Goyal, Animesh Mukherjee
摘要: 匿名是我们数字生活中不可或缺的重要组成部分。它使我们能够在不担心判断的情况下表达我们真实的自我。在本文中,我们调查社交问答网站Quora中匿名的不同方面。 Quora的选择是因为这是一个罕见的社交问答网站之一,允许用户明确发布匿名问题,这个论坛中的此类活动已成为规范而非禁忌。通过对510万个问题的分析,我们观察到,在全球范围内,匿名和非匿名问题的语言结构几乎没有差异。我们发现在全球范围内局部混合是缺席的主要原因。然而,一旦我们“深入研究”并(局部地)将问题聚类并将具有大量匿名问题的群集与具有少量匿名问题的群集进行比较,差异就开始出现。特别是,我们观察到以匿名方式发布问题的选择取决于用户对匿名的看法,他们经常选择以匿名为幌子谈论抑郁,焦虑,社交关系和个人问题。我们进一步进行人格特质分析,观察匿名用户群与外向性,宜人性和开放性负相关性呈正相关。随后,为了获得进一步的见解,我们建立了一个匿名网格,以确定发布问题的用户和回答问题的用户社区对匿名感的差异。我们还会查看问题的第一个响应时间,并观察到讨论个人和敏感问题的主题最低,这暗示了更高程度的社区支持和用户参与度。
再现科学家的流动性:数据驱动的模型
原文标题: Reproducing scientists' mobility: A data-driven model
地址: http://arxiv.org/abs/1811.07229
作者: Giacomo Vaccario, Luca Verginer, Frank Schweitzer
摘要: 本文为理解科学家的流动模式做出了两个重要贡献。首先,通过结合两个大型数据集,涵盖60多年来350万科学家的出版物,我们能够揭示科学家的地理“职业道路”。每个路径在个人层面上包含有关城市的信息(在真实地理空间中解析)和在那里度过的时间(以年为单位)。统计分析给出了科学家为新的归属感移动的地理距离及其移动年龄的经验见解。从个人的职业道路,我们进一步重建了科学家运动的世界网络,其中节点代表城市以及城市之间科学家的内外流动。我们分析了该网络的拓扑性质,包括度分布,局部聚类系数,路径长度和协调性。第二个重要贡献是基于主体的模型,它允许在科学家和网络层面上重现经验发现。该模型认为代理人具有适应性并考虑潜在的新位置,如果他们允许增加这种适应性。另一方面,地点会对代理人的健康状况进行排名,只有当他们仍有能力时才会考虑他们。这导致匹配问题,其在算法上解决。使用经验数据来校准我们的模型并确定其初始条件,我们能够根据测量的分布验证模型。这允许将模型假设解释为解释观察到的科学家的移动模式的微型决策规则。
用于实际系统的基于拓扑和优化的通用网络恢复
原文标题: Generalized network recovery based on topology and optimization for real-world systems
地址: http://arxiv.org/abs/1811.07242
作者: Udit Bhatia, Lina Sela Perelman, Auroop Ratan Ganguly
摘要: 为受损网络系统设计有效的恢复策略对于建筑,人类和自然系统的恢复能力至关重要。然而,由于无法将不同的哲学结合在一起,例如通过中心性测量的复杂网络拓扑和通过熵测量的网络流优化,进展受到限制。基于网络中心性的指标相对更直观且计算效率更高,而基于优化的方法更适合动态调整。在这里,我们通过现实世界交通系统中的案例研究表明,两种截然不同的网络理念可以融合在一起,形成比任何一种都更有效的混合恢复策略,相对性能取决于聚合网络属性。直接应用包括灾害管理和气候适应科学,生命线网络的恢复可以挽救生命和经济。
社会网络上意见形成的Ising-PageRank模型
原文标题: Ising-PageRank model of opinion formation on social networks
地址: http://arxiv.org/abs/1811.07349
作者: Klaus M. Frahm, Dima L. Shepelyansky
摘要: 我们通过引入相应Google矩阵的Ising或类似旋转的结构,在社会网络上提出了一种新的Ising-PageRank意见形成模型。网络的每个选民或节点具有对应于社会中的红色或蓝色意见的两个组成部分。此外,每个选民在网络上传播红色或蓝色意见,以便选举人之间的联系由两个两个矩阵描述,这两个矩阵有利于两个意见中的一个或另一个。选民投票选择红色或蓝色,具体取决于其红色或蓝色PageRank矢量组件的优势。我们确定最终社会投票对具有红色(或蓝色)影响的节点分数的依赖性,从而允许确定红色或蓝色选项之间的选举结果边界的转变。我们表明,即使精英分数非常小,这个过渡边界也会受到由网络的顶级PageRank,CheiRank或2DRank节点组成的社会精英选民的意见的显著影响。分析和数值研究是针对英语维基百科2017和牛津大学2006的网络进行的。
用精英集团探索小世界网络:将嵌入理论引入风险投资网络的动态演化
原文标题: Exploring Small-World Network with an Elite-Clique: Bringing Embeddedness Theory into the Dynamic Evolution of a Venture Capital Network
地址: http://arxiv.org/abs/1811.07471
作者: Weiwei Gu, Jar-der Luo, Jifan Liu
摘要: 本文使用网络动力学模型来解释具有精英集团的小世界网络的形成。这个网络是一个小世界网络,其中心有一个精英集团,精英也是许多小团体的中心。这些领导者也是不同小组之间的桥梁。网络动态是一个重要的研究课题,因为它们能够解释网络结构的演变。在本文中,中国风险投资(VC)网络是由风险投资公司之间的联合投资编码,然后进行分析,以揭示其网络属性和影响其发展的因素。我们首先建立了一个随机图模型来控制网络规模,网络增长,投资频率和联合趋势等因素。然后我们添加了一个伙伴选择机制,并用两种理论来分析网络结构的形成:关系嵌入和结构嵌入。之后,我们进行了模拟,并将三种模型与实际的中国VC网络进行了比较。为此,我们计算了elite-clique的EI指数,度分布,聚类系数分布和图案。结果表明,增加嵌入性理论可以显著提高网络动态模型的预测能力,帮助我们揭示影响小世界产业网络形成的机制,其中以精英集团为中心。
众包平台的贡献者资料模型化
原文标题: Contributors profile modelization in crowdsourcing platforms
地址: http://arxiv.org/abs/1811.07536
作者: Constance Thierry (DRUID), Jean-Christophe Dubois (DRUID), Yolande Le Gall (DRUID), Arnaud Martin (DRUID)
摘要: 众包包括将任务外部化给一群为执行这些任务而获得报酬的人。人群通常是多样化的,可以包括没有资格和/或任务动机的用户。在本文中,我们将基于信念函数理论在众包平台中引入一种新的用户专业知识模型化方法,以识别认真和合格的用户。
属性网络的离群感知网络嵌入
原文标题: Outlier Aware Network Embedding for Attributed Networks
地址: http://arxiv.org/abs/1811.07609
作者: Sambaran Bandyopadhyay, Lokesh N, M. N. Murty
摘要: 归因网络嵌入受到研究界的极大兴趣,因为大多数网络在每个节点中都有一些内容,这也称为节点属性。当网络在结构和属性上保持一致并且节点按预期运行时,现有的归因网络方法可以很好地工作。但是现实世界的网络通常有异常的节点。通常,这些异常值相对无法解释,会影响网络中其他节点的嵌入。因此,在存在这种异常值的情况下,所有下游网络挖掘任务都会失败。因此,需要一种检测异常并降低其对网络嵌入的整体影响的集成方法。为此,我们为归因网络提出了一种无监督的异常值感知网络嵌入算法(ONE),它最大限度地减少了异常值节点的影响,从而生成了强大的网络嵌入。我们调整并共同优化来自网络结构和属性的损失函数。据我们所知,这是第一种通用网络嵌入方法,它在没有任何监督的情况下结合了归因网络的异常值的影响。我们在公开可用的真实网络上进行了实验,并手动设置了不同类型的异常值,以检查所提算法的性能。结果表明,与最先进的方法相比,我们的方法检测网络异常值具有优越性。我们还考虑网络上的不同下游机器学习应用程序,以显示ONE作为通用网络嵌入技术的效率。源代码可在https://github.com/sambaranban/ONE上获得。
Twitter上基于影响的聚类模型
原文标题: An Influence-based Clustering Model on Twitter
地址: http://arxiv.org/abs/1811.07655
作者: Abbas Ehsanfar, Mo Mansouri
摘要: 本文介绍了一种在社会网络上检测和聚类紧急和病毒主题的时间框架。使用基于用户在社会网络上的行为和来自Twitter API的数据集的聚类方法来探索对发展病毒内容的内源性和外源性影响。通过引入诸如流行度,突发性和相关性得分等指标来讨论结果。结果表明,两类用户对开发内容的特征有明显的区别。
城市系统的空间测度:从熵到分形维数
原文标题: Spatial Measures of Urban Systems: from Entropy to Fractal Dimension
地址: http://arxiv.org/abs/1811.07657
作者: Yanguang Chen, Linshan Huang
摘要: 一种分形维数定义基于广义熵函数。熵和分形维数都可用于表征复杂的空间系统,如城市和地区。尽管熵与分形维数之间存在固有的联系,但它们在城市研究中具有不同的应用范围和方向。本文重点探讨如何利用尺度思想将熵测量转换为分形维数,用于无标度城市现象的空间分析。城市系统被证明是随机预分裂和多重分形系统。分形城市的熵具有两个典型特征。一个是规模依赖。城市系统的熵值总是取决于空间测量的尺度。另一种是熵保护。不同的分形部分具有相同的熵值。因此,熵在理论上不能反映分形城市的空间异质性。如果我们将广义熵转换为多重分形谱,则可以在一定程度上解决尺度依赖性和熵同质性问题,从而进行城市空间分析。规模依赖的本质是城市规模,城市的空间异质性可以通过多重分形来表征。这项研究可能有助于学生描述和理解城市的空间复杂性。
非法过马路中的不确定行为
原文标题: Uncertainty behaviour during illegal road crossing
地址: http://arxiv.org/abs/1811.07700
作者: Marie Pele, Killian Brunet, Anais Dasnon, Mathilde Jay, Anne Regnier, Cedric Sueur
摘要: 涉及行人的道路交通事故在城市中仍然过多,特别是在人行横道上。许多行人在斑马车的红灯处穿过,增加了发生事故的风险,因为他们以及人们对其进行了模仿。一些研究试图了解这些非法道路交叉行为的原因,显示出年龄,性别和文化的影响。本研究旨在了解两个不同国家的不确定行为的原因:法国和日本。道路交叉期间的不确定行为在此被定义为在红灯处的交叉行为期间的行走停止或减速。当行人获得的不同信息之间存在冲突时,尤其是私人信息和社交信息之间存在冲突,就会发生不确定性。这种不确定性行为可以通过加速完成过马路或放弃来实现。我们的研究表明,与法国相比,日本的不确定时间更长。当有人陪伴他们时,日本行人在较长时间内犹豫不决。打电话对不确定时间没有影响。除了加速之外,还有更多的放弃,而且这个速度随着车道的数量而增加。此外,随着已经过马路的行人数量的增加,人们趋向于加速。这项研究证实,行人在道路交叉口追踪社会信息,并在发现错误时犹豫不决,增加了发生事故的风险。了解这一点,可能会提出不同的解决方案,以避免这些无意的非法越境行为。
综合社会联系网络复杂性与现实性的实证评估
原文标题: An Empirical Assessment of the Complexity and Realism of Synthetic Social Contact Networks
地址: http://arxiv.org/abs/1811.07746
作者: Kiran Karra, Samarth Swarup, Justus Graham
摘要: 我们使用多个图复杂度量来评估合成生成的人类活动网络的真实性,与几个程式化的网络模型以及文献中的经验网络集合进行比较。合成网络是通过整合来自多个来源的人口数据生成的,包括人口普查,交通调查和地理数据。由此产生的网络代表了每日或每周人类交互的近似值。我们的结果表明,根据我们的方法,合成生成的图更接近于在多个结构测量中测量的真实世界图,而不是使用文献中的常见网络模型生成的一系列程式化图。
超图的Forman-Ricci曲率
原文标题: Forman-Ricci Curvature for Hypergraphs
地址: http://arxiv.org/abs/1811.07825
作者: Wilmer Leal, Guillermo Restrepo, Peter F. Stadler, Jürgen Jost
摘要: 与基于图的复杂网络模型相比,超图是超出图的二元关系的更一般的结构。对于图表,已经设计了衡量其结构不同方面的统计数据,并且正在进行研究以设计超图。 Forman-Ricci曲率是图的统计量,它基于黎曼几何,并且通过分析边而不是顶点来强调网络中顶点的关系特征。尽管这种曲率有不同的应用,但尚未针对超图制定。在这里,我们为有向和无向超图设计Forman-Ricci曲率,其中曲线的曲率是特定情况。我们报告它的上限和下限以及图情况的相应边界。曲率量化了超边(弧)大小与其他超边(弧)中的超边(弧)顶点的参与程度之间的权衡。我们计算了两个大型网络的曲率:维基百科投票网络和\ emph {Escherichia coli}代谢网络。在第一种情况下,曲率由超边界大小来控制,而在第二种情况下由超边度来控制。我们发现参与维基百科选举的用户数量与有经验的用户的参与密切相关。代谢网络的曲率值允许检测多余和瓶颈反应。发现ADP磷酸化是代谢瓶颈反应,但反向反应不是新陈代谢的核心。
夸大的新闻内容在社交媒体的传播特征
原文标题: Characterizing the spread of exaggerated news content over social media
地址: http://arxiv.org/abs/1811.07853
作者: Jasabanta Patro, Sabyasachee Baruah, Vivek Gupta, Monojit Choudhury, Pawan Goyal, Animesh Mukherjee
摘要: 在本文中,我们考虑一个数据集,其中包括来自英国不同大学的健康研究新闻稿以及相应的新闻文章。首先,我们进行探索性分析,以了解科学期刊上发布的基本信息如何在这些新闻稿或新闻文章中被夸大时被夸大。初步分析显示,一些新闻机构夸大了他们在健康领域发表的文章的近60%;超过50%的某些大学的新闻稿被夸大了;关于生活方式和童年等主题的文章被夸大了。受上述观察的启发,我们设定了本文的中心目标,即调查夸大的新闻如何在Twitter等在线社会网络上传播。 LIWC分析指出了一个显著的观察结果,这些晚期的推文基本上充满了来自意见的词汇,并且实现了类别,这表明,如果有足够的时间,人群的智慧实际上能够分辨出夸张的新闻。作为第二步,我们研究那些从不或很少发布夸张新闻内容的用户的特征,并将其与那些更频繁发布夸张新闻内容的用户进行比较。我们观察到后一类用户每推文转发次数较少或提及次数较少,关注者数量明显增多,使用更多俚语,减少双曲词和减少词汇收缩。我们还观察到LIWC类别如生物,健康,身体和负面情绪在后一类用户发布的推文中更为明显。作为最后一步,我们将这些观察结果用作特征,并自动对两组进行分类,获得0.83的F1分数。
论网络可见性问题
原文标题: On the Network Visibility Problem
地址: http://arxiv.org/abs/1811.07863
作者: Khashayar Gatmiry, Manuel Gomez-Rodriguez
摘要: 社交媒体是一种注意力经济,用户在其追随者的饲料中不断争夺注意力。如果用户的帖子在其关注者的供稿顶部长时间可见,则用户可能会更加关注其关注者及其受众群体的关注度。但是,这取决于其关注者在其Feed中接收信息的速度,而这反过来又取决于其关注者所关注的用户。然后,谁应该跟随谁来最大化每个用户实现的可见性?在本文中,我们使用时间点过程框架表示用户的帖子和提要。在此表示下,问题减少到在拟阵约束下优化非子模块非递减集函数。然后,我们证明set函数满足一个新的属性 \ xi -submodularity,它允许一个简单而有效的贪心算法享受理论保证。特别是,我们证明了贪婪算法提供(1 / \ xi + 1)近似因子,其中 \ xi 是强子模块比率,是我们能够在我们的问题中约束的近似子模块度的新度量。从Twitter收集的合成数据和实际数据的实验表明,我们的贪婪算法能够始终优于多个基线。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。