- 机器学习如何预测社交媒体用户的人口统计特征?;
- 有噪音环境中具有异质节点影响的级联中心性;
- 分析出现模式并从手机数据中分割用户位置;
- 不合作社会的联合促进合作的演变;
- 大规模复杂网络中的高质量不相交和重叠社群结构;
- QuickIM:十亿级网络的高效,准确和鲁棒影响最大化算法;
- 评估多路网络中的多样性;
- HOPF:深度协同分类的高阶传播框架;
- 噪音中的结构:精神错误会产生事件的抽象表征;
- 排名算法在成长网络中的长期影响;
- 从边缘网络社区看模因的起源;
- 融合图卷积网络;
- 改划选区指标的比较;
机器学习如何预测社交媒体用户的人口统计特征?
原文标题: How well can machine learning predict demographics of social media users?
地址: http://arxiv.org/abs/1702.01807
作者: Nina Cesare, Christan Grant, Quynh Nguyen, Hedwig Lee, Elaine O. Nsoesie
摘要: 社交媒体网站和其他数字技术的广泛使用导致数字数据的前所未有的可用性被用于研究跨研究领域的人类行为。尽管在这些平台上提供了不请自来的意见和情绪,但通常会丢失人口统计信息。人口统计学信息在人口统计学和公共卫生等领域具有重要意义,在性别,种族和社会经济群体中存在显著差异。为了解决这个缺点,许多学术研究提出了使用诸如姓名,用户名和网络特征的细节来推断社交媒体用户的人口统计的方法。性别是准确推断的最简单特征,在某些研究中准确性高于90%。种族,民族和年龄因各种原因而预测更具挑战性,包括社交媒体对某些年龄段的新颖性以及种族和族裔群体中用户细节缺乏显著偏差。尽管预测用户人口统计学的努力受到隐私和数据所有权方面的道德问题的困扰,但了解数据样本中的人口统计数据有助于解决偏见和人口代表性问题,从而不会加剧现有的社会不平等现象。
有噪音环境中具有异质节点影响的级联中心性
原文标题: Cascade Centrality with heterogeneous nodal influence in a noisy environment
地址: http://arxiv.org/abs/1805.12204
作者: Yan Leng, Yehonatan Sella, Alex Pentland
摘要: 中心性是网络分析的基本组成部分。现有的中心性测量重点关注网络拓扑,而不考虑节点特性。然而,如果级联收益不与级联的大小单调增长,这种无知是危险的。在本文中,我们提出了一个新的中心性度量Cascade Centrality,它集成了网络位置,扩散过程和节点特征。它嵌套并跨越了程度,特征向量,卡茨和扩散中心性之间的差距。有趣的是,当$ p \ lambda_1> 1 $时,特征向量,Katz和扩散中心性全部塌缩为级联中心性,其中比例因子由特征向量和节点影响向量的分布决定。此外,在社会网络中同态的存在使得对现实世界观察的降噪成为可能。因此,我们提出了一个统一的框架,用迭代学习算法同时学习实际的节点影响矢量和网络结构。综合和实际数据的实验表明,Cascade Centrality在产生级联收益方面优于现有的中心性措施。此外,对于所提出的算法,降噪中心性度量与实际级联中心度之间的相关度高于仅从观测值中计算的度量值。 Cascade Centrality可以捕捉网络中更复杂的行为和过程,并且对病毒式营销和政治活动中影响力最大化和实际应用的理论研究具有重要意义。
分析出现模式并从手机数据中分割用户位置
原文标题: Profiling presence patterns and segmenting user locations from cell phone data
地址: http://arxiv.org/abs/1805.12208
作者: Yan Leng, Haris Koutsopoulos, Jinhua Zhao
摘要: 通勤流量的动态监测对于改善全球快速发展城市的交通系统至关重要。然而,现有的推断通勤起源和目的地的方法不得不依赖大规模的调查数据,这些数据实施本来就很昂贵,或者依赖于呼叫详细记录,但是基于特定的启发式分配规则,这些规则基于给定的出现频率位置。在本文中,我们提出了一种新方法,可以根据通话详细记录中推断的个人时空模式,准确推断通勤流量的起点和目的地。我们的项目显著提高了文献中普遍采用的启发式分配规则的准确性。从一组个人的地理时间旅行模式的历史数据开始,我们为每个人的位置创建一个概率分布向量,捕获该人在特定时间段内出现在该位置的可能性。通过这种方式进行叠加,历史地理时间数据的矩阵使我们能够应用特征分解,并使用无监督机器学习技术来为不同组的旅行者提供跨地点的共同点,最终使我们能够进行推理并创建标签,例如作为家庭和工作,在特定的地点。使用已知位置标签测试真实世界数据的方法表明,我们的方法能够以显著的准确度识别家庭和工作场所,分别改进了文献中最常用的方法79%和34%。最重要的是,我们的方法不会承担任何重大的计算负担,并且易于扩展,并且可以通过历史跟踪轻松扩展到其他实际数据。
不合作社会的联合促进合作的演变
原文标题: Conjoining uncooperative societies facilitates evolution of cooperation
地址: http://arxiv.org/abs/1805.12215
作者: Babak Fotouhi, Naghmeh Momeni, Benjamin Allen, Martin A. Nowak
摘要: 社会结构影响合作的出现和维持。在这里,我们研究了分散社会中合作的演变动态,并且表明,联合分离的合作抑制组织如果做得好,就能拯救集体合作的命运。我们强调组间关系的重要作用,即将社会网络的补丁缝合在一起并促进合作。我们在实际环境中指出了这种现象的几个例子。我们探索随机和非随机图,以及经验网络。在许多情况下,我们发现维持合作所需的关键成本/收益比显著降低。我们的发现带来了希望,即如果管理得当,日益增长的全球互联互通能促进全球合作。
大规模复杂网络中的高质量不相交和重叠社群结构
原文标题: High-Quality Disjoint and Overlapping Community Structure in Large-Scale Complex Networks
地址: http://arxiv.org/abs/1805.12238
作者: Eduar Castrillo, Elizabeth León, Jonatan Gómez
摘要: 在本文中,我们提出了一种在大规模复杂网络中执行不相交社区检测的凝聚层次聚类算法的改进版本。改进后的算法是在替换原始算法中使用的局部结构相似性后,用最近提出的动态结构相似性来实现的。此外,改进的算法扩展到检测模糊和清晰的重叠社区结构。扩展算法利用由其自身生成的不相交社区结构和动态结构相似性度量来计算定义模糊社区的提议的成员概率函数。此外,对参考基准图进行实验性评估,以便将所提出的算法与现有技术进行比较。
QuickIM:十亿级网络的高效,准确和鲁棒影响最大化算法
原文标题: QuickIM: Efficient, Accurate and Robust Influence Maximization Algorithm on Billion-Scale Networks
地址: http://arxiv.org/abs/1805.12320
作者: Rong Zhu, Zhaonian Zou, Yue Han, Sheng Yang, Jianzhong Li
摘要: 影响最大化(IM)问题的目的是在网络中寻找k个种子顶点,从这种影响可以最大程度地扩散到网络中。在本文中,我们提出QuickIM,第一种多用途IM算法,它可以同时获得实用的IM算法的所有理想属性,即高时间效率,良好的结果质量,低内存占用量和高稳健性。在现实世界的社会网络上,QuickIM实现了$ \ Omega(n + m)$时间复杂度下限和$ \ Omega(n)$空间复杂度,其中$ n $和$ m $是顶点和边的数量在网络中,分别。我们的实验评估验证了QuickIM的优越性。首先,QuickIM比现有技术的IM算法快1-3个数量级。其次,除了EasyIM,QuickIM需要比最先进的算法少1-2个数量级的内存。第三,QuickIM总是产生与最先进的算法一样优质的结果。最后,QuickIM的时间和记忆性能与影响概率无关。在包含超过36亿条边的实验中使用的最大网络上,QuickIM能够在不到4分钟的时间内找到数百种有影响力的种子,而所有最先进的算法无法在一个小时内终止。
评估多路网络中的多样性
原文标题: Assessing diversity in multiplex networks
地址: http://arxiv.org/abs/1805.12350
作者: L.C. Carpi, T.A. Schieber, P.M. Pardalos, G. Marfany, C. Masoller, A. Díaz-Guilera, M.G. Ravetti
摘要: 多样性被理解为广泛系统具有的各种不同元素或配置,这是一个关键特性,它允许在不断变化的环境中维护系统的功能,因为在这种环境中,故障,随机事件或恶意攻击往往是不可避免的。尽管在生态学,生物学,交通运输,财政等方面保留了多样性的相关性,但对多样性作出更大贡献的要素或配置往往是未知的,因此它们不能被保护以防止失败或环境危机。这是由于没有通用框架可以确定哪些元素或配置在保持系统多样性方面起着至关重要的作用。现有方法将系统的异质性水平视为其多样性的度量,当系统由大量具有不同属性和不同类型的交互作用的元素组成时,不适用。此外,在资源有限的情况下,需要找到最佳的保存策略,即需要解决优化问题。这里我们旨在通过在标记图之间开发一个度量来计算系统的多样性,从而根据它们对全球多样性价值的贡献来确定最相关的组件。所提出的框架适用于大型多路复用结构,其由一组表示为节点的元素构成,其具有不同类型的交互,表示为层。所提出的方法使我们能够在遗传网络(HIV-1)中找到具有最高多样性价值的元素,而在欧洲的航空公司网络中,我们系统地确定了最大化(以及不那么妥协)的公司连接不同机场的路线选项。
HOPF:深度协同分类的高阶传播框架
原文标题: HOPF: Higher Order Propagation Framework for Deep Collective Classification
地址: http://arxiv.org/abs/1805.12421
作者: Priyesh Vijayan, Yash Chandak, Mitesh M. Khapra, Balaraman Ravindran
摘要: 给定一个图,其中每个节点都有与其相关的某些属性,并且一些节点具有与它们相关联的标签,集合分类(CC)是使用来自节点及其邻居的信息为每个无标签节点分配标签的任务。通常情况下,一个节点不仅受到它的直接邻居的影响,而且受到它的高阶邻居的影响,多跳一跳。 CC最近的最先进模型使用Weisfeiler-Lehman内核的不同变体来聚合多跳邻居信息。然而,在这项工作中,我们表明这些模型遭受节点信息变形的问题,其中当考虑多跳时,节点的信息变形或被其邻居的信息淹没。此外,由于存储器和计算需求随着所考虑的跳数而呈指数增长,所以现有模型不可扩展。为了规避这些问题,我们提出了一种通用的高阶传播框架(HOPF),其包括(i)可微分节点信息保持(NIP)内核和(ii)可扩展的迭代学习和推理机制,用于聚集更大跳跃中的信息。我们使用来自不同领域的11个数据集进行了广泛的评估,并表明,与现有的CC模型不同,我们的NIP模型在所有数据集中都具有强大的迭代推断能力,并且可以以可扩展的方式处理更大的邻域。
噪音中的结构:精神错误会产生事件的抽象表征
原文标题: Structure from noise: Mental errors yield abstract representations of events
地址: http://arxiv.org/abs/1805.12491
作者: Christopher W. Lynn, Ari E. Kahn, Danielle S. Bassett
摘要: 人类善于揭露他们周围世界的复杂关联,但潜在的机制仍然知之甚少。直观地说,学习统计关系的高阶结构应该涉及复杂的心理过程,耗费宝贵的计算资源。在这里我们提出一个相互竞争的观点:高阶协会实际上是由学习中的自然错误引起的。结合信息论和强化学习的思想,我们推导出一种新的最大熵模型,即人们对有序事件序列的转换结构的内部期望。重要的是,我们的模型分析地解释了以前无法解释的网络对人类预期的影响,并定量描述了概率顺序运动任务中的人类反应时间。此外,我们的模型声称,人类的期望应该严格依赖于转换网络中不同的拓扑尺度,这是我们随后在新颖实验中测试和验证的预测。一般来说,我们的结果突出了心理错误在塑造抽象表征中的重要作用,并直接激发了新的人为行为的物理动机模型。
排名算法在成长网络中的长期影响
原文标题: The long-term impact of ranking algorithms in growing networks
地址: http://arxiv.org/abs/1805.12505
作者: Shilun Zhang, Matúš Medo, Linyuan Lü, Manuel Sebastian Mariani
摘要: 当我们在网上搜索内容时,我们经常暴露于排名。例如,网络搜索结果显示为排名,在线书店通常会向我们显示畅销书籍的列表。虽然流行度和基于网络的排名指标如学位和Google的PageRank已在以前的文献中得到广泛研究,但我们仍然缺乏对采用不同排名算法的潜在系统性后果的清晰认识。在这项工作中,我们通过引入网络增长模型填补了这一空白,其中节点获得新连接的可能性取决于其当前的排名位置和其内在质量。该模型使我们能够量化排名算法检测和促进高质量内容的能力,以及由此产生的内容流行度分布的异质性。我们表明,通过纠正排名指标的无所不在的时间偏差,所得到的网络在节点的质量和长期受欢迎度之间展现出明显更大的一致性,以及更大的人气多样性。我们的研究结果将迈向基于模型的流行度度量长期影响的第一步,并可用作设计改进的信息过滤工具的信息工具。
从边缘网络社区看模因的起源
原文标题: On the Origins of Memes by Means of Fringe Web Communities
地址: http://arxiv.org/abs/1805.12512
作者: Savvas Zannettou, Tristan Caulfield, Jeremy Blackburn, Emiliano De Cristofaro, Michael Sirivianos, Gianluca Stringhini, Guillermo Suarez-Tangil
摘要: 互联网模因越来越多地被用来影响和可能操纵公众舆论,从而促使人们研究它们在网络上的传播,演变和影响。在本文中,我们使用基于知觉散列和聚类技术的处理流程以及来自Twitter,Reddit,4chan的Politically Incorrect董事会收集的来自2.6B帖子的160M图像的数据集,检测和测量多个Web社区中的模因的传播/ pol /)和Gab在13个月的过程中。我们将张贴在边网络社区(/ pol /,Gab和The_Donald subreddit)上的图像分组为群集,使用从Know Your Meme获得的meme元数据对它们进行注释,并将来自主流社区(Twitter和Reddit)的图像映射到群集。我们的分析提供了在每个社区范围内流行度和多样性的评估,例如,显示种族主义模因在边网络社区中非常普遍。我们还在主流和边网络社区发现了大量与政治有关的模因,支持媒体报道说模因可能被用来增强或伤害政治家。最后,我们使用霍克斯过程来模拟Web社区之间的相互作用并量化它们的相互影响,发现/ pol /显著影响了模因生态系统和它生成的模因数量,而The_Donald将它们推向其他社区的成功率更高。
融合图卷积网络
原文标题: Fusion Graph Convolutional Networks
地址: http://arxiv.org/abs/1805.12528
作者: Priyesh Vijayan, Yash Chandak, Mitesh M. Khapra, Balaraman Ravindran
摘要: 半监督节点分类涉及学习对给定部分标记图的未标记节点进行分类。在转导式学习中,所有未分类的待分类节点在训练和归纳学习期间均被观察到,预测将针对在训练中未看到的节点进行。在本文中,我们关注属性图中节点分类的这些设置,即节点具有附加功能的图。用于这种属性图的节点分类的最先进的模型使用可微分递归函数。这些可区分的递归函数实现了对来自多跳(深度)的邻域信息进行聚合和过滤。尽管功能强大,但它们能够有效地组合来自不同啤酒花的信息的能力有限。在这项工作中,我们分析了递归图函数在表示能力方面的局限性,以有效捕获多跳邻居信息。此外,我们提供了一个简单的融合组件,它在数学上有动机去解决这个限制,并改进现有的模型以明确地了解来自不同跳跃的信息的重要性。这个提出的机制被证明可以改善8个来自不同领域的流行数据集的现有方法。具体而言,我们的模型改进了图卷积网络(GCN)和Graph SAGE的一个变体,显著提高了竞争力,提供了极具竞争力的最新结果。
改划选区指标的比较
原文标题: A comparison of gerrymandering metrics
地址: http://arxiv.org/abs/1805.12572
作者: Gregory S. Warrington
摘要: 我们比较和对比了为量化党派改划选区目的而提出的12个函数。我们认为这些职能不是检查地区的形状,而是仅利用地区间的党派投票分配:党派偏见;效率差距及其几个变体;平均中值差和等投票权重测量;赤纬和一个变体;和不平衡测试。我们确定哪些历史选举被视为每种措施下最极端的异常值。作为这次考试的一部分,我们强调选举,其中各种措施得出了截然不同的结论。我们还比较了这些措施对一些假设选举的评估。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。