- 最大化影响传播的预算分配离线和在线模型;
- 代表人类语言和人造语言的文本具有本福德和齐普夫法则共现的特征;
- 网络中的社区互动与冲突;
- 人口密度对流行病的影响;
- 子模超图:p-拉普拉斯算子,Cheeger不等式和谱聚类;
- 一种迭代的全局结构辅助标签网络对齐方法;
- 利用众包数据进行深度主动学习 - 应用:学习Alexa的学习内容;
- 分析网络知识组织系统(NKOS)社区成员之间的网络结构和性别差异;
- 从时空熵的演变中发现用户的人口统计数据;
- 基于局部规则传播的社会网络中基于结构的Sybil检测;
- 文化结构的随机矩阵视角;
- 世界各地传统食谱烹饪模式的数据驱动调查;
- 使用FaceNet面部嵌入分类Tinder上的在线约会资料;
- 基于事件的社会网络中的主题社区检测;
最大化影响传播的预算分配离线和在线模型
原文标题: Offline and Online Models of Budget Allocation for Maximizing Influence Spread
地址: http://arxiv.org/abs/1508.01059
作者: Noa Avigdor-Elgrabli, Gideon Blocq, Iftah Gamzu, Ariel Orda
摘要: 近年来,通过口碑传播对社会网络影响传播的研究受到了相当的关注。可以说,这个领域最根本的问题是影响最大化,其目标是确定一个能够触发网络中大量影响的个体的种子集合。虽然在这个问题及其变体方面取得了重大进展,但这些模型的一个基本缺点是缺乏将预算分配给个人的灵活性。事实上,预算分配是广告和病毒式营销的关键问题。从另一个角度来看,允许灵活预算分配的已知模型不考虑网络中的影响传播。我们引入了一个能同时捕获预算和影响传播的广义模型。对于离线设置,我们确定了一个大型的基于预算的传播函数系列,它承认严格的近似保证。这个家族扩展了以前研究过的大部分影响力模型,包括着名的触发模型。我们确定这个家族中的任何函数都意味着一个单个子模函数在整数格上受到背包约束的最大化情况。已知这个问题允许最佳(1-1 / e)近似。我们还研究了多玩家博弈的无政府状态的价格,它扩展了模型并建立了严格的结果。对于在线设置,其中未知的代理子集以随机顺序到达,并且算法需要在每个步骤中进行不可撤销的预算分配,我们开发1 /(15e)竞争算法。这种设置延伸了秘书问题及其变体 - 副模块背包秘书问题。值得注意的是,我们的算法改进了后一个问题的最佳已知近似,尽管它适用于更一般的设置。
代表人类语言和人造语言的文本具有本福德和齐普夫法则共现的特征
原文标题: Co-occurrence of the Benford-like and Zipf Laws Arising from the Texts Representing Human and Artificial Languages
地址: http://arxiv.org/abs/1803.03667
作者: Evgeny Shulzinger, Irina Legchenkova, Edward Bormashenko
摘要: 我们证明代表人类(英语,俄语,乌克兰语)和人造(C ++,Java)语言的大文本显示以Benford-like和Zipf定律为特征的定量模式。 Zipf定律之后的一个单词的频率与其排名成反比,而文本中出现的某个单词的总数会产生不均匀的Benford状分布的前导数字。排除最流行的词基本上改善了实际文本数据与Zipfian分布的相关性,而领先数字的Benford分布(由某个词的总量引起)对相同的删除程序不敏感。人造语言(C ++,Java)的双对数曲线的斜率模数的计算值明显大于人类语言的斜率模数。
网络中的社区互动与冲突
原文标题: Community Interaction and Conflict on the Web
地址: http://arxiv.org/abs/1803.03697
作者: Srijan Kumar, William L. Hamilton, Jure Leskovec, Dan Jurafsky
摘要: 用户通过网络平台将自己组织到社区中。这些社区可以互相交流,经常导致冲突和有毒的相互作用。然而,人们对社区之间的互动机制以及它们如何影响用户的机制知之甚少。在这里,我们研究了Reddit上36,000个社区的社区间互动情况,研究了一个社区的用户被负面情绪动员的情况在另一个社区发表评论的情况。我们表明,这种冲突往往是由少数社区发起---少于1%的社区开始了74%的冲突。尽管冲突往往由高度活跃的社区成员发起,但他们是由活跃程度较低的成员执行的。我们发现冲突的特点是形成了回声室,用户主要与其他社区的用户交谈。从长远来看,冲突会产生不利影响,并减少目标社区用户的整体活动。我们对用户交互的分析也提出了缓解冲突负面影响的策略 - 例如增加攻击者和维护者之间的直接参与。此外,我们通过创建一个结合了图嵌入,用户,社区和文本特征的新型LSTM模型来准确预测是否会发生冲突。此模型可用于为社区版主创建预警系统以防止冲突。总而言之,这项工作提供了一个数据驱动的社区互动和冲突视图,并为更健康的在线社区铺平了道路。
人口密度对流行病的影响
原文标题: Effect of population density on epidemics
地址: http://arxiv.org/abs/1803.03809
作者: Ruiqi Li, Peter Richmond, Bertrand M. Roehner
摘要: 调查人口密度与流行病的传播和严重程度之间可能存在的联系迄今已导致混杂和不能令人信服的结果。这有三个原因。 (一)以前的研究没有集中在适当的密度区间。 (二)密度是一个有意义的变量,人口必须尽可能均匀分配。如果一个地区拥有大部分人口集中的城镇,那么平均密度就没有意义。 (三)在传播流行病时,易感染者的初始比例(即没有获得免疫力的人)是一个重要的但通常未知的因素。大多数人群易感的假设只适用于新型疾病。这将表明,当这些要求得到照顾时,流行病的规模确实与人口密度密切相关。这种经验观察是对经典KMK(Kermack-McKendrick 1927)模型的一个受欢迎的证明。事实上,它的一个关键预测是,流行病的规模与敏感性的初始密度一起强烈地增长(并且以非线性方式)。一个有趣的结果是,与普通信仰相反,在人口稀少的地区,如阿拉斯加,澳大利亚或美国西海岸,当地居民之间的流行病的规模必然受到低密度的限制,即使对于当地人没有免疫力(即易感)。
子模超图:p-拉普拉斯算子,Cheeger不等式和谱聚类
原文标题: Submodular Hypergraphs: p-Laplacians, Cheeger Inequalities and Spectral Clustering
地址: http://arxiv.org/abs/1803.03833
作者: Pan Li, Olgica Milenkovic
摘要: 我们介绍子模块超图,这是一个超图的族,它有不同的子模块权重与不同的超截图切割相关联。子模块超图在聚类应用中出现,其中高阶结构携带相关信息。对于这样的超图,我们定义了p-拉普拉斯算子的概念并导出了相应的节点域定理和k-路Cheeger不等式。我们最后描述了计算构成新谱超图聚类方法基础的1-和2-拉普拉斯算子的谱的算法。
一种迭代的全局结构辅助标签网络对齐方法
原文标题: An Iterative Global Structure-Assisted Labeled Network Aligner
地址: http://arxiv.org/abs/1803.03882
作者: Abdurrahman Yaşar, Ümit V. Çatalyürek
摘要: 集成来自不同来源的数据通常建模为合并图。给定两个或更多“兼容”但非同构图,第一步是确定一个图对齐,其中计算两个图之间顶点的可能部分映射。关于这个问题的文献中很大一部分只考虑了输入图的全局结构。只有更近的那些额外使用顶点和边属性来实现更精确的对齐。但是,这些方法的设计不是为了映射许多现代应用程序中出现的大图。我们提出了一种新的迭代图对齐器gsaNA,它使用图的全局结构来显著减少问题的大小,并将大图与最小的信息损失对齐。具体地说,我们表明,我们提出的技术是非常灵活的,可以用来实现更高的召回率,并且它的数量级比现有技术的当前状态更快。
利用众包数据进行深度主动学习 - 应用:学习Alexa的学习内容
原文标题: Leveraging Crowdsourcing Data For Deep Active Learning - An Application: Learning Intents in Alexa
地址: http://arxiv.org/abs/1803.04223
作者: Jie Yang, Thomas Drake, Andreas Damianou, Yoelle Maarek
摘要: 本文提出了一个通用的贝叶斯框架,使任何深度学习模型能够从目标人群中主动学习。我们的框架继承了贝叶斯深度学习方面的最新进展,并通过考虑有针对性的众包方法扩展了现有工作,其中多位具有未知专业知识的注释员贡献了不受控制的注释量(通常是有限的)。我们的框架利用注释中的低级结构来学习单独的注释器专业知识,从而有助于从嘈杂和稀疏的注释中推断出真实的标签。它提供了一个统一的贝叶斯模型来同时推断真实的标签并训练深度学习模型以达到最佳的学习效果。最后,我们的框架利用了预测期间深度学习模型的不确定性以及注释者估计的专业知识,以最小化需要的注释和注释器的数量来优化深度学习模型的训练。我们使用合成和真实世界的数据集评估我们的Alexa意图分类框架(亚马逊的个人助理)的有效性。实验表明,与最先进的方法相比,我们的框架可以准确地学习注释器专业知识,推断真实标签,并有效减少模型培训中注释的数量。我们进一步讨论了我们提出的框架将机器学习和众包连接起来以改善人类在环系统的潜力。
分析网络知识组织系统(NKOS)社区成员之间的网络结构和性别差异
原文标题: Analyzing the network structure and gender differences among the members of the Networked Knowledge Organization Systems (NKOS) community
地址: http://arxiv.org/abs/1803.04225
作者: Fariba Karimi, Philipp Mayr, Fakhri Momeni
摘要: 在本文中,我们从网络分析的角度分析了网络知识组织系统(NKOS)社区在2000年至2016年期间的主要研究成果。我们专注于在欧洲和美国NKOS研讨会上发表的论文以及过去16年来关于NKOS的四个特别问题。为此,我们创建了一个开放的数据集,即“NKOS参考书目”,它涵盖了研究成果的书目信息。我们分析了这个社区的共同作者网络,共有123篇论文,共256位作者。我们使用标准的网络分析方法,如度,中介度和亲密度中心度来描述NKOS数据集的共同作者网络。首先,我们研究网络的整体属性随着时间的推移。其次,我们分析了作者在NKOS网络中的中心地位。最后,我们调查此社区中协作行为的性别差异。我们的研究结果表明,除了学者的中心性度量差异之外,他们更倾向于与同一机构或相同地理邻近度的人进行合作。我们也发现这个社区中女性的同性恋比例更高。除了男性和女性之间亲密度和聚集度的微小差异之外,我们没有发现其他中心位置有任何显著差异。
从时空熵的演变中发现用户的人口统计数据
原文标题: Discovering demographic data of users from the evolution of their spatio-temporal entropy
地址: http://arxiv.org/abs/1803.04240
作者: Arielle Moro, Benoît Garbinato, Valérie Chavez-Demoulin
摘要: 推断与用户有关的信息能够极大地提高许多移动服务的质量。例如,了解用户的人口特征可以使服务显示更准确的信息。根据文献,各种作品都提供了检测它们的模型,但据我们所知,没有人使用时空熵,并且在此背景下引入了广义相加模型(GAMs)来实现这一目标。在这个前期工作中,我们提出了一个新的方法,包括这两个关键要素。时空熵能够捕捉用户的移动行为的规律性,而GAM可以基于包括时空熵在内的多个协变量来预测她的人口统计数据。初步结果对未来的工作非常令人鼓舞,因为我们对预测用户工作情况的预测准确率达到了87%。
基于局部规则传播的社会网络中基于结构的Sybil检测
原文标题: Structure-based Sybil Detection in Social Networks via Local Rule-based Propagation
地址: http://arxiv.org/abs/1803.04321
作者: Binghui Wang, Jinyuan Jia, Le Zhang, Neil Zhenqiang Gong
摘要: 社会网络中的Sybil检测是一个基本的安全研究问题。已经证明基于结构的方法在检测Sybils方面很有前景。现有的基于结构的方法可以分为基于随机游走(RW)的方法和基于循环信道传播(LBP)的方法。基于RW的方法不能同时利用带标签的Sybils和带标签的良性用户,这限制了它们的检测准确性,和/或它们对于嘈杂的标签不健壮。基于LBP的方法不可扩展,不能保证收敛。在这项工作中,我们提出了SybilSCAR,一种基于结构的新方法来检测社会网络中的Sybils。 SybilSCAR具有可扩展性,收敛性,准确性和鲁棒性,可标记噪声。我们首先提出一个框架来统一基于RW和LBP的方法。在我们的框架下,这些方法可以被看作是迭代地对每个用户应用(不同的)本地规则,从而在社交图中传播标签信息。其次,我们设计了一个新的本地规则,SybilSCAR迭代地应用于每个用户来检测Sybils。我们将SybilSCAR与基于RW和LBP的最新方法进行理论和实证对比。理论上,我们证明,通过适当的参数设置,SybilSCAR对Sybils的数量比现有的基于结构的方法有更严格的渐近界限,这些Sybils被错误地接受到社会网络中。经验上,我们使用合成的Sybils和具有真正Sybils的大型Twitter数据集(41.7M节点和1.2B边)进行评估。我们的结果表明:1)与现有的基于RW的方法相比,SybilSCAR标记噪声更加准确和更强大; 2)SybilSCAR比基于最先进的基于LBP的方法更准确,并且可扩展一个数量级。
文化结构的随机矩阵视角
原文标题: A random matrix perspective of cultural structure
地址: http://arxiv.org/abs/1803.04324
作者: Alexandru-Ionuţ Băbeanu
摘要: 最近的研究突出了经验文化状态的有趣结构特性。这种状态是真实个体的文化特征向量的集合,基于这个向量定义了个体之间相似性的矩阵。本研究利用随机矩阵理论提供了关于这些状态下编码结构的进一步见解。为了生成适合作为无结构参考的随机矩阵,我们提出了一个空模型,平均强制每个可能特征的经验出现频率。对于这个零模型,经验相似矩阵显示偏离特征值,这可能是文化团体的签名,可能无法通过其他方式识别。然而,它们也可能是文化变量之间任意的,与数据集相关的文物。为了理解这种可能性,独立于任何经验信息,我们研究了一个玩具模型,它以最简单的可想象的方式以最小偏差的方式明确地强化了指定的关联水平。同时,第二个玩具模型用于以非常相似的方式明确强制执行群体结构。通过分析和比较这些玩具模型产生的文化状态,我们发现偏离的特征值,例如那些观察到的经验数据,也可以通过单独的相关性来诱导。通过评估各个特征向量条目的一致性,同时检查这种均匀性是否与空模型在统计上兼容,仍然可以将这种“假”组模式与“真实”组模式区分开来。对于经验数据,所有偏离特征值的特征向量一致性表明与零模型相容,表明明显的群体结构不是真实的,尽管决定性的陈述需要进一步的研究。
世界各地传统食谱烹饪模式的数据驱动调查
原文标题: Data-driven investigations of culinary patterns in traditional recipes across the world
地址: http://arxiv.org/abs/1803.04343
作者: Navjot Singh, Ganesh Bagler
摘要: 世界各地的文化已经获得了反映在传统配方组合中的独特烹饪实践。数据驱动的分析有可能提供食谱结构和烹饪组织原则的有趣见解。我们提供来自全球22个地区的45772种传统食谱的策划汇编。我们将这些资源与来自天然成分的风味分子数据结合使用,实施了数据驱动的调查,以探索这些食谱中的风味配对模式。我们的分析揭示了非随机的食谱组合物,其特征是具有“均匀”或“对比”风味混合,并且确定成分的普及作为所有烹饪中的关键促成因素。因此,我们提供了一个数据驱动的食谱烹饪模式调查框架,可用于食品设计应用,产生新颖的调味配对和调整食谱以改善营养和健康状况。
使用FaceNet面部嵌入分类Tinder上的在线约会资料
原文标题: Classifying Online Dating Profiles on Tinder using FaceNet Facial Embeddings
地址: http://arxiv.org/abs/1803.04347
作者: Charles F Jekel, Raphael T. Haftka
摘要: 基于用户的历史偏好,提出了一种生成个性化分类模型以自动审查Tinder的在线约会简档的方法。该方法利用FaceNet脸部分类模型来提取可能与面部吸引力有关的特征。来自FaceNet模型的嵌入被用作描述个人脸部的特征。一位用户查看了8,545个在线约会个人资料。对于每个审查的在线约会个人资料,一个功能集是从包含一张脸的个人资料图像中构建的。提出了两种方法从每个面的特征集到一组轮廓特征。对来自20个配置文件的嵌入进行简单的逻辑回归训练可以获得65%的验证准确度。发现边际收益递减的点大约发生在80个配置文件中,其中73%的模型准确性只有在审查了大量额外配置文件后才略有改善。
基于事件的社会网络中的主题社区检测
原文标题: Topical Community Detection in Event-based Social Network
地址: http://arxiv.org/abs/1803.04354
作者: Houda Khrouf, Raphaël Troncy
摘要: 基于事件的服务最近见证了快速增长,这推动了人们探索和分享感兴趣信息的方式。他们承载了大量的用户活动,包括显式回复,共享照片,评论和社交联系。利用这些活动来检测类似用户的社区是一个具有挑战性的问题。事实上,基于事件的社会网络(ESBN)中的一个社区是一组用户,不仅分享常见事件和朋友,而且具有相似的主题兴趣。然而,现有的大多数方法主要依靠网络中的链路分析,这样的社区是无法检测到的。为了解决这个问题,需要利用共享对象的语义和结构属性,并产生重叠的社区而不是不相交的社区。在本文中,我们建议利用用户围绕事件的活动,旨在基于局部聚类和链接分析来检测社区,从而最大化语义模块化的新形式。我们特别强调在线和离线社交互动的差异,以及事件类别对社区发现的影响。在真实数据集上的实验结果表明,与现有技术方法相比,我们的方法能够检测语义上有意义的社区。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。