- SentiBubbles:主题建模和以实体为中心的Tweets的情感可视化;
- 马尔可夫链监测;
- SAVITR:紧急情况下微博实时定位系统;
- 网络社区的一般定义及其检测算法;
- 说服敏感性可变时的意见动态;
- 语言分形动态驱动的超流扩散的经验观察:已流行词的词频的动态统计特性;
- 使用信息检索和网络聚类技术来理解新闻故事链;
- 多重网络中心度量的新框架;
- 在加泰罗尼亚,加泰罗尼亚语和西班牙语是否可以共存?;
SentiBubbles:主题建模和以实体为中心的Tweets的情感可视化
原文标题: SentiBubbles: Topic Modeling and Sentiment Visualization of Entity-centric Tweets
地址: http://arxiv.org/abs/1607.00167
作者: João Oliveira, Mike Pinto, Pedro Saleiro, Jorge Teixeira
摘要: 社交媒体用户在对新闻事件作出反应时倾向于提及实体。这项工作的主要目的是每天创建以实体为中心的推文聚合。通过应用主题建模和情感分析,我们从实体为中心的角度创建关于当前事件和人们对这些事件的反应的数据可视化见解。
马尔可夫链监测
原文标题: Markov Chain Monitoring
地址: http://arxiv.org/abs/1801.07722
作者: Harshal A. Chaudhari, Michael Mathioudakis, Evimaria Terzi
摘要: 在网络应用中,人们通常希望获得关于网络不同部分的对象数目的估计(例如,道路网络的交叉点处的汽车数目或预期到达计算机网络中的节点的分组数目)通过监视少量网络节点或边的流量。我们通过定义“马尔可夫链监控”问题来正式确定这一任务。给定一个马尔可夫链节点上的项目的初始分布,我们希望在随后的时间估计项目的分布。我们通过询问有限数量的查询来实现这一点,例如,检索在特定时间转换到特定节点或特定边的项目数量。我们考虑不同类型的查询,每个查询定义了马尔可夫链监控的不同变体。对于每个变体,我们设计高效的算法来选择使我们的估计尽可能准确的查询。在我们对合成和真实数据集的实验中,我们演示了我们的算法在多种设置中的效率和效率。
SAVITR:紧急情况下微博实时定位系统
原文标题: SAVITR: A System for Real-time Location Extraction from Microblogs during Emergencies
地址: http://arxiv.org/abs/1801.07757
作者: Ritam Dutt, Kaustubh Hiware, Avijit Ghosh, Rameshwar Bhaskaran
摘要: 我们提供SAVITR,这是一个利用Twitter微博上发布的信息来监控和分析紧急情况的系统。由于只有很小比例的微博被地理标记,因此这样的系统从微博文本中提取位置是非常重要的。我们采用自然语言处理技术,以无人监督的方式推断微博文本中提及的地点,并将其显示在基于地图的界面上。该系统设计用于高效的性能,实现0.79的F-分数,并且比用于位置提取的其他可用工具快大约两个数量级。
网络社区的一般定义及其检测算法
原文标题: A General Definition of Network Communities and the Corresponding Detection Algorithm
地址: http://arxiv.org/abs/1801.07783
作者: Haoye Lu, Amiya Nayak
摘要: 网络结构由节点和边组成,几乎在所有主题中都有应用。在内部强连接的节点集称为社区。行业(包括手机运营商和在线社交媒体公司)需要社区结构来分配网络资源并提供适当的客户服务。但是,所有的社区检测方法都是通过解决一些具体的问题来激发的,而其他领域的适用性是值得商榷的。因此,面对一个新的社区问题,研究人员需要专门的算法,这是费时,甚至是不必要的。在本文中,我们代表了一个在具体问题中找到社区结构的一般程序。我们主要关注两种典型的网络:传输网络和相似性网络。我们将它们归结为一个统一的图模型,基于此我们提出了一个定义和检测社区的一般方法。读者可以专门研究我们的通用算法来解决他们的问题。最后,我们还演示了算法的工作原理。
说服敏感性可变时的意见动态
原文标题: Opinion Dynamics with Varying Susceptibility to Persuasion
地址: http://arxiv.org/abs/1801.07863
作者: Rediet Abebe, Jon Kleinberg, David Parkes, Charalampos E. Tsourakakis
摘要: 社会心理学的一大部分工作是研究人们对说服的敏感性 - 他们愿意在某个主题上修改自己的观点的程度。这个文献体系对网络中相互作用的各方的意见形成理论模型提出了一个有趣的观点:除了考虑直接修改人们内在观点的干预之外,考虑改变人们对说服的易感性的干预也是自然的。在这项工作中,我们采取了流行的社会舆论动态模型,我们将意见最大化和最小化的问题形式化,在易感性层面进行干预。我们表明,模拟干预在易感性水平导致一个有趣的网络舆论动态的新问题家庭。我们发现问题是不同的,取决于总体预算是否限制了我们可以指定的代理人数量。我们给出一个多项式时间算法来寻找最优的目标集合,以便在对目标集合的大小没有预算限制的情况下优化观点的总和。我们证明,在有预算的情况下,这个问题是NP难的,目标函数既不是子模块,也不是超模块。最后,我们提出了一个启发式的预算意见优化,并展示了它的功效,以找到目标集,优化在真实世界网络上比较的意见总和,包括带有真实意见估计的Twitter网络。
语言分形动态驱动的超流扩散的经验观察:已流行词的词频的动态统计特性
原文标题: Empirical observations of ultraslow diffusion driven by the fractional dynamics in languages: Dynamical statistical properties of word counts of already popular words
地址: http://arxiv.org/abs/1801.07948
作者: Hayafumi Watanabe
摘要: 超流扩散(即对数扩散)理论上已被广泛研究,但几乎没有经验地观察到。本文首先通过分析三个不同的全国性语言数据库(i)报纸文章(日文),(ii)博客文章(日文),发现已流行词的时间序列的超类似扩散,(iii)维基百科页面(英文,法文,中文和日文)。其次,我们用理论分析的方法证明这个扩散基本上是用指数为$ \ beta \ approx 0.5 $的幂律遗忘随机游走模型来解释的,这与分数朗之万方程有关。指数$ \ beta $表示遗忘的速度,$ \ beta \ approx 0.5 $对应于(i)静止和非静止之间的边界(或阈值)和(ii) $ \ beta = 1 $的IID噪声和$ \ beta = 0 $的正态随机游走。再次,已经流行的单词的字数时间序列的生成模型(这是一种用上述随机游走模型采样的泊松参数的泊松过程)几乎可以再现经验均方差位移还有功率谱密度和概率密度函数。
使用信息检索和网络聚类技术来理解新闻故事链
原文标题: Understanding news story chains using information retrieval and network clustering techniques
地址: http://arxiv.org/abs/1801.07988
作者: Tom Nicholls, Jonathan Bright
摘要: 新闻报道的内容分析(无论是手动还是自动)是交流研究领域的基石。然而,尽管新闻事件(特别是重要事件)经常被新闻媒体以“故事”的形式表现出来:从不同角度报道同一事件的相关文章链,但是在个别新闻文章层面进行了大量研究。这些故事在增加公众对新闻事件的回忆和提高新闻媒体的议程设置力量方面在理论上是非常重要的。然而到目前为止,该领域还缺乏一种有效的方法来检测形成故事的文章群,从而能够进行分析。在这项工作中,我们提出了一种新颖的自动化方法,用于从文章的语料库中识别链接的新闻报道。这种方法利用信息检索领域的技术来识别文章对的文本紧密度,然后利用网络分析领域中的聚类技术将这些文章分组成文章。我们演示了该方法在61,864篇文章的语料库中的应用,并展示了它如何有效地识别语料库中有效的故事集群。我们用结果来观察英国新闻媒体中的故事发生率和动态,显示新闻的产生超过50%发生在故事中。
多重网络中心度量的新框架
原文标题: A New Framework for Centrality Measures in Multiplex Networks
地址: http://arxiv.org/abs/1801.08026
作者: Carlo Spatocco, Giovanni Stilo, Carlotta Domeniconi, Giovanni Stilo
摘要: 这种复杂系统的非平凡结构使得对集体行为的分析成为一种挑战。当信息跨网络(例如,不同媒体中的通信网络)分布时,问题更加困难;在这种情况下,如果由于稀疏性而在每个网络内分别分析情况,则不可能具有完整的或甚至部分的图像。复用网络非常适合通过保留与每个网络相关的语义来模拟这种系统的复杂性。中心性度量是确定关键参与者的基础,但现有方法通常被设计为捕获系统的预定义方面,忽略或合并单个层次的语义。为了克服上述限制,我们提出了一个定制多路复用网络中心度量的框架(TaCMM),它提供了一个灵活的方法,包含和推广了以前的方法。 TaCMM的优势在于能够对复用网络的子网之间的特定依赖关系进行编码,以定义语义感知中心度度量。我们基于Perron-Frobenius理论开发了一种理论上合理的迭代方法,该方法在高稀疏度条件下也是有效的。我们正式和实验证明了它对排序计算的收敛性。我们针对在多路复用网络中使用不同类型子网的现有技术提供了一个彻底的调查。结果清楚地表明了拟议框架的力量和灵活性。
在加泰罗尼亚,加泰罗尼亚语和西班牙语是否可以共存?
原文标题: Is the coexistence of Catalan and Spanish possible in Catalonia?
地址: http://arxiv.org/abs/1801.08117
作者: Luís F. Seoane, Xaquín Loredo, Henrique Monteagudo, Jorge Mira
摘要: 我们研究加泰罗尼亚(西班牙东北部)两个共存语言(加泰罗尼亚语和西班牙语)的稳定性,这个欧洲地区是政治和经济领域的重要国家。我们的分析依赖于在人口动态分析模型中研究的近期丰富的经验数据。这种模式考虑到长期语言共存或灭绝的可能性。我们确定最可能的情况是持续的共存。这些数据需要在不同的情况下进行解释,其中一些导致所涉及语言之一的渐近消失。我们划定可能发生的情况。作为复杂社会系统的预测,渐近行为通常是不现实的,因此我们试图预测发言者趋向于$ 2030 $。这些也说明了两种语言之间持续的共存,但是对于加泰罗尼亚语可能会失去一大部分发言者的极端情况而言,一些违反直觉的动态被揭露。作为一个中间步骤,获得模型参数,传达有关人口所感知舌头的声望和语言间相似性的相关信息。这是第一次对这些语言进行严格的量化。值得注意的是,西班牙语被发现在历史上有更大的加泰罗尼亚语单语者社区的地区有更大的威望。有限的,空间分隔的数据使我们能够检查更细粒度的动力学,从而更好地解决可能的共存或灭绝。各地区模式参数的变化是关于在更多的城市或农村环境中如何感知两种语言的信息。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。