- 向量空间模型作为文本分类的认知空间;
- 基于流和批数据语义的社交媒体分析;
- 用结构和动态信息预测个体之间的相互作用;
- 学习电影,演员和文学角色的联合高斯表示法;
- 从社交媒体数据中自动推断人的特质和行为;
- 仇恨Lingo:基于目标的社交媒体仇恨言语分析;
- Cashtag捎带:在Twitter上发现股票微博的垃圾邮件和机器人活动;
- 我会在你身边:一个团中的六个朋友;
- FIFA和UEFA比赛预选赛的策略证明;
- 社会推广员评分(SPS)和评论网络:一种预测网上购物品牌财务状况的方法和工具;
- 用于本地网络社区检测的生成模型;
- 潜在几何启发的图不相似性增强了复杂网络中的亲和性传播群落检测;
- 个性化的模糊过程;
- 一种新的图生成统计模型:潜在序逻辑(LOLOG)模型;
- 对等仇恨:仇恨言论煽动者及其目标;
向量空间模型作为文本分类的认知空间
原文标题: Vector Space Model as Cognitive Space for Text Classification
地址: http://arxiv.org/abs/1708.06068
作者: Barathi Ganesh HB, Anand Kumar M, Soman KP
摘要: 在这个数字化时代,了解用户的社交方面已经成为构建用户特定推荐系统的基本特征。可以通过在社交媒体和评论中以文本形式挖掘用户的语言共享来发现这些社交选择方面。本文介绍了在PAN Author Profiling 2017共享任务中执行的实验。任务的目标是从用户的推文中找出用户的社交方面。在这个实验中考虑的社会因素方面是用户的性别和母语信息。在这里,用与母语不同的语言编写的用户推文表示为以文档频率为约束条件的文档 - 术语矩阵。使用支持向量机进行进一步的分类,将性别和母语作为目标类别。本次实验的性别预测平均准确率为73.42%,本土语言识别任务平均准确率为76.26%。
基于流和批数据语义的社交媒体分析
原文标题: Social Media Analysis based on Semanticity of Streaming and Batch Data
地址: http://arxiv.org/abs/1801.01102
作者: Barathi Ganesh HB
摘要: 不同地区的人们所分享的语言根据其口音,发音和词语用法而有所不同。在这个时代,语言共享主要通过社交媒体和博客进行。为了从中提取知识,存在这样一个微型帖子的每一秒摆动,这导致需要处理这些微型帖子。知识提取在认知科学研究为同样的需要提供必需品的应用方面有所不同。这项工作通过在名称实体识别和作者概况分析等应用程序中提取流和批处理数据的语义信息,进一步推进这项研究。在命名实体识别的情况下,利用了单个微型帖子的背景,并利用了位于微型帖子池中的背景来确定这些微型帖子作者的社会选择方面。在这项工作中,条件随机场已经被用来进行实体识别,并且已经提出了一种新颖的方法来找到作者的社会学方面(性别,年龄组)。
用结构和动态信息预测个体之间的相互作用
原文标题: Predicting interactions between individuals with structural and dynamical information
地址: http://arxiv.org/abs/1804.01465
作者: Thibaud Arnoux, Lionel Tabourier, Matthieu Latapy
摘要: 捕获交互的结构和时间方面对许多真实世界的数据集非常重要,例如个人之间的联系。我们使用链接流形式来捕获系统的动态,我们解决链接流中活动预测的问题,也就是说预测给定时间段内发生的链接数量,并提出一个利用时间和结构信息包含在链接流中。使用监督式学习方法,我们能够对我们系统的动态进行建模以改进预测。我们调查我们的算法的行为和影响预测的关键因素。通过引入不同类别的节点对,我们可以提高质量并增加预测的多样性。
学习电影,演员和文学角色的联合高斯表示法
原文标题: Learning Joint Gaussian Representations for Movies, Actors, and Literary Characters
地址: http://arxiv.org/abs/1804.04164
作者: Hannah Kim, Denys Katerenchuk, Daniel Billet, Haesun Park, Boyang Li
摘要: 对叙事内容的理解已成为越来越受欢迎的话题。然而,由于文本,事件,人物类型和流派等多重叙述方面的影响紧密交织,故叙事语义构成了困难的挑战。我们提出了一个联合表示学习框架,用于将演员,文学角色,电影,流派和描述性关键词嵌入到高斯均值上作为高斯分布和平移向量。高斯方差自然对应演员的多功能性,这是行动的中心概念。我们对演员多功能性的估计与65.95%的领域专家的排名一致。据我们所知,这是估计这种语义概念的第一种计算技术。此外,该模型在预测演员投选选择上大大优于TransE基准。
从社交媒体数据中自动推断人的特质和行为
原文标题: Automatically Infer Human Traits and Behavior from Social Media Data
地址: http://arxiv.org/abs/1804.04191
作者: Shimei Pan, Tao Ding
摘要: 考虑到人类头脑的复杂性和他们的行为灵活性,它需要复杂的数据分析来筛选大量的人类行为证据来模拟人类头脑并预测人类行为。人们目前在Twitter和Facebook等社交媒体上花费大量时间。因此,他们的生活和行为的许多方面都被数字化地捕捉并不断存档在这些平台上。这使得社交媒体成为大量丰富多样的人类行为证据的重要来源。在本文中,我们调查了最近应用机器学习从社交媒体数据推断人类特征和行为的工作。我们也会指出几个未来的研究方向。
仇恨Lingo:基于目标的社交媒体仇恨言语分析
原文标题: Hate Lingo: A Target-based Linguistic Analysis of Hate Speech in Social Media
地址: http://arxiv.org/abs/1804.04257
作者: Mai ElSherief, Vivek Kulkarni, Dana Nguyen, William Yang Wang, Elizabeth Belding
摘要: 虽然社交媒体赋予言论自由和个人声音自由,但它也可以实现反社会行为,网上骚扰,网络欺凌和仇恨言论。在本文中,我们通过关注仇恨言论的一个很大程度上被忽视但至关重要的方面来加深我们对在线仇恨言论的理解 - 其目标:或者是针对特定的个人或实体,或者是“泛化”为一群人分享一个共同的保护特性。我们对这两种形式的仇恨言论进行了第一次语言学和心理语言学分析,并揭示了区分这些仇恨言论类型的有趣标记的存在。我们的分析表明,有向仇恨言论除了更个人化和更直接,更加非正式,更加愤怒,并且通常会用更少的分析词汇和更多的话来建议权威和影响力,从而明确地攻击目标(通过名称调用)。另一方面,广义的仇恨言论则以宗教仇恨为主,其特点是使用杀人,杀灭和杀戮等致命词汇;和数量等字如百万和许多。总之,我们的工作提供了一个数据驱动的分析网上仇恨言论的细微差别,不仅能够加深对仇恨言论及其社会影响的理解,而且能够发现它。
Cashtag捎带:在Twitter上发现股票微博的垃圾邮件和机器人活动
原文标题: Cashtag piggybacking: uncovering spam and bot activity in stock microblogs on Twitter
地址: http://arxiv.org/abs/1804.04406
作者: Stefano Cresci, Fabrizio Lillo, Daniele Regoli, Serena Tardelli, Maurizio Tesconi
摘要: 微博日益被用于预测金融市场中股票的价格和交易量。然而,已经证明,微博平台中共享的大部分内容是由机器人和垃圾邮件发送者创建和公布的。然而,以前从未系统地研究过假冒股票微博的存在(或缺乏)以及影响。在这里,我们研究了与美国5个主要金融市场股票相关的9M条推文。通过比较推文和Google财经的财务数据,我们强调了Twitter股票微博的重要特征。更重要的是,我们发现了一些机器人协作组织所实施的恶意做法,并可能通过利用高价值机器的普及来促进低价值股票。我们的研究结果要求在利用用户生成的内容来预测股票市场的所有研究和应用中采用垃圾邮件和机器人检测技术。
我会在你身边:一个团中的六个朋友
原文标题: I will be there for you: six friends in a clique
地址: http://arxiv.org/abs/1804.04408
作者: Ana L. C. Bazzan
摘要: 网络科学在分析几个领域的社会网络的结构和动态方面已被证明是有用的。本文旨在分析着名情景喜剧“朋友”中人物的关系。特别是,不仅研究静态结构和因果关系,而且还研究时间方面。毕竟,这个节目被播出了十年,因此角色和角色之间的友谊模式似乎已经改变。此外,这部情景喜剧经常与区分事实相关联,例如:所有六个角色同样显著;它没有占统治地位的故事情节;和作为代孕家庭的友谊。本文使用网络理论中的工具来检查这些和其他事实是否可以被量化和证明是正确的,特别是考虑到时间方面,即情景喜剧随着时间发生了什么。主要研究结果是:表示表演不同时间片变化的图表模式;总的来说,六个朋友的程度确实差不多;然而,在不同的情况下(如图),度数中心性的大小确实会改变;中介中心性对于每个角色显著不同,因此一些角色比其他角色更好;六位朋友和其他角色的度数差异很大,这表明了一个集中式网络;有强烈的迹象表明,这六位朋友是家庭的一部分。
FIFA和UEFA比赛预选赛的策略证明
原文标题: The strategy-proofness of FIFA and UEFA tournament qualifiers
地址: http://arxiv.org/abs/1804.04422
作者: László Csató
摘要: 比赛组织者应该设计一些规则,这样一个团队不会因为努力工作而变得更好。据显示,2018年FIFA世界杯的欧洲资格赛在这个意义上说并不符合策略:在小组赛中赢得最后一场比赛的队伍可能会被淘汰,而通过抽签前提是所有其他结果保持不变。这种情况可能发生在2017年10月,所有比赛的五分之四已经打完。提出了一个理论模型,并确定了最近FIFA世界杯和欧洲联盟锦标赛的九个激励不相容的预选赛。我们建议一个公平的机制,以防止在类似的基于群体的资格制度中操纵。
社会推广员评分(SPS)和评论网络:一种预测网上购物品牌财务状况的方法和工具
原文标题: Social Promoter Score (SPS) and Review Network: A Method and a Tool for Predicting Financial Health of an Online Shopping Brand
地址: http://arxiv.org/abs/1804.04464
作者: Supriyo Mandal, Abyayananda Maiti
摘要: 总结网上购物品牌产品的客户评论评级或情绪的传统方式不足以评估该品牌的财务状况。它忽视了个人客户的社会地位和影响力。在本文中,我们提出了一个名为Review Network的工具,用于衡量Amazon.com等在线商品网站的客户影响力。利用这种衡量的影响力,我们提出了一种方法,根据他们的评级和从在线商品网站收集的评论情绪来评估品牌顾客的忠诚度。一个品牌的评论网络是根据该品牌中节点是顾客的所有产品的所有评论构建的,并且如果顾客成为另一个顾客编写的评论的潜在读者,则创建边。顾客在该评论网络中的中心地位代表了她的影响力。我们提出的方法被称为社会推动者分数,它结合了品牌所有客户的忠诚度和中心性。我们已经将我们的方法与基于Net Promoter Score概念的基准方法进行了比较。我们已经在亚马逊网站上应用社交推广者评分评估了一些知名品牌的数据集。结果显示,社会推动者分数预测未来销售额的品牌财务状况比基准方法好得多。我们已经注意到,社交促销员分数的总体影响反映了在一到五个月内的产品销售情况。
用于本地网络社区检测的生成模型
原文标题: Generative models for local network community detection
地址: http://arxiv.org/abs/1804.04469
作者: Twan van Laarhoven
摘要: 本地网络社区检测旨在在大型网络中查找单个社区,同时只检查给定种子节点周围的一小部分网络。这比找到网络中的所有社区便宜得多。大多数用于本地社区检测的方法都被制定为特别优化问题。在这项工作中,我们从具有社区结构的网络的生成模型开始。通过假设网络是统一的,我们可以近似网络中未被观察的部分的结构,以获得用于本地社区检测的方法。我们将这种局部逼近技术应用于随机块模型的两个变体。据我们所知,这导致了第一个基于概率模型的本地社区检测方法。有趣的是,在极限中,拟议的近似值之一对应于电导,这是该领域常用的度量。与最先进的本地社区检测算法相比,真实和合成数据集上的实验显示出可比或改进的结果。
潜在几何启发的图不相似性增强了复杂网络中的亲和性传播群落检测
原文标题: Latent Geometry Inspired Graph Dissimilarities Enhance Affinity Propagation Community Detection in Complex Networks
地址: http://arxiv.org/abs/1804.04566
作者: Carlo Vittorio Cannistraci, Alessandro Muscoloni
摘要: 亲和性传播是高维特征空间中数据聚类最有效的算法之一。然而,在真实的复杂网络中测试其社区检测性能的众多尝试已经取得了非常远离Infomap和Louvain等现有技术方法的结果。然而,所有这些研究一致认为,关键问题是将网络拓扑转换为“足够智能”的不相似矩阵,能够正确解决亲和传播聚类背后的消息传递过程。在这里我们讨论如何利用网络潜在几何概念来设计亲缘传播社区检测的不相似矩阵。我们的研究结果表明,我们设计的不相似性度量带来的亲和力传播优于现有的社区检测方法,不仅在几个原始的真实网络上,而且当它们的结构被人为地由缺失或虚假连接引起的噪声破坏时。
个性化的模糊过程
原文标题: A fuzzy process of individuation
地址: http://arxiv.org/abs/1804.04568
作者: Juliano C. S. Neves
摘要: 它表明,个性化过程的一个方面可以被认为是一个模糊集合。个体化过程被解释为哲学史上的一个二值问题。在这项工作中,我打算表明,这个过程在心理社会方面可以更好地理解为一个模糊集合,其特征是一个连续的隶属函数。根据这种观点,物种及其成员呈现出不同程度的个性和归属感。这种程度是从个体化的社会心理过程的隶属函数来衡量的。因此,通过在人类社会中使用这种方法建议进行社会分析。
一种新的图生成统计模型:潜在序逻辑(LOLOG)模型
原文标题: A New Generative Statistical Model for Graphs: The Latent Order Logistic (LOLOG) Model
地址: http://arxiv.org/abs/1804.04583
作者: Ian E. Fellows
摘要: 完全概率模型对于复杂网络的统计建模是至关重要的,然而通用的,灵活的和广泛适用的生成方法却很少。我们提出了一个由网络增长理念驱动的概率模型家族,我们称之为Latent Order Logistic(LOLOG)模型。 LOLOG是一个完全一般的框架,能够描述图配置的任何概率分布,尽管并非所有的分布都可以很容易地表达或估计为LOLOG。我们开发基于蒙特卡罗方法的矩量推广程序,广义矩方法和变分推理。为了展示模型框架的灵活性,我们展示了如何通过优先连接将所谓的无标度网络建模为LOLOGs。举例说明了LOLOG在避免简并性,取样方便性和模型灵活性方面的优势。与流行的指数族随机图模型(ERGM)的连接也被探讨,我们发现它们在二元独立的情况下是相同的。最后,我们将该模型应用于公司律师事务所内的合作社会网络,青少年学生之间的友谊网络以及在线社会网络中的友谊关系。
对等仇恨:仇恨言论煽动者及其目标
原文标题: Peer to Peer Hate: Hate Speech Instigators and Their Targets
地址: http://arxiv.org/abs/1804.04649
作者: Mai ElSherief, Shirin Nilizadeh, Dana Nguyen, Giovanni Vigna, Elizabeth Belding
摘要: 虽然社交媒体已成为个人声音和言论自由的授权代理人,但它也有助于反社会行为,包括在线骚扰,网络欺凌和仇恨言论。在本文中,我们介绍了Twitter上仇恨言论煽动者和目标用户的第一次比较研究。通过多步分类过程,我们策划了一个全面的仇恨言语数据集,可以捕捉各种类型的仇恨。我们研究仇恨煽动者和他们的个人资料自我介绍,活动和在线知名度的目标的显著特点。我们发现仇恨煽动者针对更受欢迎和高调的Twitter用户,并且参与仇恨言论可能导致更大的在线可见度。我们对仇恨煽动者和目标进行个性分析,并显示这两个群体都具有不同于一般Twitter人口的怪异人格特征。我们的结果推动了对在线仇恨言论交流的理解。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。