- 基于Stieltjes矩阵正则化的活动图半监督学习的超模性;
- 我的年龄是什么?使用有影响力的朋友网络和DBpedia预测Twitter用户的年龄;
- 虚假信息网络:谣言、假新闻、恶作剧、钓鱼和各种其他鬼把戏;
- 简明多层网络教程;
- 利用社会媒体家庭暴力话语特征集的意图分类;
- 路径与目的地预测的隐马尔可夫模型;
- 我们能否通过地理标记的Flickr图像预测位置的风景美?;
- 宠物对幸福的影响:使用社会多媒体的大规模多因素分析;
- 时间网络结构对意见动态共识形成速度的影响;
- 挖掘社交媒体进行新闻采访;
- 稀释的行人动态的路径积分表示;
基于Stieltjes矩阵正则化的活动图半监督学习的超模性
原文标题: On the Supermodularity of Active Graph-based Semi-supervised Learning with Stieltjes Matrix Regularization
地址: http://arxiv.org/abs/1804.03273
作者: Pin-Yu Chen, Dennis Wei
摘要: 基于活动图的半监督学习(AG-SSL)旨在选择一小组标记示例,并利用它们与其他未标记示例的图关系来辅助机器学习任务。它也与图信号处理中的采样理论密切相关。在本文中,我们重新探讨了基于图的SSL的原始公式,并证明了在由Stieltjes矩阵参数化的一大类正则化函数下AG-SSL目标函数的超模性。在此设置下,超模性产生了一种新颖的贪婪标签采样算法,相对于最佳采样集具有有保证的性能。与两个真实社区检测数据集上的三种最先进的图信号采样和恢复方法相比,所提出的AG-SSL方法在给定有限样本预算的情况下获得了更高的分类准确度。
我的年龄是什么?使用有影响力的朋友网络和DBpedia预测Twitter用户的年龄
原文标题: What's my age?: Predicting Twitter User's Age using Influential Friend Network and DBpedia
地址: http://arxiv.org/abs/1804.03362
作者: Alan Smith, Manas Gaur
摘要: 社交媒体是用户行为和意见的丰富来源。 Twitter每天从3亿2千8百万用户身上感受到近5亿次推文。通过这种信息的适当机器学习管道可以为各种领域提供最新且具有成本效益的数据收集,例如:社会科学,公共卫生,人群的智慧等。在许多领域中,用户人口统计信息是识别正在研究的人群的一部分的关键。例如,哪些年龄组被观察到滥用哪些药物?哪些种族受每个位置的抑郁症影响最大? Twitter目前的状态并不要求用户提供任何人口统计信息。我们建议创建一个机器学习系统,加上DBpedia图表,预测Twitter用户最可能的年龄。在我们使用社交媒体文本和用户元数据构建年龄预测模型的过程中,我们探索了现有技术方法的现状。为详细说明我们的数据收集,特征工程周期,模型选择和评估流程,我们将通过与“预测平均”年龄估算基线进行比较来展示我们方法的有效性。
虚假信息网络:谣言、假新闻、恶作剧、钓鱼和各种其他鬼把戏
原文标题: The Web of False Information: Rumors, Fake News, Hoaxes, Clickbait, and Various Other Shenanigans
地址: http://arxiv.org/abs/1804.03461
作者: Savvas Zannettou, Michael Sirivianos, Jeremy Blackburn, Nicolas Kourtellis
摘要: 信息战新时代已经到来。包括国家资助者在内的各种角色正在武装关于在线社会网络的信息,以针对特定主题针对性地操纵公众舆论来运行虚假信息活动。这些虚假的信息活动可能会给公众带来可怕的后果:改变他们的意见和行动,尤其是在重大的世界性事件如重大选举方面。显然,网络上虚假信息的问题是一个至关重要的问题,需要提高公众意识,以及执法机构,公共机构,特别是研究机构的立即关注。在本文中,我们通过提供Web的虚假信息生态系统分类标准向这个方向迈出了一步,其中包括各种类型的虚假信息,行为者及其动机。我们通过确定以下几个方面的工作来报告现有关于虚假信息生态系统研究的全面综述:1)公众如何看待虚假信息; 2)了解虚假信息的传播; 3)检测并在网上包含虚假信息; 4)政治舞台上的虚假信息。最后,对于这些工作的每一行,我们都会报告几个未来的研究方向,以帮助我们更好地理解和缓解网络上出现的虚假信息传播问题。
简明多层网络教程
原文标题: Multilayer Networks in a Nutshell
地址: http://arxiv.org/abs/1804.03488
作者: Alberto Aleta, Yamir Moreno
摘要: 复杂系统的特点是许多相互作用的单元引起紧急行为。研究这些系统的一个特别有利的方式是通过分析编码系统组成部分之间相互作用的网络。在过去的二十年中,网络科学为自然,社会,生物和技术系统提供了许多见解。然而,真正的系统往往不是相互关联的,有许多相互依赖关系不能被单层网络正确捕获。为了解决这种复杂性的问题,需要一个更一般的框架,在这个框架中不同的网络彼此演化或互动。这些被称为多层网络。在这里我们提供了用于描述多层系统的基本方法的概述以及在它们之上发生的一些有代表性的动态过程。我们总结了几个不同领域的科学应用的总结。
利用社会媒体家庭暴力话语特征集的意图分类
原文标题: Intent Classification using Feature Sets for Domestic Violence Discourse on Social Media
地址: http://arxiv.org/abs/1804.03497
作者: Sudha Subramani, Huy Quan Vu, Hua Wang
摘要: 家庭暴力侵害妇女现在被认为是全世界严重和普遍存在的问题。家庭暴力和虐待是社会诸多问题的根源,并被视为社会禁忌话题。幸运的是,随着社交媒体的普及,社会福利社区和受害者支持团体帮助受害者分享他们的辱骂性故事,并允许其他人提供建议并帮助受害者。因此,为了为这些需求提供直接资源,来自受害者的具体信息需要从其他信息中警告。在本文中,我们将意图挖掘视为二元分类问题(滥用或建议)与滥用话语的用例。为了解决这个问题,我们从原始语料库中提取丰富的特征集,使用心理语言线索和术语类交互方法的文本特征。机器学习算法用于预测两个不同特征集之间的分类器的准确性。我们的实验结果具有较高的分类准确率,为通过大型社交媒体及其在服务于各种社区福利组织的信息需求中理解一个重大的社会问题提供了一个有前途的解决方案
路径与目的地预测的隐马尔可夫模型
原文标题: A Hidden Markov Model for Route and Destination Prediction
地址: http://arxiv.org/abs/1804.03504
作者: Yassine Lassoued, Julien Monteil, Yingqi Gu, Giovanni Russo, Robert Shorten, Martin Mevissen
摘要: 我们提出了一个简单的模型和算法来预测司机的目的地和路线,根据最新的道路链接的输入作为正在进行的旅行的一部分。该算法可用于预测先前在驾驶员行程历史中观察到的任何群集。它假定驾驶员的历史出行分组为共享类似模式的集群。鉴于新旅程,该算法试图预测该旅程所属的群集。该算法具有较低的时间复杂度。另外,它不需要计算马尔可夫链的转移和发射矩阵。相反,它依赖于道路链路和旅行集群共同出现的频率。我们验证提出的算法对实验数据集。我们讨论算法的成功和收敛性,并证明我们的算法具有很高的预测成功率。
我们能否通过地理标记的Flickr图像预测位置的风景美?
原文标题: Can We Predict the Scenic Beauty of Locations from Geo-tagged Flickr Images?
地址: http://arxiv.org/abs/1804.03506
作者: Ch. Md. Rakin Haider, Mohammed Eunus Ali
摘要: 在这项工作中,我们提出了一种新颖的技术,通过Flickr照片的社会元数据来确定一个位置的审美评分。特别是,我们建立了机器学习分类器,以预测每个类别对应于具有相同美学评级的一组位置的位置类别。这些模型通过两个经验建立的数据集进行训练,这些数据集包含两个不同城市(罗马和巴黎)的位置,其中位置的美学评级是从TripAdvisor.com收集的。在这项工作中,我们利用这样一个想法,即在具有较高审美评级的位置,用户更有可能拍摄照片,而其他用户更可能与该照片进行互动。我们的模型对罗马数据集的准确率高达79.48%(精度为78.60%,回忆率为79.27%),在巴黎数据库中高达73.78%(精确度为75.62%,回忆率为78.07%)。所提出的技术可以促进城市规划,旅游规划并推荐美观的路径。
宠物对幸福的影响:使用社会多媒体的大规模多因素分析
原文标题: The Effect of Pets on Happiness: A Large-scale Multi-Factor Analysis using Social Multimedia
地址: http://arxiv.org/abs/1804.03507
作者: Xuefeng Peng, Li-Kai Chi, Jiebo Luo
摘要: 从减少压力和孤独,到提高生产力和整体福利,宠物被认为在人们的日常生活中发挥重要作用。许多传统研究已经确定,经常与宠物互动可以使个人变得更健康,更乐观,并最终享受更快乐的生活。然而,这些研究大多不仅限于规模,还可能以主观自我报告,访谈和问卷为主要方法带来偏差。在本文中,我们利用从社交媒体收集的大规模数据和最先进的深度学习技术来深入和广泛地研究这一现象。我们的研究包括四个主要步骤:1)收集来自约2万名Instagram用户的时间线帖子; 2)使用200万张照片上的人脸检测和识别推断用户的人口统计数据,关系状态以及是否有孩子; 3)分析用户的学位通过微笑分类和文本情感分析,基于图像和标题的幸福感; 3)运用转移学习技术,重新训练用于宠物分类的Inception v3模型的最后一层;以及4)根据多种因素分析宠物对快乐的影响的用户人口统计资料。我们的主要结果已经证明了我们所提出的方法的有效性和许多新的见解。我们相信这种方法也适用于其他领域,作为一种可扩展的,高效的,有效的方法来建模和分析社会行为和心理健康。此外,为了促进涉及人脸的研究,我们还发布了700K分析人脸的数据集。
时间网络结构对意见动态共识形成速度的影响
原文标题: Impact of temporal network structures on the speed of consensus formation in opinion dynamics
地址: http://arxiv.org/abs/1804.03525
作者: Mingwu Li, Harry Dankowicz
摘要: 关于网络的观点动态在经验和工程系统中有广泛的应用,并且在复杂系统的一般研究中具有深远的前景。许多努力致力于理解观点动态如何受网络拓扑的影响。然而,人类社会互动最好的特点是时间网络,其中互动的顺序不能被忽略。时间活动模式包括异构接触强度和事件间时间,周转率边/节点动态和日常模式可能会产生显著的影响,静态聚合网络表示无法捕捉到这些影响。在本文中,我们使用来自不同现实世界设置的三个经验人脸网络,研究了这些时间模式对各种连续舆论动态模型中共识形成速度的影响。我们发现,静态的聚合网络一贯高估了模拟共识形成的速度,而与交互频率相关的权重异质性相对于未加权网络上的行为对共识形成具有抑制作用。此外,发现共识形成的速度对节点寿命高度敏感,表明随机化协议显著改变寿命分布不能作为参考模型。另一方面,发现时间模式包括事件间的突发和边的寿命对共识形成具有不显著的影响。
挖掘社交媒体进行新闻采访
原文标题: Mining Social Media for Newsgathering
地址: http://arxiv.org/abs/1804.03540
作者: Arkaitz Zubiaga
摘要: 社交媒体正在成为学习和追踪重大新闻的越来越重要的数据源。这可能要归功于连接到互联网的移动设备,它允许任何人从任何地方发布更新,从而导致越来越多的公民新闻出现。因此,社交媒体已成为新闻采访期间记者的首选资源。然而,使用社交媒体进行新闻采访具有挑战性,并且需要合适的工具以便于获取有用的报告信息。在本文中,我们提供了挖掘社交媒体进行新闻采集的数据挖掘和自然语言处理研究的概述。我们讨论了研究人员为减轻社交媒体新闻采集固有挑战所做的七项不同任务:事件检测,概要,新闻推荐人,内容验证,查找信息来源,制作新闻采集仪表板和其他任务。我们概述了迄今为止在该领域取得的进展,总结了当前的挑战,并讨论了使用计算新闻来协助社交媒体新闻采访的未来方向。本调查报告与计算机科学家研究社交媒体新闻以及对计算机科学和新闻学交叉感兴趣的跨学科研究人员有关。
稀释的行人动态的路径积分表示
原文标题: Path-integral representation of diluted pedestrian dynamics
地址: http://arxiv.org/abs/1804.03634
作者: Alessandro Corbetta, Federico Toschi
摘要: 我们根据路径积分来构建行人动力学建模问题,这是一种最初在量子力学中引入的形式化,用于解释量子粒子的行为,后来扩展到量子场理论和统计物理学。路径整合使得能够以轨迹为中心表示行人运动,直接提供观察给定轨迹的概率。这似乎是描述一般设置中行人动态统计属性的最自然的语言。在给定的场地中,单个轨迹可以属于许多可能的使用模式,并且在它们中的每一个中,它们可以显示宽泛的变化性。我们首先提供一个关于路径积分的入门知识,我们介绍和讨论在稀释极限下行人动态的路径积分功能概率测度。作为一个说明性的例子,我们将路径积分描述连接到我们之前针对特定人群流动条件(狭窄通道中的流动)开发的朗之万模型。基于我们以前的实际测量结果,我们为这种情况提供了一个定量的正确路径积分表示。最后,我们展示了如何使用路径积分形式来评估罕见事件的概率(在走廊的情况下,U形转弯)。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。