- 意大利COVID-19流行期间的人员流动性与病毒传播能力之间的关系;
- COVID-19实时跟踪器和分析报告;
- 广义SEIR模型的分析和元胞自动机方法用于在拥挤的开放空间中传播的感染;
- 在大学环境中模拟COVID-19;
- 跨语言迁移学习,以应对COVID-19疫情;
- 考虑分类的神经网络主题模型及其在新型COVID-19虚假语料库中的应用;
- Covid-19传输的空间约束同质聚类的识别;
- COVID-19流行病研究II:孟买封锁期间的阶段性出现;
- 异构网络上流行模型的类型复制数;
- 个人行为如何导致在线社区规模不平等:基于主体的模拟;
- 算法标记对公平性的影响:来自维基百科的准实验证据;
- 行人和骑自行车者的危险路口在哪里:基于共现的方法;
- 网络异质性和图灵机制驱动的语言演化;
- 真实网络中分层主干的几何检测;
- 社会网络中的自适应多特征预算利润最大化;
- “设定目标还是不设目标”:使用分类器组合识别和分析辱骂性文字;
- Gandhipedia:一站式支持AI的门户,用于浏览Gandhian文学,生活事件及其社会网络;
- 从出行数据中提取公共交通的时空需求;
- 提取城市交通网络的多模式指纹;
- 总统比例:Twitter上与奥巴马和特朗普的公众互动探索;
- 使用可解释的机器学习方法研究国际移民的驱动力;
- 量化科学出版物的高阶影响;
意大利COVID-19流行期间的人员流动性与病毒传播能力之间的关系
原文标题: The relationship between human mobility and viral transmissibility during the COVID-19 epidemics in Italy
地址: http://arxiv.org/abs/2006.03141
作者: Paolo Cintia, Daniele Fadda, Fosca Giannotti, Luca Pappalardo, Giulio Rossetti, Dino Pedreschi, Salvo Rinzivillo, Pietro Bonato, Francesco Fabbri, Francesco Penone, Marcello Savarese, Daniele Checchi, Francesca Chiaromonte, Paolo Vineis, Giorgio Guzzetta, Flavia Riccardo, Valentina Marziano, Piero Poletti, Filippo Trentini, Antonino Bella, Xanthi Andrianou, Martina Del Manso, Massimo Fabiani, Stefania Bellino, Stefano Boros, Alberto Mateo Urdiales, Maria Fenicia Vescio, Silvio Brusaferro, Giovanni Rezza, Patrizio Pezzotti, Marco Ajelli, Stefano Merler
摘要: 我们在本报告中描述了我们的研究,以了解人类活动能力与COVID-19传播之间的关系,以帮助管理锁定后社会和经济活动的重启,并监控未来几周和几个月的流行病。我们比较了通过全国范围内的移动电话数据测得的意大利日常出行流量的演变(从2020年1月到2020年5月),以及通过净复制数(即次要平均数)测得的可传输性的演变。在控制干预和人类行为适应的情况下,由一位主要感染者产生的感染。我们发现,在3月11日至3月18日意大利进入封锁地区期间,意大利所有地区的流动性负变化与净再生产数量之间存在着惊人的关系。这一观察结果使我们能够量化“关闭”国家流动性所需的时间(一周)和使净再生产数低于1(一周)所需的时间。一个合理简单的回归模型提供了证据,表明净繁殖数量与该地区的传入,传出和内部流动性相关。我们还发现,由于封锁效应,在流动阈值之上流行病阈值之上的天数与每10万居民中确认的SARS-CoV-2感染总数之间有密切的关系,从而间接表明了该方法的有效性。封锁和其他非药物干预措施来控制传染病。我们的研究表明,随着未来几个月流行病的流行,“大”流动性数据对于监测关键流行病指标的信息将为人们提供选择的依据。
COVID-19实时跟踪器和分析报告
原文标题: COVID-19 Real-Time Tracker and Analytical Report
地址: http://arxiv.org/abs/2006.03146
作者: Jiawei Long
摘要: 据报道,COVID-19疫情最初起源于中国武汉,但已于2020年1月30日被世界卫生组织宣布为国际关注的突发公共卫生事件(PHEIC),到2008年时已传播至180多个国家本文正在撰写中。随着疾病在全球范围内的传播,它已演变成全球性的大流行病,危及全球公共卫生状况,并成为对国际社会的严重威胁。为了对抗和预防该疾病的传播,所有个人都应该充分了解COVID-19的快速变化状态。为了实现这一目标,已经构建了COVID-19实时分析跟踪器,以提供疾病的最新状态和相关的分析见解。实时跟踪器旨在迎合广大受众,而无需高级统计能力。它旨在通过各种简单明了的数据可视化来传达见解,这些可视化得到可靠的统计基础和可靠的数据源的支持。本文旨在讨论用于生成实时跟踪器上显示的见解的主要方法,包括实时数据检索,规范化技术,ARIMA时间序列预测和逻辑回归模型。除了介绍所用方法的细节和动机外,本文还介绍了一些使用这些方法得出的有关COVID-19的关键发现。
广义SEIR模型的分析和元胞自动机方法用于在拥挤的开放空间中传播的感染
原文标题: Analytical and Cellular Automaton approach to a generalized SEIR model for infection spread in an open crowded space
地址: http://arxiv.org/abs/2006.03157
作者: Andrea Nava, Alessandro Papa, Marco Rossi, Domenico Giuliano
摘要: 我们在图上制定了广义的SEIR模型,描述了具有任意拓扑的空旷拥挤场所的人口动态。作为样本计算,我们通过对系统中各个动力学的元胞自动机模拟,讨论了三种简单的情况,无论是分析性的还是数值性的。结果,我们提供了系统中感染率作为可控参数的函数,从而可以量化对人类行为的影响可能有效降低疾病在整个系统中的传播。
在大学环境中模拟COVID-19
原文标题: Simulating COVID-19 in a University Environment
地址: http://arxiv.org/abs/2006.03175
作者: Philip T. Gressman, Jennifer R. Peck
摘要: 在COVID-19大流行期间,住宅学院和大学在提供现场指导方面面临着独特的挑战。管理员目前面临有关在大流行期间是否开放以及可能需要对其正常操作进行哪些修改以保护学生,教职员工的决定。但是,关于什么措施可能是最有效的以及现有的干预措施是否可以遏制校园疫情蔓延的信息很少。我们开发了一种基于随机主体的全面模型,以确定在大流行期间是否可以安全地继续进行面对面的指导,并评估各种干预措施的必要性。仿真结果表明,大规模的随机测试,联系追踪和隔离是成功遏制校园疫情的重要策略。高测试特异性对于使检疫种群的数量易于管理至关重要。在线上最大的班级对于控制疫情爆发的规模和隔离学生的数量也至关重要。住宅暴露的增加可能会严重影响爆发的规模,但控制学生中的非住宅社交暴露可能更重要。最后,即使在控制性疫情中,也必须具有很高的隔离率,这意味着大量旷工,这表明需要计划对隔离学生进行远程指导。
跨语言迁移学习,以应对COVID-19疫情
原文标题: Cross-lingual Transfer Learning for COVID-19 Outbreak Alignment
地址: http://arxiv.org/abs/2006.03202
作者: Sharon Levy, William Yang Wang
摘要: 到2020年,COVID-19的传播已成为社会中一个重要而令人不安的方面。随着各国报告数以百万计的病例,新的暴发已经发生,并且遵循先前受灾地区的模式。许多疾病检测模型并未结合可用于建模和预测其传播的大量社交媒体数据。在这种情况下,有必要提出这样的问题:我们可以在一个国家利用这一知识来模拟另一个国家的疫情吗?为了回答这个问题,我们提出了跨语言迁移学习的任务,以进行流行病学调整。利用宏和微文本功能,我们通过Twitter对意大利早期COVID-19爆发进行了培训,然后转移到其他几个国家。我们的实验在跨国预测中显示出高达0.85 Spearman相关性的强大结果。
考虑分类的神经网络主题模型及其在新型COVID-19虚假语料库中的应用
原文标题: Classification Aware Neural Topic Model and its Application on a New COVID-19 Disinformation Corpus
地址: http://arxiv.org/abs/2006.03354
作者: Xingyi Song, Johann Petrak, Ye Jiang, Iknoor Singh, Diana Maynard, Kalina Bontcheva
摘要: 与COVID-19大流行有关的虚假信息的爆炸式增长已使全世界的事实检查人员和媒体超载。为了帮助解决这一问题,我们开发了计算方法来支持COVID-19虚假信息的伪装和社会影响研究。本文介绍:1)当前最大的可用手动注释的COVID-19虚假类别数据集; 2)分类感知神经主题模型(CANTM),该模型在可变自动编码器框架下将分类和主题建模结合在一起。我们证明了CANTM可以以低资源有效地提高分类性能,并且具有可扩展性。此外,分类意识主题可以帮助研究人员和最终用户更好地了解分类结果。
Covid-19传输的空间约束同质聚类的识别
原文标题: The identification of spatially constrained homogeneous clusters of Covid-19 transmission
地址: http://arxiv.org/abs/2006.03360
作者: Roberto Benedetti, Federica Piersimoni, Giacomo Pignataro, Francesco Vidoli
摘要: 本文介绍了一种方法,该方法可根据流行趋势确定一组空间受限制的同质区域,这些区域最大同质。所提出的分层算法基于流行时间趋势之间的动态时间间隔距离,其中单位受空间邻近图约束。本文基于不同的数据(相对于往年而言,阳性检验的数量和差异性死亡的数量)以及不同的观察单位(省和劳动力市场区域),将这种方法应用于意大利的两种不同应用。两种应用,尤其是与劳动力市场区域有关的应用,都表明存在定义明确的区域,在这些区域中,感染的增长动态已被强烈地区分。因此,在整个国家领土上采用相同的锁定策略并不理想,这再次显示了迫切需要本地数据驱动的策略。
COVID-19流行病研究II:孟买封锁期间的阶段性出现
原文标题: COVID-19 Epidemic Study II: Phased Emergence From the Lockdown in Mumbai
地址: http://arxiv.org/abs/2006.03375
作者: Prahladh Harsha, Sandeep Juneja, Preetam Patil, Nihesh Rathod, Ramprasad Saptharishi, A. Y. Sarath, Sharad Sriram, Piyush Srivastava, Rajesh Sundaresan, Nidhin Koshy Vaidhiyan
摘要: 为了抑制COVID-19病的蔓延,从2020年3月25日开始的全国封锁已由印度政府按照随后的三个命令延长至2020年5月31日。长期的封锁已造成重大的社会和经济后果,“封锁疲劳”很可能会发生。分阶段重新开放从2020年6月1日开始。孟买是世界上最拥挤的城市之一,目睹了印度所有城市中病例和死亡人数最多的情况(截至2020年6月2日,有41986例阳性病例和1368例死亡)。在接下来的几天中,许多艰难的决定将重新开放。在较早的IISc-TIFR报告中,我们介绍了一种基于主体的城市规模模拟器(ABCS),用于模拟孟买和班加罗尔等大城市中感染的进展和传播。如IISc-TIFR报告1所述,ABCS是一个有用的工具,可以在单个级别上对城市居民的互动进行建模,并捕获非药物干预措施对感染传播的影响。在本报告中,我们重点关注孟买。使用我们的模拟器,我们考虑了从2020年6月1日起锁定孟买逐步出现的一些可能情况。这些措施包括:逐步开放该行业,部分开放公共交通(模拟在郊区火车中传播的感染),收容区对控制感染的影响以及遵守各种干预措施的作用,包括使用口罩,病例模拟结果的主要结论是,分阶段开放工作场所,例如保守出席率在20%至33%之间,是重新启动经济活动并确保该市医疗服务的好方法生产能力仍然足以应付6月和7月COVID-19患者人数的上升。
异构网络上流行模型的类型复制数
原文标题: Type reproduction number for epidemic models on heterogeneous networks
地址: http://arxiv.org/abs/2006.03278
作者: Satoru Morita
摘要: 感染很容易在异构度分布不同的网络上传播。在这里,我们考虑了针对此类网络的有向免疫,其中一部分具有最高连接性的个体被免疫。为了量化这种有针对性的免疫方法对人群免疫的影响,我们提出了一种使用类型繁殖数的方法。因此,我们得出了一个精确而简单的公式,可以得出免疫阈值,据我们所知,这是文献中第一个这样的结果。
个人行为如何导致在线社区规模不平等:基于主体的模拟
原文标题: How individual behaviors drive inequality in online community sizes: an agent-based simulation
地址: http://arxiv.org/abs/2006.03119
作者: Jeremy Foote, Nathan TeBlunthuis, Benjamin Mako Hill, Aaron Shaw
摘要: 为什么在线社区规模如此不平等?这个问题的大多数答案都指向了从物理学中汲取的一般数学过程,例如累积优势。这些解释对个人在加入和离开社区时所做出的特定社会动态或决策几乎没有洞察力。此外,关于累积优势的解释并非来自研究个人行为的大量社会计算研究。我们的工作通过测试用于解释社区加入的两种有影响力的社会机制是否也可以解释社区规模的分布来弥合这种鸿沟。使用基于主体的模拟,我们评估了基于个人预期收益的个人暴露过程和决策的个体水平过程如何从Reddit复制经验社区规模数据。我们的模拟通过提供证据表明这两个过程(但不是一个)共同产生了社区规模的现实分布,从而为社会计算理论做出了贡献。我们的结果还说明了基于主体的模拟对于在线社区研究人员评估和桥接个人和小组级理论的潜在价值。
算法标记对公平性的影响:来自维基百科的准实验证据
原文标题: The effects of algorithmic flagging on fairness: quasi-experimental evidence from Wikipedia
地址: http://arxiv.org/abs/2006.03121
作者: Nathan TeBlunthuis, Benjamin Mako Hill, Aaron Halfaker
摘要: 在线社区主持人经常依赖社交信号,例如用户是否拥有帐户或个人资料页面,以作为用户可能引起问题的线索。当主持人专注于这些信号但忽略其他行为时,对这些线索的依赖可能会导致“过度分析”偏见。我们建议部署用于提高审核工作效率的算法标记系统,还可以通过减少对社交信号的依赖并让其他所有人更明显地看到违反规范,从而使审核操作对这些用户更加公平。我们通过称为RCFilters的系统来分析Wikipedia中主持人的行为,该系统显示社交信号和算法标记,并估计被标记为主持人动作的因果关系。我们表明,算法标记的编辑会更频繁地还原,特别是那些建立了良好社会信号的已建立编辑的编辑,并且标记减少了撤消审核动作的可能性。我们的结果表明,算法标记系统可以提高公平性,但是这种关系是复杂且偶然的。
行人和骑自行车者的危险路口在哪里:基于共现的方法
原文标题: Where are the Dangerous Intersections for Pedestrians and Cyclists: A Colocation-Based Approach
地址: http://arxiv.org/abs/2006.03131
作者: Yujie Hu, Yu Zhang, Kyle Shelton
摘要: 行人和骑自行车的人是脆弱的道路使用者。与其他道路使用者相比,他们在撞车事故中丧生的风险更大。涉及行人或骑自行车的人的致命交通事故的百分比高于两种方式的总旅行次数的总百分比。由于存在这种风险,因此找到最小化问题街道环境的方法至关重要。为了设计可能的对策以改善道路安全,必须了解交通安全的空间格局并确定行人和骑自行车者的撞车风险极高的危险位置。这项研究提出了两个指标,用于检查建筑环境(交叉口)和碰撞(行人或骑自行车的人所涉及)之间的空间相关性模式。全局托管商确定区域中的整体连接,而本地托管商识别高风险交叉口的位置。为了说明我们的方法,我们应用了这些方法来检查德克萨斯州休斯顿的行人或骑车人的车祸与交叉口之间的并置模式,并在许多交叉口中识别出明显引起车祸的交叉口。我们还仔细检查了这些交叉路口,讨论了导致事故高度共处的可能属性,并提出了相应的对策。
网络异质性和图灵机制驱动的语言演化
原文标题: Linguistic evolution driven by network heterogeneity and the Turing mechanism
地址: http://arxiv.org/abs/2006.03153
作者: Sayat Mimar, Mariamo Mussa Juane, Jorge Mira, Juyong Park, Alberto P. Munuzuri, Gourab Ghoshal
摘要: 鉴于迅速流行的语言盛行格局,世界上大多数现有语言都在逐渐消亡,而倾向于采用相对较少的语言集,因此,这一现象背后的因素一直是积极研究的主题。大多数方法以微分方程的形式研究两种竞争语言的时间演变,以大规模描述其行为。相反,很少有人考虑问题的空间维度。此外,尽管很多注意力都集中在语言转移现象上(用多数语言代替少数语言),但相对较少地关注语言的共存,在该语言中,两种或多种语言在地理上连续的地区持续存在。在这里,我们研究了在离散介质上传播的语言的地理成分,以便在微观水平上监视语言种类的传播。语言动态是通过反应扩散系统建模的,该系统基于城市中心之间的人口流动发生在异构的联系网络上。我们表明,我们的框架准确地再现了由图灵不稳定性,适用于许多自然系统的自发模式形成机制,接触网络的异质性以及人们如何看待状态的不对称性共同驱动的经验语言趋势。语言。我们在与西班牙北部和奥地利南部的语言共存相对应的两个数据集上证明了我们的公式的鲁棒性。
真实网络中分层主干的几何检测
原文标题: Geometric detection of hierarchical backbones in real networks
地址: http://arxiv.org/abs/2006.03207
作者: Elisenda Ortiz, Guillermo García-Pérez, M.Ángeles Serrano
摘要: 层次结构渗透到实际网络的结构中,其网络节点可以根据不同的功能进行排序。但是,网络距离树状结构还很远,而分级顺序的检测仍然是一个挑战,受到小世界特性和大量循环(尤其是群集)的影响。在这里,我们使用无向网络的几何表示来实现层次结构的丰富解释,该层次结构集成了定义节点受欢迎程度和节点之间相似性的特征,从而使节点与不太受欢迎的邻居越相似,关系的层次结构负载就越高。几何方法使我们能够在统一框架内测量节点和链接到层次结构的局部贡献。此外,我们提出了一种链接过滤方法,即相似性过滤器,该方法能够提取包含表示相对于几何异构网络的最大熵空模型具有统计显著性偏差的链接的分层主干。我们将几何方法应用于检测不同域中实际网络的相似性主干,发现这些主干在所有规模上均保留了本地拓扑特征。有趣的是,我们还发现相似性主干有利于在建模社会困境的演化动力学中进行合作。
社会网络中的自适应多特征预算利润最大化
原文标题: Adaptive Multi-Feature Budgeted Profit Maximization in Social Networks
地址: http://arxiv.org/abs/2006.03222
作者: Tiantian Chen, Jianxiong Guo, Weili Wu
摘要: 在线社会网络一直是病毒式营销最重要的平台之一。现有的有关在网络上采用新产品的传播的研究大多数是关于一种传播的。即,仅关于产品的一条信息被散布在网络上。但是,实际上,一种产品可能具有多种功能,并且有关不同功能的信息可能会在社会网络中独立传播。当用户想要购买产品时,他会综合考虑产品的所有功能,而不仅仅是考虑其中的一个。在此基础上,我们提出了一个新颖的问题,即多特征预算利润最大化(MBPM)问题,该问题首先考虑了一个产品的多种特征传播下的预算利润最大化。给定一个每个节点都有激活成本和利润的社会网络,MBPM问题将寻找一个预期成本不超过预算的种子集,以使总预期利润尽可能大。我们考虑在自适应设置下的MBPM问题,其中迭代选择种子,然后根据当前扩散结果选择下一个种子。我们在预言模型和噪声模型两个模型下研究自适应MBPM问题。 oracle模型假定可以在O(1)时间内获得任何节点的条件预期边际利润,并提出(1-1 / e)近似算法。在噪声模型下,我们通过逆向影响采样技术估计节点的条件期望边际利润,并提出了一种有效的算法,该算法可以很可能返回(1-exp( epsilon'-1))逼近解。在三个实际数据集上的实验结果表明了我们算法的效率和优越性。
“设定目标还是不设目标”:使用分类器组合识别和分析辱骂性文字
原文标题: "To Target or Not to Target": Identification and Analysis of Abusive Text Using Ensemble of Classifiers
地址: http://arxiv.org/abs/2006.03256
作者: Gaurav Verma, Niyati Chhaya, Vishwa Vinay
摘要: 随着人们越来越关注社交媒体平台上的辱骂和仇恨行为,我们提出了一种整体学习方法来识别和分析此类内容的语言特性。我们的堆叠式集成包含三个机器学习模型,这些模型捕获语言的不同方面,并提供有关不适当语言的多样且连贯的见解。所提出的方法可在不使用任何用户或网络相关信息的情况下提供与Twitter滥用行为数据集(Founta et al.2018)上现有的最新技术相当的结果;仅依靠文本属性。我们认为,提出的见解和对当前方法缺点的讨论将突出未来研究的潜在方向。
Gandhipedia:一站式支持AI的门户,用于浏览Gandhian文学,生活事件及其社会网络
原文标题: Gandhipedia: A one-stop AI-enabled portal for browsing Gandhian literature, life-events and his social network
地址: http://arxiv.org/abs/2006.03316
作者: Sayantan Adak, Atharva Vyas, Animesh Mukherjee, Heer Ambavi, Pritam Kadasi, Mayank Singh, Shivam Patel
摘要: 我们引入了一个支持AI的门户,该门户通过根据Gandhian文学构建时空社会网络,很好地呈现了圣雄甘地的生活事件。应用从NLTK,Polyglot和Spacy中提取的方法,我们提取了在甘地的书面作品中提及的关键人物和地方。我们基于与交互式Web门户中的网络相同的时间范围内的联合,可视化这些实体及其之间的连接。当单击网络中的节点时,将检索有关该实体的查询,并检索构成网络的相应书籍中提供的有关该实体的所有信息,并将其显示在门户上。总体而言,该系统可以用作研究甘地文献的数字化和用户友好资源。
从出行数据中提取公共交通的时空需求
原文标题: Extracting Spatiotemporal Demand for Public Transit from Mobility Data
地址: http://arxiv.org/abs/2006.03351
作者: Trivik Verma, Mikhail Sirenko, Itto Kornecki, Scott Cunningham, Nuno AM Araújo
摘要: 随着人们不断迁移到不同的城市地区,我们对工作,服务和休闲的出行需求正在迅速变化。不断变化的城市人口状况对有效管理过境服务提出了若干挑战。为了预测过境需求,规划人员经常求助于难以获得,不准确或过时的社会学研究或建模。那么,我们如何才能估算出多样化的出行需求呢?我们提出了一种简单的方法来确定城市公共交通的时空需求。使用高斯混合模型,我们将经验的乘客量数据分解为一组在任何给定日期代表乘客量的时间需求概况。大伦敦地区每天约有460万次的过境痕迹表明需求情况截然不同。我们发现,这些配置文件的加权混合可以很好地生成任何站点流量,从而揭示出移动需求的空间同心集群。我们分析城市时空地理的方法可以扩展到其他具有不同公共交通方式的城市地区。
提取城市交通网络的多模式指纹
原文标题: Extracting the multimodal fingerprint of urban transportation networks
地址: http://arxiv.org/abs/2006.03435
作者: Luis Natera, Federico Battiston, Gerardo Iñiguez, Michael Szell
摘要: 城市交通越来越依赖于多式联运,结合了自行车道,街道和铁路网络的使用。复用网络很好地描述了这些不同的运输方式。在这里,我们提出了一种重叠人口普查方法,该方法可以从一个城市的多重交通网络中提取出一种多式联运资料。我们将这种方法应用于15个城市,识别轮廓相似的城市集群,并将此功能与每个集群的可持续交通水平联系起来。我们的工作突显了对一个城市的所有交通系统进行评估的重要性,以充分识别和比较其可持续,多式联运的潜力。
总统比例:Twitter上与奥巴马和特朗普的公众互动探索
原文标题: Ratioing the President: An exploration of public engagement with Obama and Trump on Twitter
地址: http://arxiv.org/abs/2006.03526
作者: Joshua R. Minot, Michael V. Arnold, Thayer Alshaabi, Christopher M. Danforth, Peter Sheridan Dodds
摘要: 在过去的十年中,政客对社交媒体的使用显著增加,最显著的例子是美国第45任总统(POTUS)唐纳德·特朗普(Donald Trump)。在Twitter上,按喜欢,转发和回复的程度衡量,POTUS消息始终吸引着高水平的参与度。在这里,我们量化了这些活动(也称为“比率”)的平衡,并研究了它们的动力,以作为响应总统沟通的集体政治参与的代表。我们发现,在2016年大选前的这段时间里,原始活动的数量增加了,同时伴随着政党与竞选活动和执政过渡之间转换的比例有所改变。对于特朗普账户,我们发现与虚假新闻相关的词和穆勒查询在推文中更为常见,相对于推文,回复率很高。最后,我们发现,巴拉克·奥巴马(Barack Obama)始终比唐纳德·特朗普(Donald Trump)获得更高的转发率。这些结果表明,随着给定新闻周期的展开,特朗普的推特帖子更具争议性,并且需要持久的参与。
使用可解释的机器学习方法研究国际移民的驱动力
原文标题: Using an interpretable Machine Learning approach to study the drivers of International Migration
地址: http://arxiv.org/abs/2006.03560
作者: Harold Silvère Kiossou, Yannik Schenk, Frédéric Docquier, Vinasetan Ratheil Houndji, Siegfried Nijssen, Pierre Schaus
摘要: 全球范围内日益增加的移民压力要求采用新的建模方法来设计有效的政策。重要的是,不仅要有有效的模型来预测迁移流量,而且要了解特定的参数如何影响这些流量。在本文中,我们提出了一个人工神经网络(ANN)对国际移民进行建模。此外,我们使用了一种解释机器学习模型的技术,即部分依赖图(PDP),以表明人们可以很好地研究国际移民背后驱动因素的影响。我们在一个数据集上对模型进行了训练和评估,该数据集包含每年国际双边迁移(从1960美元到2010美元,从175美元的原产国到33美元,主要是OECD目的地),以及在迁移文献中确定的主要决定因素。进行的实验证实:1)人工神经网络模型的效率更高。传统模式,以及2)使用PDP,我们能够获得有关迁移驱动程序特定影响的更多见解。与仅使用先前工作中使用的功能重要性信息相比,此方法提供的信息更多。
量化科学出版物的高阶影响
原文标题: Quantifying the higher-order influence of scientific publications
地址: http://arxiv.org/abs/2006.03561
作者: Massimo Franceschet, Giovanni Colavizza
摘要: 通常使用直接的一阶引文关系来评估引文影响。我们在这里考虑的是出版物通过引用对新出版物的间接影响。我们提出一种新颖的方法来量化出版物的高阶引文影响,同时考虑直接或一阶,间接或高阶引文。特别是,我们对学科层面的高阶引文影响感兴趣。我们将此方法应用于学科级别的整个Web of Science数据。我们发现,很大的影响力(42%)来自于高阶引文。此外,我们表明,高阶引文影响有助于量化和可视化学科之间的引文流,并评估其学科间的程度。
声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。