- 智能手机操作的多尺度优先模型;
- 异质性社会系统疾病传播的因果推断;
- 社会网络的对抗分类;
- 图拉普拉斯矩阵的增量本征对计算:理论与应用;
- 浮动森林:来自共识分类的公民科学数据定量验证;
智能手机操作的多尺度优先模型
原文标题: A multi-scale priority model for smartphone actions
地址: http://arxiv.org/abs/1612.03196
作者: Jean-Pascal Pfister, Arko Ghosh
摘要: 智能手机用户每天触摸手机的屏幕数千次。触摸间隔遵循幂律分布。我们为这些智能手机触摸提出了一个多尺度的统计模型。在短时间尺度上,该模型受难治性影响,而在较长时间尺度下,触摸速率受智能手机任务与其他任务之间的优先级差异支配。我们表明,短期间隔的统计数据以及较长的时间间隔都可以很好地被模型所捕获。连续时间描述模型,并且可以解析地计算触摸间隔分布。
异质性社会系统疾病传播的因果推断
原文标题: Causal Inference in Disease Spread across a Heterogeneous Social System
地址: http://arxiv.org/abs/1801.08133
作者: Minkyoung Kim, Dean Paini, Raja Jurdak
摘要: 扩散过程由复杂系统中的外部触发和内部动态决定。传染病传播的及时和成本效益的控制严重依赖于揭示潜在的扩散机制,由于事件之间的无形因果关系和其时间演变的强度,这是具有挑战性的。我们推断感染之间的因果关系,并量化meta-population的反身性,通过其内部动态(事件触发的区域爆发的可能性)事件发生的反馈水平。这些都是通过我们提出的新模型Latent Influence Point Process潜在影响点过程(LIPP)来实现的,LIPP通过结合基于人类流动性的元人口的宏观内部动力学来模拟疾病传播。我们分析澳大利亚昆士兰15年的登革热病例。从我们的因果推断来看,暴发更可能是由全球范围内的全球扩散推动的,导致疾病传播的复杂行为。就反身性而言,人口稠密地区的前兆性增长和对称性下降归因于通过组间动态缓慢而持续地反馈之前的暴发,而突然的增长但周边地区的急剧下降是通过群体内动态的快速但不固定的反馈。我们提出的模型揭示了基于组内和组间动态的离散事件之间的概率因果关系,还包括直接和间接扩散过程(基于接触的和媒介传播的疾病传播)。
社会网络的对抗分类
原文标题: Adversarial Classification on Social Networks
地址: http://arxiv.org/abs/1801.08159
作者: Sixie Yu, Yevgeniy Vorobeychik, Scott Alfeld
摘要: 恶意或恶意内容通过社交媒体传播已成为一大挑战。传统的例子包括社会网络垃圾邮件,但重要的新问题是通过社交媒体传播假新闻。减轻这个问题的常用方法是使用标准的统计分类来区分恶意(例如,假新闻)和良性(例如实际的新闻故事)。然而,这样的方法忽略了恶意实例通过网络传播的事实,这在量化后果(例如,通过网络传播虚假消息)和捕获检测冗余(在不同节点处可以检测到不良内容)方面是相应的。另一个问题是逃避攻击,即恶意实例的生成者修改这些攻击的本质以逃避检测。我们将这个问题建模为在选择检测模型参数的防御者和选择发起恶意传播的节点以及恶意实体的性质的攻击者之间的Stackelberg博弈。我们针对这个问题开发了一种新的双层规划方法,以及一种基于隐式函数梯度的新颖的解决方案,并且实验证明了我们的方法优于忽略网络结构的替代方案。
图拉普拉斯矩阵的增量特征对计算:理论与应用
原文标题: Incremental Eigenpair Computation for Graph Laplacian Matrices: Theory and Applications
地址: http://arxiv.org/abs/1801.08196
作者: Pin-Yu Chen, Baichuan Zhang, Mohammad Al Hasan
摘要: 图的拉普拉斯矩阵的最小特征值和相关特征向量(即特征对)已被广泛用于谱聚类和社区检测。然而,在实际应用中,群集或社区的数量(比如说,$ K $)通常是未知的。因此,大多数现有的方法要么选择$ K $启发式,要么重复$ K $的不同选择的聚类方法,并接受最佳的聚类结果。第一种选择更多的是产生不理想的结果,而第二种选择是计算成本昂贵的。在这项工作中,我们提出了一个增量方法来构造图拉普拉斯矩阵的特征谱。这种方法利用图拉普拉斯矩阵的特征结构来获得拉普拉斯矩阵的$ K $ th最小特征对,给定所有先前计算的$ K-1 $最小特征对的集合。我们提出的方法适应拉普拉斯矩阵,使批量特征值分解问题转化为一个有效率的序列领先的特征对计算问题。作为实际应用,我们考虑用户引导的谱聚类。具体来说,我们证明用户可以利用提出的增量方法进行有效的特征对计算,并根据多个聚类度量来确定所需的聚类数量。
浮动森林:来自共识分类的公民科学数据定量验证
原文标题: Floating Forests: Quantitative Validation of Citizen Science Data Generated From Consensus Classifications
地址: http://arxiv.org/abs/1801.08522
作者: Isaac S. Rosenthal (Department of Biology, University of Massachusetts Boston), Jarrett E.K. Byrnes (Department of Biology, University of Massachusetts Boston), Kyle C. Cavanaugh (Department of Geography, University of California), Tom W. Bell (Department of Geography, University of California), Briana Harder, Alison J. Haupt (School of Natural Sciences, California State University Monterey Bay), Andrew T.W. Rassweiler (Department of Biological Science, Florida State University), Alejandro Pérez-Matus (Estación Costera de Investigaciones Marina, Pontificia Universidad Católica de Chile), Jorge Assis (Center of Marine Sciences, CCMAR- CIMAR, University of Algarve), Ali Swanson (The Zooniverse), Amy Boyer (The Zooniverse, Adler Planetarium, Chicago, IL 60605), Adam McMaster (The Zooniverse, Adler Planetarium), et al. (1 additional author not shown)
摘要: 大规模的研究工作可能受到限制可用数据量的后勤限制的阻碍。例如,全球生态问题需要一个全球数据集,而传统的采样协议往往效率太低,小型研究小组收集足够的数据。公民科学提供了众包数据收集的替代方案。尽管越来越受欢迎,但由于担心公民科学家收集的数据质量问题,社区对此抱有缓慢的态度。使用公民科学项目浮动森林(这个http URL),我们显示由公民科学家所做的共识分类产生的数据质量与专家生成的分类相当。浮游森林是一个基于网络的项目,在这个项目中,公民科学家观看海岸线的卫星照片,并追踪海带斑块的边界。自2014年启动以来,已有7000多位公民科学家在加利福尼亚州和塔斯马尼亚州分类了超过75万张海带森林图像。图像被15个用户分类。我们通过覆盖所有公民分类来产生共识分类,并通过与专家分类进行比较来评估准确性。计算每个阈值(1-15)的马修斯相关系数(MCC),最高的MCC阈值被认为是最优的。我们发现最佳用户阈值为4.2,Landsat 5和7的MCC为0.400(0.023 SE),Landsat 8的MCC为0.639(0.246 SE)。这些结果表明,来自共识分类的公民科学数据具有可比性精确到专家分类。公民科学项目应实施共识分类等方法,并与专家生成的分类进行量化比较,以避免对数据质量的担忧。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。