- 建立车辆交通网络。第一部分;
- 城市车辆交通:使用混合随机模型拟合数据。第二部分;
- 在线影响力营销的算法;
- 使用基于文本的特征检测Clickbait帖子的两级分类方法;
- 关于引用和Altmetrics之间的差异:调查驱动芬兰文章Altmetrics与引文的因素;
- 同质性解释社会网络中的感知偏见;
- 使用亚线性图样本进行度分布的可行和实际近似;
- 计算社会科学家当心:行为数据的辛普森悖论;
- 战略管理科学社区时间复杂网络中的富者越富和适应者越富现象;
- 带你的朋友!真实还是虚拟?;
- EagleMine:大图中的视觉引导式挖掘;
- 高阶网络中社区检测的算法不可行性;
- 随机块模型的算法可检测性阈值;
建立车辆交通网络。第一部分
原文标题: Modeling a vehicular traffic network. Part I
地址: http://arxiv.org/abs/1610.08963
作者: Dino Otero, Diógenes Galetti, Salomon S. Mizrahi
摘要: 我们提出了由网站(城市,租车机构,停车场等)组成的网络中的车辆交通的三个模型,并通过双向动脉(道路,高速公路)连接,这样可以预测车辆通量$ n $连续步骤的顺序,或单位时间。一个基本的方法是将以前的观察和测量用作“先验”信息。在我们的分析中使用的正式工具包括:(1)将有向图与边对应于动脉的网络相关联,并且具有循环的顶点代表站点。 (2)从一组初始数字,即网络中车辆的分布,我们构造一个矩阵,通过归一化这些行的转换概率,将矩阵归一化为随机矩阵(SM)。该矩阵成为交通流演进的发生器。和(3),我们使用Perron-Frobenius理论进行正式分析。我们调查了三个模型:(a)具有保存车辆数量的封闭式四站点网络; (b)在这个网络中,我们增加了流入和流出车辆来表征开放系统;渐近地,$ n \ rightarrow \ infty $,SM提升到权力$ n $去到独特的固定矩阵。和(c),我们构建一个非线性模型,因为形式结构允许存在几个($ L $)稳定状态,用于在每个站点分配车辆,周期性地随时间交替。每个状态代表$ L $不同时刻的流量。这些模型用于分析位于阿根廷布宜诺斯艾利斯省的蒂格雷市的一个行业的交通。结果显示在下面的文章中。
城市车辆交通:使用混合随机模型拟合数据。第二部分
原文标题: Urban vehicular traffic: fitting the data using a hybrid stochastic model. Part II
地址: http://arxiv.org/abs/1710.08571
作者: Ariel Amadio, Facundo Nicuesa, D. Otero, D. Galetti, S. S. Mizrahi
摘要: 在我们研究的第二部分中,我们使用了\ emph(建模车辆交通网络)中提出的模型。第一部分} \ cite {ogm1}对阿根廷布宜诺斯艾利斯省的一个城市Tigre所选择的部门分布的摄像机进行城市交通分析。我们发现,一整天的车辆流动 - 交通动态 - 可以通过一种混合模型来描述,该混合模型是一种适用于开放式线性系统的模型2与模型3的混合模型,它是非线性的,这项工作的目标是首先验证车辆通量是否可以被模型化为一个$ n $步进随机过程,其演化时间为$ n $。其次,为了确定模型,其参数固定为描述一天的流量,可以在其他日子里充分描述流量。第三,提出已经建立的城市交通规则的变化,以优化车辆流量,并减少车辆在信号灯处怠速的平均时间。我们估计,在收集的数据的实验错误的边内,目标得到了令人满意的结果。
在线影响力营销的算法
原文标题: Algorithms for Online Influencer Marketing
地址: http://arxiv.org/abs/1702.05354
作者: Paul Lagrée, Olivier Cappé, Bogdan Cautis, Silviu Maniu
摘要: 影响最大化是在图中发现有影响力的用户或节点的问题,以便最大化信息的传播。它在社会网络的广告和营销方面有很多应用。在本文中,我们研究了高度通用的影响力最大化版本,其中优化影响力活动之一是通过从一组影响者中选择“传播种子”,这是一个小的子节点群体,假设在给定的活动中,先前激活的节点在整个过程中保持“持续”活动,从而不会产生更多的奖励。这个问题特别适用于一种重要的在线营销形式,被称为影响力营销,其中营销人员瞄准了有影响力的人群,而不是潜在买家的全部基础。重要的是,我们不对潜在的扩散模型做出任何假设,我们在扩散网络和历史激活数据都不可用的环境中工作。我们称这个问题在线影响力营销持续(简称OIMP)。我们首先讨论激励场景并介绍我们的一般方法。我们介绍一个关于影响者剩余潜力的估计器 - 从给定的影响因素仍然可以达到的节点的预期数量 - 并且通过依赖于从Twitter收集的实际数据来快速估计所需值来证明其实力。然后,我们描述一种新颖的算法GT-UCB,依赖于对剩余电位的上限置信区间。我们表明,我们的方法导致模拟和实际数据集上的高质量传播,尽管它几乎不对扩散介质做出任何假设。重要的是,它比最先进的影响力最大化方法快几个数量级,可以处理大规模的在线场景。
使用基于文本的特征检测Clickbait帖子的两级分类方法
原文标题: A Two-Level Classification Approach for Detecting Clickbait Posts using Text-Based Features
地址: http://arxiv.org/abs/1710.08528
作者: Olga Papadopoulou, Markos Zampoglou, Symeon Papadopoulos, Ioannis Kompatsiaris
摘要: 社交媒体作为新闻来源的出现导致了clickbait帖子的兴起,试图吸引用户点击文章链接,而不通知他们实际的文章内容。本文介绍了我们努力创建一个灵感来自虚拟新闻检测算法的Clickbait检测器,以及我们提交给Clickbait挑战2017。检测器几乎完全基于从以前的Clickbait检测工作中获取的基于文本的功能,我们自己的假的工作后检测和我们专门为挑战设计的功能。我们使用两级分类方法,将第一级分类器的输出组合在二级特征向量中。我们将从文章和目标文章标题以及特征选择中提取具有各自特征及其组合的探索性结果。虽然我们对数据集的盲目测试导致F值为0.63,但我们在挑战赛中的最终评估只得到0.43的F分数。我们探讨可能的原因,并为未来的未来步骤展开更多成功的结果。
关于引用和Altmetrics之间的差异:调查驱动芬兰文章Altmetrics与引文的因素
原文标题: On the differences between citations and altmetrics: An investigation of factors driving altmetrics vs. citations for Finnish articles
地址: http://arxiv.org/abs/1710.08594
作者: Fereshteh Didegah, Timothy D. Bowman, Kim Holmberg
摘要: 本研究考察了一系列与未来引文和高精度计数相关的因素。因素包括期刊影响因子,个人协作,国际合作,机构声望,国家声望,研究经费,抽象可读性,抽象长度,标题长度,引用参考数量,字段大小和字段类型,并将与引用相关联计数,门德利读者,Twitter帖子,Facebook帖子,博客帖子和新闻帖子。结果表明,八个因素对于增加引用数量很重要,七个不同的因素对于增加的门德利读者十分重要,其中八个因素对于增加Twitter的帖子很重要,三个因素对于增加Facebook职位很重要,六个因素对于增加博客帖子很重要,五个因素对于增加新闻报道很重要。期刊影响因子和国际合作是与增加的引文数量和所有高度分数显着相关的两个因素。此外,似乎驱动门德利读者的因素与驾驶引用数量相似。然而,高度测量事件在少数因素方面彼此不同;例如,机构声望和国家声望与增加的门德利读者和博客和新闻帖子相关联,但对Twitter和Facebook职位来说,这是一个微不足道的因素。这些发现有助于持续发展与捕获,解释和理解高度事件有关的理论模型和方法发展。
同质性解释社会网络中的感知偏见
原文标题: Homophily explains perception biases in social networks
地址: http://arxiv.org/abs/1710.08601
作者: Eun Lee, Fariba Karimi, Hang-Hyun Jo, Markus Strohmaier, Claudia Wagner
摘要: 个人对社会网络中属性普遍性的看法通常被有限的信息所偏好。过滤气泡 - 暴露于其他志同道合的人 - 大多数幻想 - 对社会网络中少数群体的过高估计 - 是感知偏见如何表现的两个例子。在本文中,我们展示了群体规模如何影响社会网络中感知偏见的出现。使用具有可调节同质性和群体大小的生成网络模型,我们在分析和数字上展示了哪些条件以及多大程度的感知偏差可以出现。我们将这些理论结果与具有不同水平的同质和群体大小的六个现实世界网络中的感知偏差的实证研究进行比较。我们的研究结果显示(i)感知偏见可能出现在具有高同质或高度异质性和不平等群体规模的社会网络中,(ii)这些影响与网络中同质性的不对称性高度相关,以及(iii)节点不被系统地扭曲或增强。最后,我们探讨在哪些结构条件下,个人可以通过考虑其直接邻居的感知来减少他们的感知偏见。这些结果提高了我们对网络结构对感知偏差的影响的理解,并提出了一种在社会中解决这个问题的量化方法。
使用亚线性图样本进行度分布的可行和实际近似
原文标题: Provable and practical approximations for the degree distribution using sublinear graph samples
地址: http://arxiv.org/abs/1710.08607
作者: Talya Eden, Shweta Jain, Ali Pinar, Dana Ron, C. Seshadhri
摘要: 度数分布是大量图分析中使用的最基本的属性之一。有一个关于\ emph {graph sampling}的大量文献,其目的是通过小的随机样本来估计大图的属性(特别是程度分布)。度数分布估计是一个重大挑战,因为它的重尾性质和程度差异很大。我们为这个问题设计一种新的算法SADDLES,使用\ emph {sublinear algorithms}的最新数学技术。 SADDLES算法为度数分布的所有值提供了可靠的精确输出。为了分析,我们定义了两个度数分布的肥胖度量,称为\ emph {$ h $ -index}和\ emph {$ z $ -index}。当这些索引很大时,我们证明SADDLES在图大小中是亚线性的。这个结果的推论是一个可靠的亚线性算法,适用于下面由幂律定义的任何度数分布。我们在各种实际数据集上部署我们的新算法,并展示其优秀的经验行为。在所有情况下,我们通过观察最多$ 1 \%$的顶点,获得度数分布中所有值的非常准确的近似值。这是对最先进的采样算法的一个重大改进,它通常采用超过$ 10 \%$的顶点来提供可比较的结果。我们还观察到,真实图的$ h $和$ z $指数很大,可以验证我们的理论分析。
计算社会科学家当心:行为数据的辛普森悖论
原文标题: Computational Social Scientist Beware: Simpson's Paradox in Behavioral Data
地址: http://arxiv.org/abs/1710.08615
作者: Kristina Lerman
摘要: 关于人类行为的观察数据通常是异质的,即由研究中的群体中的亚群在大小和行为上变化而产生。异质性倾向于对辛普森悖论的分析,从而在整个人群中聚集的数据中观察到的趋势可能与基础子群体的趋势大不相同。我用Simpson的悖论说明了几个来自网络行为研究的例子,并表明总体反应导致关于个人行为的错误结论。然后,我提出一个简单的方法来测试辛普森的悖论是否影响分析结果。辛普森在社会数据中的悖论表明,人口中存在着重要的行为差异,并且不考虑这些差异可能会扭曲研究结果。
战略管理科学社区时间复杂网络中的富者越富和适应者越富现象
原文标题: The Rich get Richer and the Fit get Richer Phenomena in Temporal Complex Networks in the Strategic Management Scientific Community
地址: http://arxiv.org/abs/1710.08688
作者: Ronda-Pupo, Guillermo Armando, Thong Pham
摘要: 本文的目的是确定战略管理科学界的时间复杂共同作者和引文网络的一般优先连接功能和作者适应性。这些经常被描述为富有的更富有,更适合变得更丰富的现象。这是通过使用社区旗舰期刊“战略管理杂志”的PAFit方法完成的。结果表明,共同作者和引文的时间网络由适应性更丰富和丰富的进程控制。 2010-2017年期间共同作者网络优先连接功能的附件指数为1.12,这意味着该时间段的共同作者网络由“获胜者全部”现象描述:所有新进入者共同作者网络将通过最高的连接作者进入。另一方面,引文网络中的附件指数平均为0.3,这表明引文网络中丰富的更丰富的现象比共同作者网络弱。这意味着每个作者的内在科学质量在获得新的引文比共同作者更重要。此外,作者对共同作者和引文网络的适应度与战略管理科学界的历史相一致。
带你的朋友!真实还是虚拟?
原文标题: Bring your friend! Real or virtual?
地址: http://arxiv.org/abs/1710.08693
作者: Elias Carroni, Paolo Pin, Simone Righi
摘要: 垄断者面临部分不了解的消费者群体,通过有针对性的社会网络相互联系。在网络中,垄断者向知情的消费者(影响者)提供奖励,条件是通知不知情的消费者(受影响)。奖励需要承担通信费用。我们调查垄断者转移到更密集网络的动机以及这一决定对社会福利的影响。信息传播中的社会福利增加,对于给定的沟通激励措施,在更密集的网络中更高。然而,垄断者内部化转移,因此可能更喜欢知情消费者之间的竞争较少的环境。高度相关的影响者(中心)的存在是调整垄断激励和福利的主要驱动因素。
EagleMine:大图中的视觉引导式挖掘
原文标题: EagleMine: Vision-Guided Mining in Large Graphs
地址: http://arxiv.org/abs/1710.08756
作者: Wenjie Feng, Shenghua Liu, Christos Faloutsos, Bryan Hooi, Huawei Shen, Xueqi Cheng
摘要: 给出了具有数百万个节点的图,节点特征分布中存在什么样的模式,以及如何以类似于人类视觉的方式检测它们并分离异常节点?在本文中,我们提出了一种视觉引导算法EagleMine,从大图中的节点特征构建的二维直方图中总结了微簇模式。 EagleMine利用一个水平的树根据多分辨率下的基于视觉的直觉来捕获簇结构。 EagleMine从根部穿过水位树,采用统计假设检验来确定沿路径拟合的最优聚类,并对每个具有截断高斯分布的聚类进行汇总。实际数据的实验表明,我们的方法可以发现截断和重叠的椭圆形集群,即使一些基线方法将一个视觉集群分割成高斯球体。为了识别潜在的异常微团簇,EagleMine还可以在真实的Microblog数据中高精度地测量异常值组(即节点簇)和异常值节点的可疑性的指定分数,检测机器人和异常用户。
高阶网络中社区检测的算法不可行性
原文标题: Algorithmic infeasibility of community detection in higher-order networks
地址: http://arxiv.org/abs/1710.08816
作者: Tatsuro Kawamoto
摘要: 原则上,具有多种边类型的高阶网络比其低阶对等体的信息量更大。然而,实际上,过多的信息在算法上可能无法提取。它需要一种假设高维模型的算法,并且这种算法对于模型参数的初始估计可能表现不佳或非常敏感。在这里,我们通过可检测性分析来解决这个社区检测问题。我们专注于具有置信传播(BP)的期望最大化(EM)算法,并且分析地导出其算法可检测性阈值,即模块化结构强度的极限,在该限制之下,算法不能再检测任何模块化结构。结果表明,存在一个阶段,其中低阶网络的社区检测优于其较高阶对等体。
随机块模型的算法可检测性阈值
原文标题: Algorithmic detectability threshold of the stochastic blockmodel
地址: http://arxiv.org/abs/1710.08841
作者: Tatsuro Kawamoto
摘要: 模型参数的值已知或正确学习的假设,即Nishimori条件是统计推断中随机块模型的可检测性分析的要求之一。但实际上,没有一个例子可以预先知道模型参数,也不能保证模型参数能被准确地学习。在本研究中,我们考虑了具有置信传播(BP)的期望最大化(EM)算法,并得出其算法可检测性阈值。我们的分析不仅限于社区结构,还包括一般的模块化结构。由于算法不能正确地学习种植模型参数,所以算法可检测性阈值与西式条件的定性不同。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。