最近几周不在国内,更新或有延迟。
- 文化结构的普遍性的迹象;
- 基于社区的边属性图的孤立点检测;
- 地理空间作为利用大数据预测人类活动的生命结构;
- 信息级联有多脆弱?;
- 路透社追踪:使用大规模社交媒体数据走向自动化新闻制作;
- 矩阵分解的广义神经图嵌入;
- 随机推荐系统研究综述;
- STWalk:在含时图中学习轨迹表示;
- 主动支持网络的协调技术:背景,需求和设计;
- 跨数据集链接稀疏事件或不共同事件的事件序列;
- 基于网络数据的企业风险管理原则;
- 基于团的图的固定概率;
- 网络拆分对级联失效过程的影响;
- 迈向软件生态系统健康的跨学科,社会技术分析;
- 控制复杂的政策问题:使用系统动力学和网络可控性的多方法学方法;
- 关于难民移民的德拜 - 克克尔理论;
- 代理人之间的一系列互动对组织内知识转移的效率和有效性的影响;
- 重返高等教育:来自罗马尼亚的证据;
- 网络中隐藏的几何是由协作自组装引起的;
- 通过边滤波实现相似性的谱稀疏化;
- 有限可穿透水平可见性图族的拓扑性质的理论结果;
文化结构的普遍性的迹象
原文标题: Signs of universality in the structure of culture
地址: http://arxiv.org/abs/1506.01634
作者: Alexandru-Ionuţ Băbeanu, Leandros Talman, Diego Garlaschelli
摘要: 从整体上理解意见,偏好和文化的动态需要更多地使用经验数据。很显然,推动这一动态的一个重要角色是社会影响力,这是许多定量模型的基本要素。这种模式要求所有特征在确定“初始文化状态”时都是固定的。典型地,这个初始状态是随机生成的,从一组可能的性状组合的均匀分布中随机生成。然而,最近的研究表明,社会影响力的结果强烈依赖于初始状态的性质。如果后者是从经验数据中抽取出来的,而不是以一种统一的随机方式生成的话,那么在长期动态之后就会发现更高水平的文化多样性,因为短期内集体行为的倾向程度相同。而且,如果初始状态是通过改变人们的经验性特征而随机化的,那么长期文化多样性的水平就介于经验性和均匀随机性之间。目前的研究重复了多个经验数据集的分析,表明结果非常相似,尽管文化变量之间的相关矩阵在数据集之间有明显的不同。这指向了经验文化状态所固有的强大的结构特性,可能是由于在现实世界中管理文化动态的普遍规律。结果还表明,这种动态可能具有临界性,并涉及超越社会影响的机制。
基于社区的边属性图的孤立点检测
原文标题: Community-based Outlier Detection for Edge-attributed Graphs
地址: http://arxiv.org/abs/1612.09435
作者: Supriya Pandhre, Manish Gupta, Vineeth N Balasubramanian
摘要: 作为分析复杂关系数据的一种手段,网络的研究已经出现在不同的学科中。除了图分析任务,如图查询处理,链接分析,影响传播以外,近年来在信息网络数据异常检测领域也有一些工作。虽然已经针对图数据研究了各种异常值,但是从边属性图的异常检测没有太多的工作。在本文中,我们介绍一种方法,通过考虑节点数据和边数据同时检测异常,检测新颖的异常图节点。我们将这个问题作为一个社区检测任务来建模,在这个任务中,异常值形成一个单独的社区我们提出了一种方法,使用概率图模型(隐马尔可夫随机场)对网络中节点和边的联合建模来计算整体社区异常值(HCOutliers)。因此,我们的模型为两个节点之间具有多条边/关系的异构图呈现出自然的设置。 EM(期望最大化)用于学习模型参数,并推断隐藏的社区标签。在合成数据集和DBLP数据集上的实验结果显示了我们的方法从网络中发现新异常值的有效性。
地理空间作为利用大数据预测人类活动的生命结构
原文标题: Geographic Space as a Living Structure for Predicting Human Activities Using Big Data
地址: http://arxiv.org/abs/1701.04005
作者: Bin Jiang, Zheng Ren
摘要: 受克里斯托弗·亚历山大(Christopher Alexanders)世界观的启发 - 空间不是毫无生气或中性的,而是一个比大的空间更小的事物的生活结构,以前已经开发出一种拓扑表征来表征地理空间的生命结构或整体性。本文进一步开发了用于预测地理空间人类活动的拓扑表征和生命结构。基于从OpenStreetMap提取的英国数百万个街道节点,我们建立了不同层次的生活结构。我们发现,不同层级的推特位置,如国家和城市,都可以通过潜在的生活结构很好地预测。高度的可预测性表明,生物结构和拓扑表示对于更好地理解地理形式是有效和有效的。基于这一主要发现,我们认为拓扑表示是一个真正的多尺度表示,并指出现有的地理表征本质上是单一的尺度,所以它们承担着许多尺度问题,如可修改的区域单位问题,长度难题,和生态谬误。我们进一步讨论为什么生命结构是构建地理空间大数据的有效工具,为什么Alexanders有机世界观构成了第三种空间观。关键词:有机世界观,拓扑表征,微博位置,自然城市,地理空间尺度
信息级联有多脆弱?
原文标题: How fragile are information cascades?
地址: http://arxiv.org/abs/1711.04024
作者: Yuval Peres, Miklos Z. Racz, Allan Sly, Izabella Stuhl
摘要: 众所周知,顺序决策可能导致信息级联。也就是说,当代理人根据他们的私人信息作出决定,并观察他们面前的行为时,忽视他们的私人信号和模仿以前的个人行为可能是合理的。如果个人在一个正确和错误的状态之间进行选择,并且最初的行为是错误的,那么整个级联就是错误的。这个问题是由于级联可能基于很少的信息。我们证明,如果代理人偶尔忽视他人的行为,只根据他们的私人信息采取行动,那么可以避免错误的级联。此外,我们研究时间$ t $的错误概率可能为零的最佳渐近率。最佳策略是玩家在时间$ t $时以概率$ p_ {t} = c / t $跟随他们的私人信息,导致$ c'/ t $的学习率,其中常量$ c $和$ c'$是显式的。
路透社追踪:使用大规模社交媒体数据走向自动化新闻制作
原文标题: Reuters Tracer: Toward Automated News Production Using Large Scale Social Media Data
地址: http://arxiv.org/abs/1711.04068
作者: Xiaomo Liu, Armineh Nourbakhsh, Quanzhi Li, Sameena Shah, Robert Martin, John Duprey
摘要: 为了应对信息量巨大的竞争优势,新闻业已经开始探索和投资新闻自动化。在本文中,我们介绍路透社Tracer,一个使用Twitter数据自动化端到端新闻制作的系统。它能够对路透社记者进行实时检测,分类,标注和传播新闻,无需人工干预。与其他类似的系统相比,Tracer是主题和域不可知的。它具有自下而上的新闻检测方法,不依赖于预定义的来源或主题。相反,它会识别每天来自1200万个推文的新兴对话,并选择那些类似新闻的内容。然后,通过给每个故事添加一个概要和一个主题,评估它的新闻价值,准确性,新颖性和范围,并对它进行地理标记。设计算法来生成符合路透社记者准确性和及时性标准的新闻相当具有挑战性。但是Tracer能够在新闻检测和交付方面实现有竞争力的精确度,召回率,及时性和准确性。在本文中,我们揭示了帮助我们实现这一目标的关键算法设计和评估,以及沿途的经验教训。
矩阵分解的广义神经图嵌入
原文标题: Generalized Neural Graph Embedding with Matrix Factorization
地址: http://arxiv.org/abs/1711.04094
作者: Junliang Guo, Linli Xu, Xunpeng Huang, Enhong Chen
摘要: 语言建模(如word2vec)的最新进展通过将随机游走序列视为句子来对图中的结构邻近点进行编码,从而激发了许多图嵌入方法。然而,神经图嵌入的大部分原理并没有灵活地包含节点内容等辅助信息。在本文中,我们将图嵌入的矩阵分解视角推广到结构嵌入以及以自然方式嵌入内容。对于结构嵌入,我们验证了我们构造和分解的矩阵保留了图的高阶近似。标签信息可以通过随机游走采样的过程进一步整合到矩阵中,以提高嵌入的质量。另外,我们推广了Skip-Gram Negative Sampling模型,将图的内容整合到矩阵分解框架中。因此,图嵌入可以在集成图结构和节点内容以及标签信息的统一框架中同时学习。我们证明了所提出的模型在半监督节点分类和链路预测的任务在各种现实世界的基准网络数据集的功效。
随机推荐系统研究综述
原文标题: Recommender Systems with Random Walks: A Survey
地址: http://arxiv.org/abs/1711.04101
作者: Laknath Semage
摘要: 推荐引擎已成为当今电子商务系统不可或缺的组成部分。从推荐亚马逊书籍到在Facebook等社会网络上寻找朋友,他们已经变得无所不在。一般来说,推荐系统可以分为两大类:基于内容的和基于协作过滤的模型。这两个模型都建立了用户和项目之间的关系来提供建议。基于内容的系统通过利用从可用上下文提取的特征来实现这个任务,而协作系统使用用户项目子集之间的共享兴趣。还有一个相对未开发的方法提供建议,使用随机过程,随机行走。本研究是一项探索推荐系统随机行走的使用案例,并试图对其进行分类。
STWalk:在含时图中学习轨迹表示
原文标题: STWalk: Learning Trajectory Representations in Temporal Graphs
地址: http://arxiv.org/abs/1711.04150
作者: Supriya Pandhre, Himangi Mittal, Manish Gupta, Vineeth N Balasubramanian
摘要: 分析时变图中节点的时间行为对于诸如有向广告,社区演变和异常值检测等许多应用是有用的。在本文中,我们提出了一种新颖的方法,STWalk,用于学习含时图中节点的轨迹表示。所提出的框架利用当前和以前时间步的图的结构性质来学习有效的节点轨迹表示。 STWalk在给定时间步长(称为空间步行)以及过去时间步长(称为时间步长)的图上执行随机行走,以捕获节点的时空行为。我们提出两个STWalk变体来学习轨迹表示。在一个算法中,我们执行空间漫游和时间漫游作为一个步骤的一部分。在另一个变体中,我们分别执行空间步行和时间步行,并将学习的表示组合起来以获得最终的轨迹嵌入。与三个基线方法相比,在三个真实世界含时图数据集上进行的大量实验验证了学习表示的有效性。我们还展示了用于变化点检测的学习轨迹嵌入的好处,并且证明了对这些轨迹表示的算术运算产生有趣和可解释的结果。
主动支持网络的协调技术:背景,需求和设计
原文标题: Coordination Technology for Active Support Networks: Context, Needfinding, and Design
地址: http://arxiv.org/abs/1711.04216
作者: Stanley J. Rosenschein, Todd Davies
摘要: 协调是解决许多人类活动中的目标 - 行动差距的关键问题。我们将人际协调定义为一种以低人际信念和目标冲突为特征的交际行为。这种情况特别好描述为集体“聪明”,“共同利益”的解决办法,即几乎所有人都同意的社会改善。协调在各种人际交流中是有用的 - 从孤立的个人到组织团队。对团队和组织的协调给予了很大的关注。在本文中,我们将重点放在我们称之为主动支持网络(ASN)的更宽松的人际关系结构以及满足其需求的技术上。我们描述了两项关注社会支持的需求调查,这些调查研究了(a)四个改善ASN协调的应用领域:(一)学术辅导,(二)职业培训,(三)早期学习干预,(四)志愿者协调;和(b)与ASN有关的现有技术。我们发现个人任务管理软件对于个人主动支持网络的平滑集成至今尚未得到满足。根据已确定的需求,我们将描述一个已经发展成为工作软件的协调开放架构。这个设计包括一套我们称之为“社交提示”的功能,以及完成多任务目标的模板,以及一个控制网络协调的引擎。由此产生的工具目前是可用的,并在继续发展。我们用一个例子来解释它在ASN中的使用。随后的研究正在将技术应用到现有的支持网络中。
跨数据集链接稀疏事件或不共同事件的事件序列
原文标题: Linking Sequences of Events with Sparse or No Common Occurrence across Data Sets
地址: http://arxiv.org/abs/1711.04248
作者: Yunsung Kim
摘要: 实际感兴趣的数据(如个人记录,交易日志和医疗历史记录)是与特定源实体相关的事件的连续收集。最近的研究试图将代表数据集中共同实体的序列联系起来,以便进行更全面的统计分析,并识别潜在的隐私失败。然而,目前的方法仍然适合于它们的特定应用领域,并且当不同数据集中的共同参照序列含有稀疏或不共有的事件(其在许多情况下经常发生)时失败。为了解决这个问题,我们将“序列连接”的一般问题形式化,并描述“LDA-Link”,这是一种通用的解决方案,即使当共同参照事件序列完全不包含共同项时也是适用的。 LDA-Link建立在“Split-Document”模型之上,一种新的用于生成事件序列集合的混合成员概率模型。它检测序列的潜在相似性,从而实现鲁棒性,特别是当共同参照序列共享稀疏或无事件重叠时。我们将LDA-Link应用于社交媒体配置文件调解的环境中,用户在平台上没有共同的职位,与最先进的通用解决方案相比,可以进行序列连接。
基于网络数据的企业风险管理原则
原文标题: On the ERM Principle with Networked Data
地址: http://arxiv.org/abs/1711.04297
作者: Yuanhong Wang, Yuyi Wang, Xingwu Liu, Juhua Pu
摘要: 网络化的数据,其中每个训练实例涉及两个对象,可能与其他人共享一些共同的对象,用于许多机器学习任务,如学习排序和链路预测。从网络化的例子中学习的一个挑战是目标值对于一些对象是不知道的。在这种情况下,既不能使用传统的i.i.d. \假设,也不能使用基于完整U统计量的技术。这个问题的大多数已有的理论结果只能处理经典的经验风险最小化(ERM)原则,这个原则总是对每一个例子进行均等的权重,但是这个策略导致了不满意的界限。我们考虑一般的加权企业风险管理,并为这个问题展示新的普遍风险界限。这些新的边界自然会定义一个优化问题,从而为网络示例带来适当的权重。虽然这个优化问题一般不是凸的,但是我们设计了一个新的完全多项式时间近似方案(FPTAS)来解决这个问题。
基于团的图的固定概率
原文标题: Fixation probability on clique-based graphs
地址: http://arxiv.org/abs/1711.04393
作者: Jeong-Ok Choi, Unjong Yu
摘要: Moran过程的演化动力学中一个突变体的凝固概率通过Monte-Carlo方法在少数几个基于族的图上计算。结果表明,在小轮盘比和无限大小的限制下,可以用广义的轮盘图实现完全的注视抑制。集团星的家族是一个放大器,随着突变体的适应性增加,集团的手臂图从放大器变成抑制器。我们证明一个图的整体结构对于确定固定概率比度或热不均匀性更重要。讨论了固定概率对第一突变体位置的依赖性。
网络拆分对级联失效过程的影响
原文标题: The impact of a network split on cascading failure processes
地址: http://arxiv.org/abs/1711.04491
作者: Fiona Sloothaak, Sem C. Borst, Bert Zwart
摘要: 级联故障模型通常用于捕获故障,可能会连续触发进一步的故障,造成连锁效应。在许多网络中,这最终导致网络崩溃,其中故障传播在各个部件之间独立地继续。为了深入了解网络分裂对级联故障过程的影响,我们扩展了一个完善的级联故障模型,其中故障次数服从幂律分布。我们假设单线路故障立即将网络分成两个部分,并检查其对幂律指数的影响。结果提供了有价值的定性分析,这是理解更复杂的网络分裂情况的关键性的第一步。
迈向软件生态系统健康的跨学科,社会技术分析
原文标题: Towards an interdisciplinary, socio-technical analysis of software ecosystem health
地址: http://arxiv.org/abs/1711.04532
作者: Tom Mens, Bram Adams, Josianne Marsan
摘要: 本扩展摘要介绍了加拿大蒙特利尔理工大学,比利时蒙斯大学和加拿大拉瓦尔大学研究小组正在进行的跨学科研究项目SECOHealth的研究目标和初步研究成果。 SECOHealth旨在通过提供经过验证的跨学科科学方法论,以及用于改进软件生态系统健康的指导方针和推荐工具目录,为软件工程的研究和实践做出贡献。
控制复杂的政策问题:使用系统动力学和网络可控性的多方法学方法
原文标题: Controlling complex policy problems: a multimethodological approach using system dynamics and network controllability
地址: http://arxiv.org/abs/1711.04697
作者: Lukas Schoenenberger, Radu Tanase
摘要: 尽管在分析复杂的政策问题时系统动力学是有用的,但是政策设计远非直截了当,而且在很多情况下是由试验错误驱动的。为了应对这一挑战,我们建议将系统动力学与网络可控性(网络科学领域的一个新兴领域)相结合,以促进在系统动力学模型中检测有效杠杆点,从而支持有影响力的策略的设计。我们通过分析经典的系统动力学模型来说明我们的方法:世界动力学模型。我们表明,只控制53%的变量就足以控制整个系统到一个任意的最终状态。我们进一步根据它们在控制系统中的重要性对所有变量进行排序,我们通过显示高排序变量与低排序变量相比对系统行为有显著较大的影响来验证我们的方法。
关于难民移民的德拜 - 克克尔理论
原文标题: Debye-H"{u}ckel Theory for Refugees' Migration
地址: http://arxiv.org/abs/1711.05052
作者: Sara Najem
摘要: 在这封信中,我们按照难民专员办事处的记录,跟踪短程的叙利亚难民向黎巴嫩的移民。我们提出了一个受德拜 - 克吕克尔理论启发的模型,并且表明,它恰当地预测了难民的流动性,而引力模型却失败了。我们声称,起源城市之间的相互作用衰减和/或减少流向目的地的流量,因此,类似于等离子体中相互作用粒子的有效电荷,这些源城市的特点是有效的人口数量取决于他们之间的偏远/亲密度,并由各方之间的控制区域来定义。
代理人之间的一系列互动对组织内知识转移的效率和有效性的影响
原文标题: Influence of a range of interaction among agents on efficiency and effectiveness of knowledge transfer within an organisation
地址: http://arxiv.org/abs/1711.05065
作者: Kamil Paradowski (1), Agnieszka Kowalska-Styczeń (2), Krzysztof Malarz (1), ((1) AGH University of Science and Technology, (2) Silesian University of Technology)
摘要: 在这项研究中,我们研究了组织成员之间的非正式群体的规模如何影响知识在这个过程的效率和有效性的背景下的转移。为了分析知识转移的动态,使用元胞自动机模型。该模型基于组织成员之间的当地交流,这些交流发生在最近的社区。这些邻近的邻居组由von Neumann的邻居(四个最近邻居)和Moore邻居(四个最近邻居和四个次邻居)和复杂邻居(四个最近邻居,四个次邻居和四个next-next -邻居)。仿真结果表明了邻域大小对知识转移效率的影响。
重返高等教育:来自罗马尼亚的证据
原文标题: The return to higher education: evidence from Romania
地址: http://arxiv.org/abs/1711.05076
作者: Bogdan Oancea, Richard Pospisil, Raluca Mariana Dragoescu
摘要: 教育是人力资本最重要的组成部分之一,也是个人收入的重要决定因素。估计教育回报率是经济研究的一个主要话题。在本文中,我们用着名的Mincer方程分析了罗马尼亚高等教育的回报率。除了教育水平和劳动力市场的多年经验外,我们还使用了一系列社会人口变量,如性别,公民身份和居住地区。我们主要感兴趣的是计算高等教育的回报率,因此我们分别计算了学士,硕士和博士学位。我们还调查了技术,科学,经济,法律,医学和艺术领域的高等教育回报率。我们的研究结果显示,高等教育回报率高于欧盟大部分发达国家,而回报率最高的高等教育领域是医学
网络中隐藏的几何是由协作自组装引起的
原文标题: Hidden geometries in networks arising from cooperative self-assembly
地址: http://arxiv.org/abs/1711.05117
作者: Milovan Suvakov, Miroslav Andjelkovic, Bosiljka Tadic
摘要: 涉及纳米颗粒的小组结构的多级自组装提供了具有复杂结构的功能材料的发展的新途径。除了粒子间作用力之外,构件的几何形状和相容性也是每个增长阶段的决定性因素。因此,对这些过程的全面了解对于设计具有所需特性的大型组件至关重要。在这里,我们介绍了一个计算模型的协同自组装同时连接的粒子结构组,可以描述单一(连接对,三角形,四面体和更高阶次派生)到一个成长网络,从一个小种子开始。该模型结合了几何规则,为新组提供合适的嵌套空间以及系统的化学亲和性$ \ nu $来接受过多的粒子。对于不同的化学亲和力,我们通过绑定分布式大小的团体来生成不同类型的程序集。此外,为了表征新兴的大规模结构,我们使用图论的理论和图的代数拓扑,并对网络的固有双曲性进行四点检验。我们的研究结果表明,出现的单纯复合物的Q连通性较高,可能是由于几何因素,即对于$ \ nu = 0 $,并且可以通过改变化学势和多分散性的大小绑定单工。对于模型中的某些参数,我们获得了单分散点击,三角形和四面体的网络,它们代表了与量子物理学和频繁发生的化学团簇有关的几何描述符。
通过边滤波实现相似性的谱稀疏化
原文标题: Similarity-Aware Spectral Sparsification by Edge Filtering
地址: http://arxiv.org/abs/1711.05135
作者: Zhuo Feng
摘要: 近年来,能够计算超稀疏图表代理的谱图稀疏化技术已被广泛研究,以加速各种数字和图相关的应用。先前的近线性时间谱稀疏化方法首先提取原始图的低延展生成树形成稀疏化器的骨干,然后恢复小部分谱临界的离散树边以跨越显著提高近似质量。但是,为了在稀疏器内达到所需的谱相似性水平,应该恢复多少离散树边还不清楚。在最近的图信号处理技术的推动下,本文提出了一种利用高效离树边滤波方案构造具有保证谱相似度(相对条件数)级别的谱稀疏度的相似度感知谱图稀疏化框架。引入迭代图密化框架和广义特征值稳定性检查方案,即使对于高度病态的问题,也能实现离树边的高效和有效的滤波。所提出的方法已经使用从与VLSI CAD相关的公共领域稀疏矩阵集合,有限元分析以及经常在许多机器学习和数据挖掘应用中经常研究的社交和数据网络获得的各种图来验证。
有限可穿透水平可见性图族的拓扑性质的理论结果
原文标题: Theoretical results on the topological properties of the limited penetrable horizontal visibility graph family
地址: http://arxiv.org/abs/1711.05158
作者: Minggang Wang, Andre L.M.Vilela, Ruijin Du, Longfeng Zhao, Gaogao Dong, Lixin Tian, H. Eugene Stanley
摘要: 最近引入了有限的可穿透水平可见性图算法来映射复杂网络中的时间序列。我们扩展这个可见性图,并创建一个有向的有限可穿透水平可见性图和一个有限的可穿透水平可见性图。我们定义了这两种算法,并提供了与不同类型的实值序列(或矩阵)相关的这些图的拓扑性质的理论结果。我们进行几个数值模拟来进一步检查我们的理论结果的准确性。最后,我们介绍了有限的可穿透水平可见度图用于测量实值时间序列不可逆性的应用,以及用于区分噪声和混沌的图像限制可穿透水平可见度图的应用。实证结果表明了我们提出的算法的有效性。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。