Arxiv网络科学论文摘要29篇(2020-01-22)

中国古典诗歌用词的演变;
EON：网络上流行病的模拟、分析性近似和分析的快速灵活Python包;
计算笔记本用于城市道路网络分析;
谁投票支持无协议脱欧？英国2019欧洲议会选举的合成模型;
少数属性的同质性可以阻碍结构平衡;
通过图神经网络从时间序列数据推断网络结构与动态;
新模型分析电力和通信系统内和系统间的依赖关系;
RCELF：影响最大化问题基于残差的方法;
图序：迈向最优学习;
深度协同嵌入信息级联预测;
社会网络分类器预测电信业流失的比较研究;
社会网络分析预测电信业流失：模型建立、评估与网络架构;
从不完整网络得到真正的非线性动力学;
基于莫兰指数空间自相关函数的解析过程;
主轴的幂用于精确团计数;
国内和国际多个隶属关系对引文影响力的影响;
当思想开放阻碍共识;
社交媒体命名实体识别的多模态深度学习方法;
使用公司间转账建模经济网络;
使用分层超稀疏GraphBLAS矩阵实现750亿流插入/秒;
稀疏非负矩阵分解用于多个局部社区检测;
多层网络的图元采样：一个受限随机游走方法;
Debian GNU/Linux软件网络演进：与基因调控网络类比和差异;
现代物理学领域内和领域间的知识演变;
采用盈亏平衡的成本确定州级政策的开源能源系统建模：北卡罗莱纳州案例研究;
基于随机游走的生成模型用于文档网络分类;
扩散图基于序列的快速嵌入;
夺宝奇兵：4chan政治上不正确板块的3.5年增强帖子;
多图卷积网络预测城市轨道交通短期客流;

中国古典诗歌用词的演变

原文标题： On the evolution of word usage of classical Chinese poetry

地址： http://arxiv.org/abs/1509.04556

作者： Liang Liu

摘要：中国古典诗歌的层次结构由若干在中国文学研究中得到了广泛认可。然而，关于中国古典诗歌的演变定量研究的限制。这项研究的主要目的是对词的用法提供了演化联系的量化证据，并强调，对中国古典诗歌不同时期的流派之一。具体而言，进行各种统计分析，以寻找和九个流派诗歌，包括石径，楚辞，汉市，金市，唐市，宋世，元史明市和比较字使用模式磬石。分析结果表明，每九个时期流派有单词用法的独特模式，与一些中国字被优先使用某一特定时期流派的诗。在措辞偏好的一般模式的分析，意味着在沿王朝类型的中国古典诗歌的时间轴，在使用中国古文字的下降趋势。基于该距离矩阵的系统发生分析表明，不同类型的中国古典诗歌的演变是全等与他们的时间顺序，提示词频率包含有用的系统发育信息，并且因此可以被用于推断各种类型中国古典诗歌中演化联系。在这项研究中进行的统计分析可以应用到数据集一般的中国文学。这种分析可以提供一般的中国文学的演变定量的见解。

EON：网络上流行病的模拟、分析性近似和分析的快速灵活Python包

原文标题： EoN (Epidemics on Networks): a fast, flexible Python package for simulation, analytic approximation, and analysis of epidemics on networks

地址： http://arxiv.org/abs/2001.02436

作者： Joel C. Miller, Tony TIng

摘要：我们提供疫情对网络（EON）Python包，专为在静态网络研究疾病传播的一个描述。该软件包包括超过100个可用方法为用户执行一系列不同的工艺，包括SIS和SIR疾病，和通用简单或COMLEX接触传染的随机模拟。

计算笔记本用于城市道路网络分析

原文标题： Urban Street Network Analysis in a Computational Notebook

地址： http://arxiv.org/abs/2001.06505

作者： Geoff Boeing

摘要：计算笔记本电脑提供研究人员，从业人员，学生和教育工作者的能力，以交互行为分析及发放可重复的工作流，编织在一起的代码，视觉效果和故事。本文探讨了在城市的分析和规划计算笔记本电脑的潜力，通过OSMnx的案例研究和教学课程库展示其效用。 OSMnx是一个Python包与OpenStreetMap的数据和建模，分析工作，并在世界各地可视化街道网络。它的正式演示和教程都分布在GitHub上的开源Jupyter笔记本电脑。本文展示这种资源通过记录信息库，并通过天气教程演示OSMnx交互从资源库中修改。它说明如何下载数据的城市和示范街网络的各种研究地点，计算网络指标，可视化街道中心地位，计算路由以及工作与其他空间数据如建筑物脚印和兴趣点。计算笔记本电脑的帮助介绍的方法来新用户并帮助研究人员达到有意从学习，适应和混音工作更广泛的受众。由于其实用性和多功能性，不断采用在城市规划，分析，以及相关的地理计算学科的计算笔记本应该持续到未来。

谁投票支持无协议脱欧？英国2019欧洲议会选举的合成模型

原文标题： Who voted for a No Deal Brexit? A Composition Model of Great Britains 2019 European Parliamentary Elections

地址： http://arxiv.org/abs/2001.06548

作者： Stephen Clark

摘要：本文的目的就是利用在英国举行的2019欧洲议会选举的选票重新访问进行分析，其2016年欧盟公投之后。这项工作提供舆论称为是英国移动离开欧盟到2020年期间的组合物的数据分析，在看似无关的回归框架补给站采用尊重投票结果的成分性质;每个结果是增加了100％的市场份额，并且每个结局相关的替代品。每个计数区当代说明数据从社会人口，就业，生活满意度和地点的主题来源。该研究发现，仍然有英国强大和鲜明的部门，按年龄，学历，就业和地方规定。使用成分分析方法的产生在关于这些模型的解释挑战，但边际地块被认为在一定程度上有助于解释。

少数属性的同质性可以阻碍结构平衡

原文标题： Homophily based on few attributes can impede structural balance

地址： http://arxiv.org/abs/2001.06573

作者： Piotr J. Górski, Klavdiya Bochenina, Janusz A. Hołyst, Raissa M. D'Souza

摘要：两个互补机制被认为塑造社会群体：同质剂和在连接的三单元组的结构之间的平衡。这里我们考虑 N 完全连接剂，其中每个主体具有 G 底层的属性，并在属性空间剂之间的相似性（即，同质性）来确定它们之间的链路权重。要结合结构的平衡，我们使用其中一个主体的只有一个属性在每次更新故意改变了黑社会更新规则，但是这也导致链接的权重，甚至链接极性意外更改。在大 G 极限链路权重动力学是通过从其中可以得到的相变与所有链接正完全平衡状态的条件的福克-Planck方程描述。全球合作的这种 “天堂状态”，然而，难以实现需要 G> O（N ^ 2）和P> 0.5 ，其中参数 P 捕获愿意共识。允许边权重是自然属性捕获同质的结果，并揭示了许多真实世界的社会体系有必要亚临界数量的属性来实现结构平衡。

通过图神经网络从时间序列数据推断网络结构与动态

原文标题： Inference for Network Structure and Dynamics from Time Series Data via Graph Neural Network

地址： http://arxiv.org/abs/2001.06576

作者： Mengyuan Chen, Jiang Zhang, Zhang Zhang, Lun Du, Qiao Hu, Shuo Wang, Jiaqi Zhu

摘要：在各种背景的网络结构，社会，技术和生物系统中发挥重要作用。然而，在实际情况下，可观察到的网络结构往往是不完整或不可用，由于测量误差或私人保护的问题。因此，推断出整个网络的结构对于理解复杂系统很有用。现有的研究还没有完全解决推断网络结构有关连接或节点部分或没有信息的问题。在本文中，我们将处理通过利用网络动态生成的时间序列数据的问题。我们认为，网络推理问题基于动态时间序列数据作为预测未来状态误差最小化的问题，并提出所谓冈贝尔图网络（GGN）来解决这两种网络推理问题的一种新的数据驱动的深度学习模式：网络重构和网络完成。对于网络重建问题，GGN框架包括两个模块：学习者的动力学和网络发生器。对于网络完成的问题，GGN添加了一个名为国家学习者对网络的推断缺少的部分新模块。我们进行了实验，对离散和连续时间序列数据。实验表明，我们的方法可以重建高达100％的网络结构，网络上的重建任务。虽然模型还可以用高达90％的准确推断出结构的未知部分，当一些节点被丢失。而且精度缺少的节点的分数的增加衰减。我们的框架可以有广泛的应用领域从哪里获得的时间序列数据是丰富的网络结构是很难的。

新模型分析电力和通信系统内和系统间的依赖关系

原文标题： A New Model to Analyze Power and Communication System Intra-and-Inter Dependencies

地址： http://arxiv.org/abs/2001.06610

作者： Sohini Roy, Harish Chandrasekaran, Anamitra Pal, Arunabha Sen

摘要：智能电网的可靠和灵活的操作必要的电力和通信系统的内部和相互依存关系的清醒认识。这种理解只能通过精确地描绘这两个系统的不同组件之间的交互来实现。本文提出了一种模型，所谓的改性含蓄的相互依赖性模型（MIIM），捕捉这些相互作用。从在美国西南电力公用事业而获得的数据被用于确保该模型的有效性。该模型用于特定电力系统的应用即，状态估计的性能，使用IEEE 118总线系统证明。结果表明，所提出的模型是比其前任更准确，含蓄相互依赖模型（IIM）[1]，在电力和/或通信系统故障的情况下预测所述系统状态。

RCELF：影响最大化问题基于残差的方法

原文标题： RCELF: A Residual-based Approach for InfluenceMaximization Problem

地址： http://arxiv.org/abs/2001.06630

作者： Xinxun Zeng, Shiqi Zhang, Bo Tang

摘要：影响最优化问题（IMP）是选择的种子集合节点的社会网络中传播的影响尽可能广泛。它在多个域，例如，病毒式营销经常用于新产品或活动相关的广告很多应用。虽然它是在计算机科学经典和充分研究的问题，遗憾的是，所有这些提议的技术是时间效率，内存消耗和结果质量之间的妥协。在本文中，我们对国家的最先进的IMP近似方法进行全面的实验研究，揭示潜在的折衷策略。有趣的是，我们发现，当网络的传播概率已经考虑到即便是国家的最先进的方法是不切实际的。随着现有的方法的研究结果，我们提出了一种新颖的基于残差的方法（即，RCELF）为IMP，其中ⅰ）克服现有近似方法的不足之处，以及ii）提供了理论保证结果与在时域和空间高效率 - 观点。我们证明了我们的建议通过大量实验评价真实数据集的优越性。

图序：迈向最优学习

原文标题： Graph Ordering: Towards the Optimal by Learning

地址： http://arxiv.org/abs/2001.06631

作者： Kangfei Zhao, Yu Rong, Jeffrey Xu Yu, Junzhou Huang, Hao Zhang

摘要：图表示学习已经取得了许多基于图的应用程序，如节点分类，链路预测和社区检测显著成效。这些模型通常被设计为保留在不同粒度的顶点信息，减少离散空间的问题，在连续的空间有些机器学习任务。然而，无论卓有成效的进步，对于一些类型的图应用程序，如图压缩和边的分区，这是非常困难的他们减少一些图表示的学习任务。而且，这些问题是密切相关的特定图，这是一个重要的NP难的组合优化问题重新制定一个全球性的布局：图订货。在本文中，我们提出了一个新颖的学习方法来攻击这样的应用程序背后的图排序问题。基于预定义的启发式算法贪婪区别，我们提出了一个神经网络模型：深令网络（DON），从局部顶点顺序组捕捉隐藏的局部性结构。通过取样部分顺序监督，DON具有推断看不见组合的能力。此外，为了减轻DON的训练空间组合爆炸，使高效局部顶点顺序采样，我们采用了强化学习模式：政策网络，调整偏序时自动DON的训练阶段抽样概率。为此，该政策网络可以提高训练效率和自动引导DON演变迈向更有效的模式。在合成的和真实数据综合实验验证DON-RL优于当前状态的最先进的启发式算法一致。上图压缩和边划分两个案例研究表明在实际应用中DON-RL的潜在力量。

深度协同嵌入信息级联预测

原文标题： Deep Collaborative Embedding for information cascade prediction

地址： http://arxiv.org/abs/2001.06665

作者： Yuhui Zhao, Ning Yang, Tao Lin, Philip S. Yu

摘要：近日，信息叠加预测已经吸引了越来越多研究者的兴趣，但它远未很好地解决了部分原因是由于现有工程的三大缺陷。首先，现有的作品往往假设一个潜在的信息传播模式，这是在现实世界中不实用的，由于信息传播的复杂性。其次，现有的作品往往忽略此病毒感染订单，这也是在社会网络分析中的重要作用的预测。最后，现有的作品往往取决于扩散网络，这在实践中可能观察不到基本的要求。在本文中，我们的目标是在两个节点感染和感染订单的预测没有关于下面的扩散机制和扩散网络，其中，所述挑战是两倍的知识的要求。第一个就是节点的级联特性应该被捕获并如何捕捉它们，第二个是如何在信息级联节点的非线性特性建模。为了应对这些挑战，我们提出了一个所谓的深度合作嵌入（DCE）用于信息叠加预测模型新颖，它可以捕获不仅节点结构特性也2种节点级联特性。我们提出了自动编码器来基于协作嵌入框架，学习与合作级联和节点协作节点嵌入物，以何种方式信息级联的非线性可以有效地捕获。对现实世界的数据集进行了广泛的实验结果验证了我们的方法的有效性。

社会网络分类器预测电信业流失的比较研究

原文标题： A Comparative Study of Social Network Classifiers for Predicting Churn in the Telecommunication Industry

地址： http://arxiv.org/abs/2001.06700

作者： Maria Óskarsdóttir, Cristián Bravo, Wouter Verbeke, Carlos Sarraute, Bart Baesens, Jan Vanthienen

摘要：在网络数据关系学习已被证明是有效的多项研究。关系学习，关系分类和集体推理方法组成，使节点给出的链接到其他节点的存在和力量在网络中的推断。这些方法已经适应预测客户流失在电信公司表示将它们可以给出更精确的预测。在这项研究中，各种关系学习者的性能是由他们将其应用到了一些来自电信行业的CDR数据集发起的，以目标等级作为一个整体进行比较，并分别探讨关系分类和集体推理方法的效果。我们的研究结果表明，集体推理方法不改善关系的分类和表现最好的关系分类是唯一的基于网络的链路分类，它建立使用网络中的节点基于链接的措施Logistic模型的性能。

社会网络分析预测电信业流失：模型建立、评估与网络架构

原文标题： Social Network Analytics for Churn Prediction in Telco: Model Building, Evaluation and Network Architecture

地址： http://arxiv.org/abs/2001.06701

作者： María Óskarsdóttir, Cristián Bravo, Wouter Verbeke, Carlos Sarraute, Bart Baesens, Jan Vanthienen

摘要：社会网络分析方法在电信业被用来预测客户流失了巨大的成功。特别是它已被证明是适合于这一特定问题的关系学习者提高预测模型的性能。在通过应用他们一共有八种不同的呼叫详细记录的数据集，来自世界各地的电信组织发起构建关系学习者当前的研究中，我们的基准不同的策略。我们统计评估关系的分类和关系学习者的预测能力集体推理方法的效果，以及在何处关系学生相结合，与电信业预测客户流失的传统方法模型的性能。最后，我们探讨模型的性能网络建设的影响;我们的研究结果意味着，在网络边和权重的定义，确实能对预测模型的结果产生影响。作为研究的结果，最好的配置是与网络变量富含非关系型学习者，没有集体推断，使用二进制权重和无向网络。此外，我们还提供了如何在电信行业的应用社会网络分析的流失预测以最佳的方式，从网络结构，建立模型和评价准则。

从不完整网络得到真正的非线性动力学

原文标题： True Nonlinear Dynamics from Incomplete Networks

地址： http://arxiv.org/abs/2001.06722

作者： Chunheng Jiang, Jianxi Gao, Malik Magdon-Ismail

摘要：我们研究了复杂网络的非线性动力学。每个顶点 I 具有根据网络动力学稳态 X_I ^ 演变的状态 X_I。我们开发的基本工具，了解网络的一小部分的真实稳态，不知道完整的网络。天真的方法和当前状态的最先进的是遵循所观察到的局部网络至局部平衡的动态。这大大无法提取真正的稳定状态。我们用平均场方法应用到网络的无形部分的动态映射到一个节点，这使我们能够恢复上少至5个观察到的顶点稳态的准确估计在域从生态到社会网络基因调控。不完整的网络是在实践中规范，我们提供了新的方式来思考非线性动力学的时候只有稀稀拉拉的信息是可用的。

基于莫兰指数空间自相关函数的解析过程

原文标题： An Analytical Process of Spatial Autocorrelation Functions Based on Moran's Index

地址： http://arxiv.org/abs/2001.06750

作者： Yanguang Chen

摘要：许多空间统计测量，如默然的I和Geary的的C可以被用来使空间自相关分析。从时间序列分析的一维自相关进行空间自相关模型，然而，时间滞后已取代的空间权重，以使自相关函数退化为自相关系数。本文致力于开发基于莫兰指数2维空间自相关函数。使用相对阶梯函数作为权重函数以产生具有位移参数的空间权重矩阵。位移承担与时间序列分析的时间滞后的比喻。基于所述空间位移参数，两种类型的空间自相关函数被构造为2维空间分析。然后，空间自相关函数被推广到基于Geary的系数和G系数索引的自相关函数。作为一个例子，新的分析框架应用到中国城市的空间自相关造型。的结论可以达成，它是基于相对阶梯函数建立空间自相关函数的有效方法。可以使用的空间自相关函数以显示深地理信息，并寻求特征尺度，并为空间相关性的标度分析的基础。

主轴的幂用于精确团计数

原文标题： The Power of Pivoting for Exact Clique Counting

地址： http://arxiv.org/abs/2001.06784

作者： Shweta Jain, C. Seshadhri

摘要：集团计数是网络分析的基本任务，甚至 3个 -cliques（三角形）最简单的设置是最近许多研究的中心。获得ķ -cliques的数量较大ķ算法是具有挑战性的，由于大派系的搜索空间的指数爆破。但最近的一些应用程序（特别是对社区检测或群集）的使用更大的集团计数。此外，一个经常希望 textit 本地计数的k个 -cliques每顶点/边的数量。我们的主要结果是Pivoter，算法恰好计数的ķ -cliques数 textit对中的k 的所有值。这是在实践中出人意料地有效，并且能够得到的是超出以前的工作的覆盖面图的集团计数。例如，Pivoter获取社会网络的所有集团计数与商品机器的两个小时内一个100M的边。上一页并行算法不终止日。 Pivoter也能切实得到当地每顶点和每边ķ -clique计数（所有ķ）的许多公共数据集的数以千万计的边。据我们所知，这是第一个算法，实现了这样的结果。主要见解是一个简洁的派树（SCT），其存储在输入图中的所有派系压缩唯一表示的结构。它使用一种被称为 textit 转动，由勒布朗 - Kerbosch经典的方法，以减少回溯算法的最大派系的递归树建。值得注意的是，SCT可在不实际枚举所有派系来构建，并提供从它的确切集团统计（ķ -clique计数，计数地方），可以有效地读出一个简洁的数据结构。

国内和国际多个隶属关系对引文影响力的影响

原文标题： The effect of national and international multiple affiliations on citation impact

地址： http://arxiv.org/abs/2001.06803

作者： Sichao Tong, Ting Yue, Zhesi Shen, Liying Yang

摘要：有多个下属机构的研究人员正在越来越多地出现在当前的科学环境。在本文中，我们系统地分析了多附属作者和研究合作的科学产出的引文影响作用，重点。通过考虑各机构的国籍，我们进一步区分国家多附属著作权和国际多附属作者和跨学科和国家揭示其不同的模式。我们观察了很大的份额，在科研合作多附属著作权（45.6％）的出版物，包含医学相关的和生物学相关学科的全国多附属作者，以及包含在国际类出版物的较大份额出版物的较大份额空间科学，物理学和地球科学。要立足国家来看，我们与国内外多附属著作权区分一个特定的国家。以G7和金砖国家从不同的S＆T级的样品，我们发现国内的全国多关联作者更涉及到对G7国家的大多数学科的引文影响力，而国内国际多下属的著者是更积极影响力的大多数金砖国家。

当思想开放阻碍共识

原文标题： When open mindedness hinders consensus

地址： http://arxiv.org/abs/2001.06877

作者： Hendrik Schawe, Laura Hernández

摘要：我们执行Hegselmann - 克劳斯的详细研究界与异构信心信心舆论动力学模型 varepsilon_i 从均匀分布在不同的时间间隔绘制[ varepsilon_l， varepsilon_u] 。相图揭示了一个高度复杂的和非单调行为，其中在分裂成多个不同的意见，预计为同质情况的区域中的可重入共识相。相图的仔细探查，具有广泛的有限大小分析一起，使我们能够找出导致这一反直觉的行为的机制。在系统的尺寸这远远超出以前的作品的本系统的研究，是由在这篇文章中提出了一个高效的算法实现。

社交媒体命名实体识别的多模态深度学习方法

原文标题： A multimodal deep learning approach for named entity recognition from social media

地址： http://arxiv.org/abs/2001.06888

作者： Meysam Asgari-Chenaghlu, M.Reza Feizi-Derakhshi, Leili Farzinvash, Cina Motamed

摘要：从社交媒体帖子命名实体识别（NER）是一项艰巨的任务。形成社会化媒体的本质用户生成的内容，是喧闹的，包含语法和语言错误。这嘈杂的内容使得它更难的任务，例如命名实体识别。然而，如自动新闻或社交媒体信息检索某些应用中，需要大约在社交媒体文章中提及的群体实体的更多信息。施加到结构化的常规方法和井键入文档提供可接受的结果，而比较新的用户生成的媒体，这些方法不是令人满意的。关于实体的信息的一个有价值的部分是有关图像的文本。结合此多模态数据减少歧义，并提供关于所提到的实体更宽的信息。为了解决这个问题，我们提出了利用多深学习一种新的深刻的学习方法。我们的解决方案能够提供关于命名实体识别的任务更准确的结果。实验结果，即准确率，召回和F1分数指标相比显示出国家的最先进的其他NER的解决方案我们工作的优越性。

使用公司间转账建模经济网络

原文标题： Modeling Economic Networks with Firm-to-Firm Wire Transfers

地址： http://arxiv.org/abs/2001.06889

作者： Thiago C. Silva, Diego R. Amancio, Benjamin M. Tabak

摘要：我们研究企业在巴西（620万行）宇宙中包括电汇的新经济网络（电子支付交易）。我们构造有向加权网络中顶点表示城市和边城市意味着两两之间的经济依赖。每个城市（顶点）代表全市范围内所有企业的集合。边权是由出现由于在不同城市本地化企业之间的业务往来电汇的总量为蓝本。的理由是，他们越与交易对方，更依赖他们在经济意义上成为。我们发现，中贸网，这与专业化程度高，整个巴西城市发现一致，城市之间高度的经济一体化。我们能够识别哪些城市在使用中心性网络的措施在整个供应链过程中的主导作用。我们发现，贸易网络具有异配混合模式，这是在巴西的企业规模分布的幂律形状一致。在2014年巴西的经济衰退之后，我们发现disassortativity变得甚至很多小企业的死亡和大公司的经济流的后续浓度的结果更强。我们的研究结果表明，经济衰退有跨市有意义的，异构的经济后果贸易网络上有很大的影响。

使用分层超稀疏GraphBLAS矩阵实现750亿流插入/秒

原文标题： 75,000,000,000 Streaming Inserts/Second Using Hierarchical Hypersparse GraphBLAS Matrices

地址： http://arxiv.org/abs/2001.06935

作者： Jeremy Kepner, Tim Davis, Chansup Byun, William Arcand, David Bestor, William Bergeron, Vijay Gadepally, Matthew Hubbell, Michael Houle, Michael Jones, Anna Klein, Peter Michaleas, Lauren Milechin, Julie Mullen, Andrew Prout, Antonio Rosa, Siddharth Samsi, Charles Yee, Albert Reuther

摘要：所述SuiteSparse GraphBLAS C-库实现高性能hypersparse矩阵与绑定到各种语言（Python中，朱，和Matlab /倍频程）。 GraphBLAS提供hypersparse矩阵，是理想的分析许多类型的网络数据的一个轻量级内存数据库实现，同时提供严格的数学保证，例如线性度。 hypersparse矩阵的脉动更新把巨大的压力，存储层次结构。这项工作基准测试等级hypersparse矩阵的实现，降低了内存的压力，并大幅提高更新速度为hypersparse矩阵。分层hypersparse矩阵的参数依赖于更新级联之前控制在层次结构中的每个级别的条目的数量。这些参数很容易可调，以实现各种应用的最佳性能。分层hypersparse矩阵实现单一实例每秒超过100万的更新。尺度到分层hypersparse矩阵阵列31000个实例上的MIT SuperCloud 1100个服务器节点达到每秒750亿次更新的持续更新速率。这种能力使MIT SuperCloud分析非常大的网络流数据集。

稀疏非负矩阵分解用于多个局部社区检测

原文标题： Sparse Nonnegative Matrix Factorization for Multiple Local Community Detection

地址： http://arxiv.org/abs/2001.06951

作者： Dany Kamuhanda, Meng Wang, Kun He

摘要：当地社区检测包括找出一组密切相关的种子，一小部分的利益节点的节点组成。节点的这样的组被密集地连接或具有被内部连接比其到网络中的其它簇连接的概率高。现有的本地社区的检测方法集中在寻找任何一个地方社区，所有的种子是最有可能是在寻找或者一个社区的每个种子。然而，种子构件可以属于多个地方重叠社区。在这项工作中，我们提出的检测到的单个种子成员所属的多个地方社区的新方法。所提出的方法包括三个主要步骤：（1）本地采样使用个性化的PageRank（PPR）; （2）使用由稀疏非负矩阵因子分解（SNMF）中产生的稀疏来估计采样子社区的数量; （3）使用SNMF软社区成员资格向量为社区分配节点。若用人工和真实世界的网络的结合实验相比，国家的最先进的社区检测方法，该方法有利于显示精度性能。

多层网络的图元采样：一个受限随机游走方法

原文标题： Sampling Graphlets of Multi-layer Networks: A Restricted Random Walk Approach

地址： http://arxiv.org/abs/2001.07136

作者： Simiao Jiao, Zihui Xue, Xiaowei Chen, Yuedong Xu

摘要：图基元被导出子模式，对结构的理解至关重要，大型网络的功能。很多已经努力到基于随机游走的方法通常是通过可用的应用程序编程接口（API），用于访问受限图的计算基元的统计数据。然而，他们大多只考虑单个网络，而忽略不同网络之间的强耦合。在本文中，我们估计在实际应用中的多层网络的基元浓度。如果它们属于同一个人的层间边连接在不同的层中的两个节点。到的多层网的访问是在这个意义上的上层使随机游动采样限制性的，而较低层的节点只能虽然层间边被访问并且只支持随机节点或边采样。为了应对这一新的挑战，我们定义了两个层的图基元的西装，提出了一种新的随机游走采样算法来估算所有3个节点图基元的比例。分析绑定在采样步证明，以保证我们的无偏估计的收敛。我们进一步推广我们的算法在样本大小不同层上的分裂，探索不同的图基元的估计精度之间的权衡。现实世界和合成多层网络实验评价证明我们的无偏估计的准确性和高效率。

Debian GNU/Linux软件网络演进：与基因调控网络类比和差异

原文标题： Evolution in the Debian GNU/Linux software network: analogies and differences with gene regulatory networks

地址： http://arxiv.org/abs/2001.07184

作者： Pablo Villegas, Miguel A. Muñoz, Juan A. Bonachela

摘要：生物网络表现当作是其功能的关键复杂的架构。尤其是，基因调控网络，其在细胞中发挥信息处理的关键作用，显示非平凡的建筑特色如无标度分布，高模块，以及连接基因之间的低平均距离。这样的网络从复杂的演化和自适应过程导致难以追查凭经验。在另一方面，存在该结果从自组织生长不同版本的发展（或演化）的开放式软件网络的各个阶段的详细信息。在这里，我们研究的Debian GNU / Linux软件网络的演进，专注于关键的结构和统计特征随时间的变化。我们的研究结果表明，演化，导致了网络结构，其中出度分布是无标度和入度分布是拉伸指数。此外，虽然模块化，信息流，和元件之间的平均距离的方向性增长，脆弱性随时间降低。这些特征非常类似于目前通过基因调控网络中所示的那些，这表明普通的自适应路径的存在，用于处理信息的网络的建筑设计。在其他层次方面的差别指向系统特定的解决方案，以类似的演化挑战。

现代物理学领域内和领域间的知识演变

原文标题： The evolution of knowledge within and across fields in modern physics

地址： http://arxiv.org/abs/2001.07199

作者： Ye Sun, Vito Latora

摘要：知识在不同领域和学科的交流中扮演着知识创造过程中的关键作用，并能刺激创新和新领域的出现。在这里，我们制定了定量的框架，以提取学科之间显著的依赖，把它们变成一个随时间变化的网络的节点是不同的领域，而加权链接代表的知识从一个领域到另一个在给定时间内的流量。借鉴在现代物理学和发表在最近三十年的各个领域的文章之间的引用的模式科学的生产一个全面的数据集，我们就能够映射，随着时间的推移，思想在某一领域如何发展的一定的时间段已经在相同的字段或其它领域的影响后来发现。知识的分析内部流动到每个字段显示了显著各种时间行为的，与物理显示更加自引用比其他的一些字段。整个领域的知识交流的时空网络显示从吸收到双方甚至背反哺行为互相影响对方的一个领域不断吸收来自其他领域的知识在整个观察期的情况下，对田，也是演化的情况。

采用盈亏平衡的成本确定州级政策的开源能源系统建模：北卡罗莱纳州案例研究

原文标题： Open Source Energy System Modeling Using Break-Even Costs to Inform State-Level Policy: A North Carolina Case Study

地址： http://arxiv.org/abs/2001.07264

作者： Binghui Li, Jeffrey Thomas, Anderson Rodrigo de Queiroz, Joseph F. DeCarolis

摘要：严格的基于模型的分析可以帮助告知国家级能源和气候政策。在这项研究中，我们采用了北卡罗莱纳州的电力部门一个开源的能量系统优化模型和公开的数据集，以讨论今后的发电，二氧化碳排放量，并减少二氧化碳的成本通过2050年模拟的情景包括未来燃油价格的不确定性，一个假设的CO2帽，和一个扩展可再生能源组合标准。在整个建模场景，太阳能光伏发电代表了最具成本效益的低碳技术，而碳约束的情景之中取舍在很大程度上涉及到天然气和可再生能源。我们还开发出计算盈亏平衡成本，这表明资本成本在其不同的技术成为高性价比的模型内的新方法。在盈亏平衡成本显著变化跨不同的技术和场景观察。我们举例说明盈亏平衡成本如何能够被用来通知在北卡罗莱纳州的扩展可再生能源组合标准的制定。利用盈亏平衡成本来校准陆上风力发电税收抵免，我们发现，所产生的风部署位移其他可再生能源，因此对二氧化碳排放量的影响可以忽略。这种洞察力可以提供给决策者权衡不同政策选择的关键指引。本研究提供了一个分析框架来进行使用开源模式在其他国家类似的分析和免费提供的数据集。

基于随机游走的生成模型用于文档网络分类

原文标题： Random-walk Based Generative Model for Classifying Document Networks

地址： http://arxiv.org/abs/2001.07380

作者： Takafumi J. Suzuki

摘要：文档网络在现实世界中的各种数据的集合，如引文网络，超链接的网页和在线社会网络找到。已经提出大量生成模型，因为它们提供了分析文件的网络直观，有用的图片。突出的例子是关系主题模型，其中的文件是根据其话题的相似性联系在一起。但是，现有的生成模型没有充分利用网络的结构，因为它们在很大程度上依赖于文件的主题建模。特别是，图节点的中心地位缺失在以往机型的生成过程。在本文中，我们通过对网络中引入随机行走到节点中心地位为链接生成流程整合提出了文档的网络一种新型的生成模型。所建立的方法与真实世界的引网络半监督分类任务进行评估。我们表明，该模型优于现有的概率在连接网络社区检测方法特别。

扩散图基于序列的快速嵌入

原文标题： Fast Sequence-Based Embedding with Diffusion Graphs

地址： http://arxiv.org/abs/2001.07463

作者： Benedek Rozemberczki, Rik Sarkar

摘要：甲图嵌入在低维空间中，这大约保留性质如节点之间的距离的曲线图的顶点表示。基于序列顶点嵌入程序使用的功能从节点的线性序列中提取来创建使用神经网络的嵌入。在本文中，我们提出了扩散图以迅速产生用于网络嵌入顶点序列的方法。它的计算效率优于以前的方法，由于简单的序列生成，并可以产生更准确的结果。在实验中，我们发现，相对于其它方法的性能与图中的增加边密度提高。在社区检测任务，在嵌入空间集群节点相对于其他基于序列嵌入方法产生更好的效果。

夺宝奇兵：4chan政治上不正确板块的3.5年增强帖子

原文标题： Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board

地址： http://arxiv.org/abs/2001.07487

作者： Antonis Papasavva, Savvas Zannettou, Emiliano De Cristofaro, Gianluca Stringhini, Jeremy Blackburn

摘要：本文提出了从政治上不正确板imageboard论坛4chan的超过330万线和134.5M职位（/ POL /），贴过了一段近35年（2016年6月 - 2019年11月）的数据集。据我们所知，这是政府最大的公开可用的数据集4chan的，为社会提供已被永久删除4chan的和其它方法无法职位的档案。我们有几组附加标签，包括毒性分数和在每个帖子中提到的命名实体增加的数据。我们还提出了数据集的统计分析，提供什么感兴趣的研究人员使用它可以预期，以及简单的内容分析，放在最显眼的讨论主题脱落光的概述，最流行的实体所提到的，和水平毒性在每个柱。总体而言，我们有信心，我们的工作将进一步激励和帮助研究人员研究和理解4chan的，以及它的更大的网络上的作用。举例来说，我们希望此数据集可用于社交媒体的跨平台的研究，以及作为其他类型的像自然语言处理研究有用。最后，我们的数据可以帮助定性的工作侧重于具体的叙述，事件或社会理论的深入的案例研究。

多图卷积网络预测城市轨道交通短期客流

原文标题： Multi-Graph Convolutional Network for Short-Term Passenger Flow Forecasting in Urban Rail Transit

地址： http://arxiv.org/abs/2001.07512

作者： Jinlei Zhang, Feng Chen, Yinan Guo

摘要：短期客流预测是城市轨道交通运营的关键任务。新兴深学技术已成为解决这一问题的有效方法。在这项研究中，我们提出了一个深刻的学习架构，称为转化率，GCN图相结合的卷积网络（GCN）和3D卷积神经网络（CNN 3D）。首先，我们介绍了多GCN图处理流入和流出的三种模式（最近，每天和每周模式）分开。多图GCN网络可以捕获时空相关性和在整个网络的拓扑信息。然后，3D CNN应用于深入集成的流入和流出信息。和流入和流出的不同模式之间的高级别时空特征，站之间的附近，远离可通过3D CNN来提取。最后，完全连接层用于输出结果。转换次数-GCN模型上的10分钟，15分钟和30分钟的时间间隔下北京地铁的智能卡数据进行评价。结果表明，该模型中执行其他七个相对模型最好的。在RMSE而言，在三个时间间隔的演出已经被分别9.402％，7.756％和9.256％，提高。这项研究可以提供关键的见解地铁运营商能够优化操作。

声明：Arxiv文章摘要版权归论文原作者所有，由本人进行翻译整理，未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”（微信号netsci）和个人博客 https://www.complexly.cn （提供RSS订阅）进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。