- 一个测量和预测个人科学家的表现的框架;
- 定向网络的抵御能力;
- 公约之间的竞争和选择;
- 多关系推荐的加权随机游走取样;
- 语义变化的频率模式:语言变化中近临界动力学的基于语料库的证据;
- DAWT:密集注释维基百科跨多种语言的文本;
- 同行影响如何影响能源消耗;
- 有推广时的在线人气模型病毒式传播潜力和注意经济学;
- 解卷积推荐系统中的反馈循环;
- 当哈希碰撞楔形:一个分布式算法寻找高相似性向量;
- 加权生长单纯复形;
一个测量和预测个人科学家的表现的框架
地址: http://arxiv.org/abs/1510.02749
作者: Endel Poder
摘要: 定量文献计量指标广泛用于评估科学家的绩效。然而,传统指标不太依赖于旨在衡量的过程的分析和测量的实际目标。在这项研究中,我提出一个简单的框架来衡量和预测个人研究者的科学绩效,考虑到出版和引文过程的主要规律性和实际任务的要求。新指标的统计特性 - 科学家的个人影响率 - 通过应用于爱沙尼亚研究人员的样本来说明。
定向网络的抵御能力
地址: http://arxiv.org/abs/1701.03404
作者: Jin-Hua Zhao
摘要: 复杂的互连系统的弹性涉及在基于随机或设计方案的外部扰动之后的宏观功能节点簇的大小。对于在成分之间具有定向或非对称相互作用的互连系统的表示,定向网络是方便的选择。然而,交互方向如何影响网络恢复能力仍然缺乏彻底的探索。在这里,我们使用基于节点的入和出度的简单故障过程来研究定向网络的弹性,其中任何节点具有内分度$ 地址: http://arxiv.org/abs/1702.06527 作者: Rahmtin Rotabi, Cristian Danescu-Niculescu-Mizil, Jon Kleinberg 摘要: 在许多领域,不同公约之间的潜在竞争决定了哪个公约将成为主导。人们看到社区术语的成功,政治修辞中的竞争性框架或技术语境中的术语的成效。这些影响已经在在线领域广泛传播,其中数据提供了在细粒度水平上研究各公约之间的竞争的潜力。然而,在分析公约随时间变化的动态时,即使有详细的在线数据,也会遇到两个重大挑战。首先,随着公约的发展,其意义的基本内容也会发生变化;这种实质性变化混淆了对社会影响的调查。第二,公约的选择是通过个人在社区内的复杂交互作用进行的,竞争公约的用户之间的争论在公约的演变中起着关键作用。任何分析必须在这两个问题的存在下进行。在这项工作中,我们研究一个设置,我们可以干净地跟踪公约之间的竞争。我们的分析基于24年来eprint中的低级创作约定的扩展:通过跟踪宏的扩散和其他作者定义的约定,我们能够研究即使基本含义保持不变的约定。我们发现,随着时间的推移,共同作者之间的相互作用在选择它们中起着至关重要的作用;社区越来越少有经验的成员之间的区别,以及有可见和不可见效应的公约之间的区别,都是基本过程的核心。通过我们的分析,我们在人口水平上预测不同同义词约定随时间的最终成功 - 以及在个人层面上人们之间的“斗争”结果。 地址: http://arxiv.org/abs/1703.00034 作者: Fatemeh Vahedian, Robin Burke, Bamshad Mobasher 摘要: 在信息重载的网络中,个性化推荐系统是帮助用户找到最相关信息的必要工具。最常用的推荐框架假定用单个关系表征的用户交互。然而,对于许多任务,例如在社交网络中的推荐,用户项目交互必须被建模为多个关系的复杂网络,而不仅仅是单个关系。最近对多关系因子分解和混合推荐器模型的研究已经表明,使用扩展元路径来捕获关于网络中的用户和项目的附加信息可以增强这种网络中的推荐的准确性。这项工作的大部分集中在未加权的异构网络,并且为了应用这些技术,加权关系必须简化为二进制关系。然而,与诸如对于推荐至关重要的加权边缘(例如用户评级)相关联的信息在这种二值化中丢失。在本文中,我们探索了一种随机游走采样方法,其中边缘采样的频率是边缘权重的函数,并且在加权异构网络中应用这生成扩展元路径。利用这种抽样技术,我们证明了在推荐精度和模型生成效率方面对多个数据集的改进的性能。 地址: http://arxiv.org/abs/1703.00203 作者: Quentin Feltgen, Benjamin Fagard, Jean-Pierre Nadal 摘要: 通常认为,当语言项目获得新的含义时,其在语言中的总体使用频率随S形的生长曲线随时间而增加。然而,这种说法只得到有限数量的案例研究的支持。在本文中,我们提供第一基于语言的语言变化的S曲线的一般性的定量确认。此外,我们发现另一种通用模式,在S增长之前可变持续时间的等待时间阶段,在此期间语义扩展词的使用频率保持低和或多或少恒定。我们还提出了一种基于使用的语言变化模型,由认知考虑支持,预测两个阶段,潜伏期和快速S增长发生。驱动机制是随机动力学,在使用频率的空间中的随机游走。基本的确定性动力学突出了控制参数的作用,控制变化开始的认知动力的强度,其调整鞍状节点分叉附近的系统。在临界点附近,延迟阶段对应于临界区域上的扩散时间,并且S增长到随后的快速收敛。两个阶段的持续时间被计算为随机游走过程的特定第一通过时间,导致与从我们的数据集提取的那些分布适合的分布。我们认为我们的结果不是特定于研究的语料库,但适用于语义变化一般。 地址: http://arxiv.org/abs/1703.00948 作者: Nemanja Spasojevic, Preeti Bhargava, Guoning Hu 摘要: 在这项工作中,我们打开了多种语言的DAWT数据集 - 密集注释的维基百科文本。注释包括映射到实体的标记的文本提示(由它们的Freebase机器ID表示)以及实体的类型。数据集包含总共13.6M篇文章,5.0B令牌,13.8M提及实体共现。 DAWT包含比维基百科标记中原始存在的实体链接多4.8倍的锚文本。此外,它跨越几种语言,包括英语,西班牙语,意大利语,德语,法语和阿拉伯语。我们还提出了用于生成丰富了维基百科标记的数据集的方法,以增加链接数。除了主数据集,我们还开发了几个派生数据集,包括提及实体共现计数和实体嵌入,以及Freebase ids和Wikidata项ids之间的映射。我们还讨论这些数据集的两个应用程序,并希望打开它们将证明对自然语言处理和信息检索社区有用,以及促进多语言研究。 地址: http://arxiv.org/abs/1703.00980 作者: Datong P. Zhou, Munther A. Dahleh, Claire J. Tomlin 摘要: 本文分析了同行效应对理性,效用最大化用户网络的电力消耗的影响。用户从消费电力消耗电力以及消耗比它们的邻居更少的能量,以及消耗比他们的邻居更多的不利。为了最大化为负载服务实体提供电力的利益,受到这种同行效应的用户,我们采用两阶段游戏理论模型,其中实体设置第一阶段的价格,消费者决定他们的需求响应观察到的价格,以便最大化它们在第二阶段的效用。我们推导出这样的同伴效应减少总用户消费的理论陈述。此外,我们获得封闭形式的解决方案,用于完全价格歧视情况下的负载服务实体的电力消耗和利润以及完整信息下的单一价格以及不完全信息下的近似。模拟表明,只将所有用户的选定子集暴露给同伴效应最大化实体的利润。 地址: http://arxiv.org/abs/1703.01012 作者: Marian-Andrei Rizoiu, Lexing Xie 摘要: 模拟在线项目的流行度动态是社交媒体分析和计算社会科学中的一个重要的开放性问题。本文提出了一个深入研究外部促销下的人气动态,特别是在预测在线视频的人气跳跃,并确定有效和有效的时间表,以促进在线内容。最近提出的霍克斯强度过程(HIP)模型作为外源性刺激与内源性反应之间的非线性相互作用的流行性。我们提出了基于HIP的两个新的度量:描述每单位促销的流行度增益,并量化这种效果展开所需的时间。我们通过包含关于视频的固有属性的信息,其接收的促销和流行度排名的非线性效应,对未来的流行度做出更准确的预测。我们通过模拟来说明随着时间的推移人气的展开和资源的时间敏感价值之间的相互作用。最后,我们的模型提供了广告中常用的周期性和持续促进策略的新颖解释,作为增加感知的病毒潜力。本研究提供了关于设置促销计划的定量指南,考虑内容的病毒性,时间和经济。 地址: http://arxiv.org/abs/1703.01049 作者: Ayan Sinha, David F. Gleich, Karthik Ramani 摘要: 协作过滤是一种基于所有用户偏好的集体信息来推断用户对新内容的偏好的流行技术。推荐系统然后使用该信息向用户提供个性化建议。当用户接受这些建议时,它在推荐系统中创建反馈循环,并且这些循环反复地影响协作过滤算法随时间的预测。我们调查是否可以识别受这些反馈回路影响的项目。我们陈述足够的假设来反卷积反馈回路,同时保持反求解容易。我们进一步开发一个度量来解开推荐系统对整个用户项目评级矩阵的影响。我们对合成和真实世界数据集使用这个度量,以(1)识别推荐系统影响最终评级矩阵的程度,(2)对经常推荐的项目进行排名,以及(3)区分用户的评级项目是推荐的还是内在偏好。我们的结果表明,可以使用没有任何时间信息的评级矩阵的单个快照来恢复固有用户偏好的评级矩阵。 地址: http://arxiv.org/abs/1703.01054 作者: Aneesh Sharma, C. Seshadhri, Ashish Goel 摘要: 寻找类似的用户对是社交网络中的基本任务,在排名和个性化任务中有许多应用,例如链路预测和连接强度检测。用户相似性的常见表现是基于网络结构:每个用户由表示用户的网络连接的向量表示,其中这些向量中的成对余弦相似性定义用户相似性。用户相似性应用的主要任务是发现具有大于给定阈值$ \ tau $的成对余弦相似度值的所有类似对。与之前的工作相比,假设$ \ tau $非常接近1,我们专注于推荐应用程序,其中$ \ tau $小,但仍然有意义。所有对余弦相似性问题在具有数十亿边缘的网络上是计算上的挑战,并且对于具有小$ \ tau $的设置尤其如此。据我们所知,没有实际的解决方案用于在大型社交网络上计算所有用户对,例如$ \ tau = 0.2 $,即使使用分布式算法的力量。我们的工作直接通过引入一个新的算法--- WHIMP ---在MapReduce模型中有效地解决这个问题,来解决这个问题。 WHIMP的关键观点是结合Cohen-Lewis的“楔形采样”方法用于近似矩阵乘法和Charikar的SimHash随机投影技术。我们提供了WHIMP的理论分析,证明它具有接近最佳的通信成本,同时保持与现有技术水平相当的计算成本。我们还通过计算四个海量数据集上的所有高度相似的对,并且表明它精确地找到高相似性对,从而经验地展示WHIMP的可伸缩性。特别是,我们注意到WHIMP成功地处理了整个Twitter网络,它有数百亿的边缘。 地址: http://arxiv.org/abs/1703.01187 作者: Owen T. Courtney, Ginestra Bianconi 摘要: 简单复合物描述协作网络,蛋白质相互作用网络和脑网络,并且在一般的网络结构中,其中相互作用可以包括多于两个的节点。在实际应用中,通常对单纯复形进行加权。在这里我们提出一个非均衡模型的加权成长单纯复形。所提出的动力学能够生成加权的单纯复形,在权重和拓扑之间的丰富的相互作用不仅出现在节点和链接的水平,而且在更高维度的面的水平出现。 声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在个人博客http://www.complexly.me/ 进行同步更新,并提供RSS订阅。公约之间的竞争和选择
多关系推荐的加权随机游走取样
语义变化的频率模式:语言变化中近临界动力学的基于语料库的证据
DAWT:密集注释维基百科跨多种语言的文本
同行影响如何影响能源消耗
有推广时的在线人气模型病毒式传播潜力和注意经济学
解卷积推荐系统中的反馈循环
当哈希碰撞楔形:一个分布式算法寻找高相似性向量
加权生长单纯复形