- 典型教职生产力轨迹的误导性叙述;
- LASAGNE:局部性和结构感知图节点嵌入;
- 随机游走中监督和扩展重新启动用于网络的排名和链路预测;
- 网络社区结构验证的推理程序;
- 最大价值问题:在学术界找到热门话题;
- 在网络社交媒体中检测Clickbait:你不会相信我们是如何做到的;
典型教职生产力轨迹的误导性叙述
原文标题: The misleading narrative of the canonical faculty productivity trajectory
地址: http://arxiv.org/abs/1612.08228
作者: Samuel F. Way, Allison C. Morgan, Aaron Clauset, Daniel B. Larremore
摘要: 科学家可能在职业生涯中发表数以十万篇论文,但是这些文章的时间并不均匀。对于各种领域的职业生涯模式进行了60年的研究,提出了一种直观和普遍的模式:生产率将迅速上升到早期高峰,然后逐渐下降。在这里,我们通过分析从20多万个出版物中构建的个人教师生产力时间序列的结构,并与所有205个获得授权的计算机科学系的2453名终身教职员工的招聘数据进行了分析,来测试这种传统叙述的普遍性。美国和加拿大。与仅考虑一些教师或一些机构的先前研究不同,或缺乏常见的职业参考点,我们将大型书目数据集与涵盖整个学习领域的职业转型的综合信息相结合。我们表明,传统的叙述自信地只描述了五分之一的教师,无论是部门声望还是研究员的性别,剩下的四分之五的教师表现出丰富的生产力模式。为了解释这种多样性,我们引入了一个简单的生产率轨迹模型,并探讨其参数与研究者协变量之间的相关性,表明部门声望预测了整体个人生产率和从头到尾的作者出版物过渡的时机。这些结果表明,随着时间的推移,生产力的不可预测性,以及新的努力,了解环境和个人因素如何塑造科学的生产力。
LASAGNE:局部性和结构感知图节点嵌入
原文标题: LASAGNE: Locality And Structure Aware Graph Node Embedding
地址: http://arxiv.org/abs/1710.06520
作者: Evgeniy Faerman, Felix Borutta, Kimon Fountoulakis, Michael W. Mahoney
摘要: 在这项工作中,我们提出了Lasagne,一种以无监督的方式学习局部性和结构感知图节点嵌入的方法。特别地,我们表明现有随机游走方法的性能在很大程度上取决于图的结构属性,例如图的大小,图是平面还是向上倾斜的网络社区概况(NCP),图是否是扩展器,感兴趣的类别是否更多的是k-核心或更多的外围设备等。对于具有强大扩展器的扁平NCP的较大图,现有的方法导致随机游走迅速扩大,触摸许多不相似的节点,从而导致较低质量的矢量表示,对于下游任务不太有用。 Lasagne不是依赖于固定跳距范围内的全局随机游走或邻居,而是利用强烈的本地大致个性化PageRank静态分布,以更精确地将本地信息设计到节点嵌入中。特别地,这导致在较差结构化图中节点的更有意义和更有用的向量表示。我们显示,Lasagne导致下游多标签分类对于具有平坦NCP的较大图的显着改善,其与具有向上倾斜的NCP的较小图相当,并且与现有的链路预测任务的方法相当。
随机游走中监督和扩展重新启动用于网络的排名和链路预测
原文标题: Supervised and Extended Restart in Random Walks for Ranking and Link Prediction in Networks
地址: http://arxiv.org/abs/1710.06609
作者: Woojeong Jin, Jinhong Jung, U Kang
摘要: 给定一个真实的图表,我们如何衡量排名和链路预测的相关性分数?随机游走重启(RWR)为此提供了一个很好的措施,已被应用于诸如朋友推荐,社区检测,异常检测等各种应用程序。然而,RWR有两个问题:1)对所有人使用相同的重启概率节点限制了随机游走的表现力,2)无需理论上的理由就需要为每个应用手动选择重启概率。本文有两个主要贡献。首先,我们提出随机游走与扩展重启(RWER),一种随机游走的措施,通过为每个节点使用不同的重启概率来提高随机游走的表现力。改进的表现力导致排名和链路预测的更高的准确性。第二,我们提出了SuRe(RWER的监督重启),一种从给定图中学习RWER重启概率的算法。 SuRe无需启发式地手动选择RWER的重启参数。广泛的实验表明,我们提出的方法提供了排名和链路预测任务的最佳性能,将最佳竞争对手的MAP(平均精度)提高了15.8%。
网络社区结构验证的推理程序
原文标题: An inferential procedure for community structure validation in networks
地址: http://arxiv.org/abs/1710.06611
作者: Luisa Cutillo, Mirko Signorelli
摘要: “社区结构”是实际网络中常见的特征。该术语是指在具有高内部连接性并且彼此不良连接的节点(社区)组网络中的存在。鉴于社区检测问题已经在几项工作中得到解决,将网络分区验证为网络良好社区结构的问题几乎没有得到重视,仍然是一个开放的问题。我们提出了网络分区的社区结构验证推理程序,这取决于网络富集分析的概念。所提出的过程允许将不同节点分区的充分性作为社区结构进行比较。此外,它可以用于评估两个网络是否共享相同的社区结构,并且比较不同网络聚类算法的性能。
最大价值问题:在学术界找到热门话题
原文标题: Maximum Value Matters: Finding Hot Topics in Scholarly Fields
地址: http://arxiv.org/abs/1710.06637
作者: Jinghao Zhao, Hao Wu, Fengyu Deng, Wentian Bao, Wencheng Tang, Luoyi Fu, Xinbing Wang
摘要: 在学术领域寻找热门话题可以帮助研究人员跟上他们感兴趣的领域的最新概念,趋势和发明。由于完整的大规模学术数据的稀缺性,早期的研究针对这个问题,基于从有限数量的领域的手动主题提取,其重点仅在于共同作者,引用关系等单一特征。这种预测的有效性,在本文中,我们使用Microsoft Academic Graph的真实学术数据集,该学术数据集在计算机科学(CS)领域提供了12000多个主题,其中包括1200个场馆,1440万作者,3000万篇论文及其引文关系在1950年至现在。针对CS领域趋势的主题,我们创新地形成了一个热门话题预测问题,综合考虑了各种内部和外部的影响,提取了17个不同的科学特征来全面描述主题状态。通过利用所有这17个特征,我们在5和10年后观察到主题尺度预测的准确性,R2值分别为0.9893和0.9646。有趣的是,我们的预测表明,最大价值在学术领域寻找热点话题主要来自三个方面:(1)每个因素的最大值,如作者的最大h指数和最大引文数,提供了三倍信息量大于预测的平均值; (2)最相关主题之间的相互影响是长期话题趋势预测中最有说服力的因素,解释了目前呈现最大增长速度的人将在今后推动相关话题变热; (3)我们预计在未来5年,可能会在CS领域受到重视的前100名增长最快的(最高增长率)主题。
在网络社交媒体中检测Clickbait:你不会相信我们是如何做到的
原文标题: Detecting Clickbait in Online Social Media: You Won't Believe How We Did It
地址: http://arxiv.org/abs/1710.06699
作者: Aviad Elyashar, Jorge Bendahan, Rami Puzis
摘要: 在本文中,我们提出了一种检测在线社交媒体(OSM)中的clickbait职位的方法。 Clickbait的帖子是短暂的短语,吸引用户的注意点击文章。该方法基于能够区分OSM中发布的clickbait和合法帖子的机器学习(ML)分类器。建议的分类器基于各种功能,包括图像相关功能,语言分析和滥用者检测方法。为了评估我们的方法,我们使用了由Clickbait Challenge 2017提供的两个数据集。由ML分类器获得的最佳性能是AUC为0.8,精度为0.812,精度为0.819,回归为0.966。此外,与之前的研究相反,我们发现clickbait的职称在统计上显着短于合法的职位。最后,我们发现,计算给定内容中正式英语单词的数量对于clickbait检测是有用的。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。