爬取Google Scholar论文列表,如何利用公开数据进行合著作者分析?

爬取Google Scholar论文列表,如何利用公开数据进行合著作者分析?_第1张图片

 

Preface

之前同学读研选导师,帮忙参考了一下。我发现有些老师很年轻,但是 Google Scholar 各项数据都高得离谱(主要是 citation 和 h-index ),甚至轻松碾压一些在人口耳的小牛导。直觉上来说这种应该是数据虚高了,我猜测是因为老师之间合作比较多,一篇文章挂好几个老师的名字,而这种成果共享在 gs 上的体现就是,每个人都多了一篇文章。编程学习资料点击免费领取

虽然参与论文即需署名是基本的学术规范,老师们合作并共享成果肯定是没问题的,但是这会导致老师的 gs 数据虚高,进而对学生产生一定误导。因此,我们可以利用 gs 上的公开数据,分析一下老师们的合著情况,比如看看所有论文中,平均每篇文章由多少位老师参与……这些信息可以在我们选导师的时候帮助我们降低噪声,提供一定参考。

原理

要想分析一位老师的合著情况,首先我们需要获取这位老师的所有出版物,可以从 Google Scholar 上爬取该老师的论文列表。得到论文列表之后,我们需要提取出每篇

你可能感兴趣的:(程序人人生,python,数据挖掘,开发语言)