硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)

01.

真实场景交代

我是一名计算机视觉研究生,研究方向是「目标检测(Object Detection)」。
在详细阅读相关文献之前,我需要先了解这个领域的发展历程及每个时间段有代表性的文献。
02.
遇到的困难

如何找到这些相关的文献?

03.
明确目标
我希望尽可能找到所有与当前研究领域相关的文献。
04.
工具准备
4.1 领域相关的关键词表:目标检测、Object Detection 等。
4.2 搜索引擎:Google、百度、Bing 等。
4.3 目标网页(数据源)列表:Google 学术、arXiv.org、百度学术、中国知网 等。
4.4 Web Scraper 数据采集工具。
05.
5.1 确定使用哪个搜索引擎
Google浏览器(PS:需合理使用),并从「谷歌学术」上搜索我们要的学术文献。如图 1 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第1张图片

图 1
5.2 确定使用什么关键词进行搜索
我们希望目标网页包含 Object Detection 这个词汇,一共有 484000 项匹配结果。如图 2 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第2张图片

图 2

5.3 明确采集的数据项

我们的目的是什么?

我们想知道某一个研究领域的发展历程,那么可以有「文献名称」、「论文引用量」、「相关文献」这三项参考指标(当然还有其他判别指标)。

所以,本次共采集三项数据:“论文名称”、“论文引用量”、“相关文献”。如图 3 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第3张图片

图 3

5.4 打开 Web Scraper 并新建一个工程

点击右侧三个点 -> More Tools -> Developer Tools 。如图 4 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第4张图片

图 4

点击工具栏的三个点并将工具栏调整至浏览器下方。如图 5 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第5张图片

图 5

点击 Web Scraper 。如图 6 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第6张图片

图 6

点击 Create new sitemap ,通过 Create Sitemap 方式新建一个项目。如图 7 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第7张图片

图 7

填充 Sitemap name 和 Start URL 两项内容,填充完毕之后点击 Create Sitemap 。如图 8 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第8张图片

图 8

本文,我们采集搜索结果第 1 页的数据。如图 9 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第9张图片

图 9

我们给采集的每一个数据项分别命名为:title(论文名称)、cited_num(论文引用量)、related_articles(相关文献)。

5.5 设置数据抓取规则

点击刚刚创建的项目。如图 10 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第10张图片

图 10

进入项目之后,点击 Add new selector 。如图 11 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第11张图片

图 11

进入具体的规则设定界面,需要填充 id、Type、Selector、Parent Selecto、是否勾选 Multiple 这五项内容,设置完毕后点击 Save selector 。如图 12 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第12张图片

图 12

首先,我们先采集 title(文献名称)这一数据项。

点击刚刚命名的 id 。如图 13 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第13张图片

图 13

进入一个“新结点”,再次点击 Add new selector。如图 14 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第14张图片

图 14

和上述类似,分别设置以下几个规则。如图 15 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第15张图片

图 15

点击 Element preview ,目的是查看数据采集位置是否正确。如图 16 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第16张图片

图 16

点击 Data preview ,目的是预览数据,确保采集的数据是我们想要的。如图 17 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第17张图片

图 17

点击 Data preview 之后看到的数据内容,即最终我们采集到的数据就是这样子。如图 18 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第18张图片

图 18

接着,我们采集第二个数据项 —— cited_num(文献被引用次数)

在“当前结点”点击 Add new selector ,新建一个采集规则。如图 19 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第19张图片

图 19

和上述类似,设置对应的采集规则。如图 20 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第20张图片

图 20

点击 Element preview。如图 21 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第21张图片

图 21

点击 Data preview。如图 22 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第22张图片

图 22

验证下我们预览数据和网页数据是不是一一对应。如图 23 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第23张图片

图 23

最后,采集 related_articles (和本文献相关联的文章)数据项

设置对应规则。如图 24 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第24张图片

图 24

点击 Element preview。如图 25 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第25张图片

图 25

点击 Data preview 。如图 26 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第26张图片

图 26

5.6 开始采集数据

点击项目名称后,再选择 Scrape 。如图 27 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第27张图片

图 27

Request interval 和 Page load delay 两项默认即可,点击 Start scraping 。如图 28 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第28张图片

图 28

点击 Start scraping 之后,会重新开启一个网页,此时就是程序正在采集数据的过程,采集结束之后,会自动关闭该窗口。

采集结束后会出现弹框提醒,如图 29 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第29张图片

图 29

5.7** 导出数据

点击项目名称,选择 Export data as CSV。如图 30 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第30张图片

图 30

接着会出现如下界面,点击 Download now! 即可。如图 31 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第31张图片

图 31

点击下载之后,“双击打开”或者“在文件夹中显示”都可以。如图 32 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第32张图片

图 32

我们可以看到,这个文件就是我们采集到的数据。如图 33 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第33张图片

图 33

导出的文件名称为 object_detection_project.csv 和我们建项目时的名称一致。如图 34 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第34张图片

图 34

5.8 进行简单的数据清洗

由于 Web Scraper 抓取数据时并不是按照指定顺序的,所以顺序上会出现偏差,我们按照 web-scraper-order 排序下即可。如图 35 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第35张图片

图 35

至此,我们已经成功(了一半)地抓取了 Object Detection 关键词在谷歌学术搜索结果首页的相关信息。

但是,在 验证 我们采集的数据和网页上的数据是否一致时,我们发现了问题:

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第36张图片

具体操作过程可查看以下视频内容:

问题1.

cited_num 部分抓取的是人名,而不是对应的引用数量。如图 36 所示。

问题2.

related_articles 部分抓取的也是人名,而不是对应的文字和链接。如图 36 所示。

硕士研究生的第一道难题:如何快速了解某个研究领域的发展历程及代表性文献?——采集“Google学术”上的文献数据(一)_第37张图片

图 36

另外,我也想抓取文献的具体下载地址,后续可以直接访问地址并下载文献。

上述的「两个问题 + 抓取文献下载地址」,我们放到下一篇文章来分析。

如果文章对你有微不足道的帮助,like一下就是对我最大的支持 ,我们下期再见,

你可能感兴趣的:(基于真实场景的,Web,Scraper,数据采集,其他)