利用webscraper插件来爬数据

webscraper是一款chrome的扩展插件,安装后会在开发者工具中找到。这款工具对于不懂python又想抓取数据做分析的人来说,是福星。

下载官网:https://www.webscraper.io/,已保存网盘,需要的同学留言。安装扩展过程不讲了,大家自行度娘。


~开始讲如何使用了。

一、安装好后在哪呢?

1、安装成功,在扩展程序里可以找到。

2、在需要爬取数据的页面,打开 开发者工具-》webscraper

在开发者工具中找webscraper

二、开始爬数据

1、新建一个爬虫页面

新建爬虫

比如我想把这个页面播放量最多、上榜时间的歌这些信息放一起做分析

2、创建组件项目建立关联关系

如下我想要爬这些数据,做这些之前,我们需要将整个模块做一个Element。为什么要这样做呢?

确定需要爬取的子项数据

webscraper不会将这些子数据关联,所以需要先告诉它数据的层级关系。否则爬下来的数据会发现,每项数据都在单独的一行,并没有关联显示为一行。

第一步:创建type:Element,select:选择整个模块,Mulitipe勾选(这样webscraper才知道你要爬取同样规则的数据)

创建层级关系

上面操作后需要注意以下截图中,按住SHIFT键选择2个以上模块,是为了告诉webscraper爬取同样规则的数据

第二步,创建好层级模块,点击进入

点击上一步中创建好的模块项,进入到该层级下创建具体的爬取参数。

点击进入到该层级下

第三步,创建具体爬取的数据项

首先确认已经进入到了第二层,再点击新增新的爬虫参数

进入层级后,新建参数
创建参数


爬虫列表

第四步,建好后,确认一下爬虫层级

在如下图所示的“sitemap music”下,选择“selector graph”

层级关系建立

第五步,正式爬取数据scrape


scrape

第六步,查看爬取的数据

爬虫爬完数据后会自动打开一个新标签后,爬取完后,再自动关闭。会显示以下界面,点击refresh,显示所有的数据

refresh


爬取成功

三、导出数据Export data as CSV

支持导出CSV文件,导出后可以excel别存为文本文件格式。


关于如何让爬虫自动分页,见文章:

你可能感兴趣的:(利用webscraper插件来爬数据)