爬虫—Web Scraper(一)

跟大家分享的是web scraper爬虫工具使用方法。

目录

1.Web Scraper插件安装

2.上手体验

3.抓取的基本步骤

4.规律多页规则

5.下载数据

1、Web Scraper插件安装:

Google浏览器扩展程序中搜素“Web Scraper”安装即可。

2、上手体验

Web Scraper-->Creater New sitemap--> Import sitemap-->sitemap JSON 区域输入神秘代码-->输入站点名(自定义)并导入。

爬虫—Web Scraper(一)_第1张图片

神秘代码:

{"_id":"test","startUrl":"https://www.zhihu.com/people/chen-da-xin-84/followers?page=2","selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"Username","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":"500"}]}

3、抓取的基本步骤

使用web scraper插件抓取的基本步骤为:

- 创建一个站点Create sitemap

- 新增选择器Add new selector

- 点击Scrape抓取


具体操作步骤如下:

步骤一:创建一个新的站点“Create sitemap”

打开控制台选择web scraper插件选择Create new sitemap选择Create sitemap;

Sitemap name中给站点地图命名,在Start URL中输入站点名(自定义)和网址(目标地址),点击Create Sitemap按钮,就创建好了一个站点地图。

步骤二:增加选择器,点击“Add New selector”;

选择器的配置:

1. Type选择Text文本形

2.勾选Multiple按钮,表示本页中需要抓取多个元素

3.Delay填写500

4.点击Selector的select按钮直接用鼠标选网页上的元素,绝色代码可采集的数据,点击后为红色锁定状态

步骤三:点击Scrape抓取

Request interval:请求间隔

Page load delay:页面加载延迟

4、规律多页规则

点击“Edit metadata”,修改Start URL。规律多页Start URL这里可以写成https://www.xxxx?page=[1-3]或https://www.xxxx?start=[0-5:10](表示0-5页20条/页)。

5、下载数据

Export data as CSV

你可能感兴趣的:(爬虫—Web Scraper(一))