Web Scraper官方文档中文版(第1部分)

#webscraper#    #web scraper#    #爬虫#    #网络爬虫#

一、安装

1、安装

你可以从Chrome商店(http://dwz.cn/7bpm9c)【需科学上网】 安装此扩展(Extension),安装完成后需重启 Chrome 以确保扩展加载完成。如果你不愿重启 Chrome 亦可在安装后新建的标签页(tabs)中使用此扩展。

2、要求

此扩展要求 Chrome 版本号 31 及以上。无操作系统限制。【欲查看 Chrome 版本,可在浏览器地址栏中输入:chrome://settings/help,下图 Chrome 版本 63】

Web Scraper官方文档中文版(第1部分)_第1张图片

二、开启 Web Scraper

Web Scraper 集成入 Chrome 开发者工具(Developer Tools)。图 1 展示了如何打开。你也可以使用以下快捷键(Shortcuts)打开 开发者工具。请在打开 开发者工具 后选中 Web Scraper 标签。

快捷键:

Windows,Linux:Crtl + Shift + I 或 F12,开启开发者工具

Mac:Cmd + Opt + I,开启开发者工具


Web Scraper官方文档中文版(第1部分)_第2张图片
开启 Web Scraper



三、抓取网站

打开欲抓取网站。

1、建立 Sitemap

欲创建 Sitemap 首先需要指定起始 URL ,这个 URL 是抓取的起点。如果抓取始于多个位置,你也可以指定多个起始 URL。比如,你想要抓取多个搜索结果,就可以为每个搜索结果建立独立的起始 URL。

指定存在序列关系的多个 URL

如果某个网站的页面 URL 中存在数列, 使用指定序列比使用 Link 选择器的方式抓取网页更为合理。用指定序列 [1-100] 替代 URL 中页码部分。如页码部分有 0 作为占位符可使用 [001-100]。入页码有固定间隔可使用 [0-100:10]。示例如下:

http://example.com/page/[1-3]可抓取以下网页:

* http://example.com/page/1

* http://example.com/page/2

* http://example.com/page/3

http://example.com/page/[001-100]可抓取以下网页:

* http://example.com/page/001

* http://example.com/page/002

* http://example.com/page/003

http://example.com/page/[0-100:10]可抓取以下网页:

* http://example.com/page/0

* http://example.com/page/10

* http://example.com/page/20

创建选择器(Selector)

在创建 sitemap 后可为其添加选择器,在选择器面板可以添加新选择器、对原有选择器进行改进或浏览选择器树状结构。选择器能够以树状结构方式添加,Web Scraper 也按照此结构抓取网页。比如有一个新闻网站,你想抓取上面所有文章,这些文章都链接在网站首页。如下图示例网站:

Web Scraper官方文档中文版(第1部分)_第3张图片

欲抓取此网站,你可以建立 Link 选择器提取首页所有文章链接。然后在添加一个 Text 选择器作为子选择器从上面的 Link 选择器指向的网页提取文章。下图展示了如何为此网站建立 sitemap:

Web Scraper官方文档中文版(第1部分)_第4张图片

需注意,当创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。

更多关于选择器树状结构相关信息可在选择器文档中看到。你至少应当阅读以下核心选择器相关内容:

1、文本选择器(Text selector)

2、链接选择器(Link selector)

3、元素选择器(Element selector)

浏览选择器树状结构

在为 sitemap 建立好选择器后,你可以在 Selector graph panel 浏览选择器树状结构。下图展示了一个示例选择器图。

Web Scraper官方文档中文版(第1部分)_第5张图片

抓取网站

在为 sitemap 建立选择器后可开始抓取网站。打开 Scrape 面板开始抓取。

Web Scraper官方文档中文版(第1部分)_第6张图片

此时会打开一个网页窗口, scraper 会在其中加载网页并从中提取数据。在抓取完成后此窗口会关闭并弹出提示信息。你可以打开 Browse 面板查看抓取到的数据,并通过 Export data as CSV 面板将其导出。

相关内容:

Web Scraper 官方文档中文版(第 2 部分)

扫码下方二维码回复“社群”,了解加入“爬虫学习群”相关事宜。

Web Scraper官方文档中文版(第1部分)_第7张图片

你可能感兴趣的:(Web Scraper官方文档中文版(第1部分))