Chrome浏览器Xpath表达式提取工具Xpath helper的使用

1 背景

Xpath是爬虫中用于解析HTML代码的一种方式,具有效率高、简单易学的特点。目前Chrome浏览器和Firefox浏览器都自带了Xpath表达式的提取工具。但是这些工具都比较难用,本文将介绍一款好用的Chrome浏览器插件:Xpath helper。
接下来将介绍这款工具的安装和使用方法:

2 下载安装

点击此处下载安装或者直接在Chrome应用商店搜索“Xpath helper”进行安装。
注意: 需要科学上网才可以在官网下载

3 使用方法

  1. 点击Chrome浏览器右上角的Xpath helper图标


    点击图标打开
  2. 打开之后的界面如下:


    Chrome浏览器Xpath表达式提取工具Xpath helper的使用_第1张图片
    image.png
  3. 在页面的任意位置点击,使鼠标焦点在网页上。此时把鼠标指针移动到需要提取的内容的位置,按下shift键。如在豆瓣电影分类页面上,我们需要提取第一个标题,操作如下图所示
    Chrome浏览器Xpath表达式提取工具Xpath helper的使用_第2张图片
    提取电影标题

4 Xpath表达是的调试和提取原则

Xpath表达式书写原则:

  1. 越短越好,只要能够唯一定位元素即可,这样可以避免出错的概率
  2. 尽量使用元素属性定位,如id,class等,而不是使用索引定位的方式
  3. 尽量使用相对路径,而不是绝对路径

爬虫中需要注意的点:
前端展示的内容包含异步加载的内容,但是大部分的爬虫不能加载异步的内容。因此要注意需要提取的内容必须在网页源代码中。

你可能感兴趣的:(Chrome浏览器Xpath表达式提取工具Xpath helper的使用)