XPath Helper 安装与使用

XPath Helper 安装与使用

安装XPath Helper

下载Xpath Hepler插件包

Xpath Hepler下载地址
XPath Helper 安装与使用_第1张图片

解压插件包

将插件包解压到一个你想放置的地方,这里我到了F盘。切记无论你将它解压到哪,都要记得它路径不然没法安装

安装

打开扩展程序
XPath Helper 安装与使用_第2张图片
打开开发者模式 ,选择加载以解压的扩展程序 ,找到上面解压的路径就好了
XPath Helper 安装与使用_第3张图片
安装好后谷歌浏览器的书签栏会有一个按钮。

可以点击拼图的那个图标设置插件的使用和是否固定,上图的x图标为XPath Helper 的图标我将它固定了方便使用。

XPath Helper 的使用

想获取某一个部分的xpath的最简单的方法是进入开发者工具找到它的代码然后右击copy 选择copy xpath。但是在爬虫时我们很少会只要某一特定的一个部分,一般都是相似的一类标签,得到一系列数据。因此我们只能自己书写xpath表达式,XPath Helper 可以帮助我们调整直到写出合适的表达式。
XPath Helper 安装与使用_第4张图片
比如要得到百度新闻首页的焦点新闻下的各个新闻。可以通过开发者工具看源码来调整得到。

开发者工具锁定大概位置

首先通过开发者工具可以轻松的找到这部分模块的代码,右击复制copy选择 copy xpath,输入的到XPath Helper中 //*[@id=“left-col-wrapper”]/div[3]
XPath Helper 安装与使用_第5张图片
得到显示,XPath Helper选中的部位在浏览器中的表示为黄色
XPath Helper 安装与使用_第6张图片
分析源码可以看到所有的新闻的标题都是在 a 标签下,a标签相对于这个div标签跳跃了好几级因此可以用 // 来跳跃选中,(标签相邻应用 / )因此只需在 // * [@id=“left-col-wrapper”]/div[3]的基础上调整为// * [@id=“left-col-wrapper”]/div[3]//a 就选中到了a标签。我们要的是各个新闻的标题因此在向下选一步,选择文字用text()。最终xpath表达式为//*[@id=“left-col-wrapper”]/div[3]//a的基础上调整为 // *[@id=“left-col-wrapper”]/div[3]//a/text()
XPath Helper 安装与使用_第7张图片
最终调整得到,可以看到在结果栏已经将热点新闻选择出来了。XPath Helper 安装与使用_第8张图片
参考xpath安装链接:https://www.gugeapps.net/doc/archives/92

你可能感兴趣的:(xpath)