多线程爬虫1

XPath的介绍与配置

•XPath 是一门语言

•XPath可以在XML文档中查找信息

•XPath支持HTML

•XPath通过元素和属性进行导航

•XPath可以用来提取信息

•XPath比正则表达式厉害

•XPath比正则表达式简单

安装使用XPath

•安装lxml库

•from lxml import etree

•Selector = etree.HTML(网页源代码)

•Selector.xpath(一段神奇的符号)

//与安装requests 相同,可以通过pip安装,也可以直接下载后,放到Lib文件夹中

XPath的使用

1、XPath与HTML结构

•树状结构

•逐层展开

•逐层定位

•寻找独立节点

2、获取网页元素的XPath

手动分析法

浏览器分析法

//Firefox需要安装插件

从firefox的官方网站上下载firebug和xpathchecker这两个插件,安装步骤安装就可以了。

firefox插件地址

https://addons.mozilla.org/en-US/firefox/addon/firepath/

https://addons.mozilla.org/en-US/firefox/addon/xpath-checker/

安装好后,进入审查元素。到想看的地方右击,会有ViewXPath

多线程爬虫1_第1张图片

点击就是XPath了

多线程爬虫1_第2张图片

应用XPath提取内容

•//定位根节点

•/往下层寻找

•提取文本内容:/text()

•提取属性内容: /@xxxx

你可能感兴趣的:(多线程爬虫1)