爬虫(xpath)

什么是XPath?

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。

XPath 开发工具

1.开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
2.Chrome插件 XPath Helper
3.Firefox插件 XPath Checker

选取节点:

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

xml:

是一个可扩展的标记语言,语法和html和相像,里面的节点可以自己定义,被设计的目的用来进行数据的传输和保存

用法:

使用etree.HTML可以将html文档源码,转为一个element对象,然后才能使用xpath语法

最常用的路径表达式:

notename :查找出html所有标签名为notename的节点
/ : 表示从根节点开始查找(相对性的)
//: 从任意位置匹配出你想要的节点
. :选取当前节点
.. :选取当前节点的父节点
@ : 表示选择属性
text() :取标签的文本内容
notename[1] : 取标签名为notename的第一个节点
notename[last()] : 取标签名为notename的最后一个节点

你可能感兴趣的:(爬虫(xpath))