爬虫入门09——Xpath安装及基本操作

XPath

  • XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。最初是用来搜寻XML文档的,但同样适用于HTML文档的搜索。所以在做爬虫时完全可以使用XPath做相应的信息抽取。

(1)XPath概览

  • XPath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有想要定位的节点都可以用XPath来选择。
  • 官方文档https://www.w3.org/TR/xpath/

(2)XPath常用规则

表达式 描述
nodename 选取此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取子孙节点
. 选取当前节点
. . 选取当前节点的父节点
@ 选取属性

这里列出了XPath的常用匹配规则,示例如下:

//title[@lang='eng']

这是一个XPath规则,代表的是选择所有名称为title,同时属性lang的值为eng的节点,后面会通过Python的lxml库,利用XPath进行HTML的解析。

(3)安装

windows -> python3环境下: pip install lxml
linux环境下: pip3 install lxml

你可能感兴趣的:(爬虫)