【转载】lxml库解析

python3解析库lxml

阅读目录

  • 1、python库lxml的安装
  • 2、XPath常用规则
  • (1)读取文本解析节点
  • (2)读取HTML文件进行解析
  • (3)获取所有节点
  • (4)获取子节点
  • (5)获取父节点
  • (6)属性匹配
  • (7)文本获取
  • (8)属性获取
  • (9)属性多值匹配
  • (10)多属性匹配
  • (11)XPath中的运算符
  • (12)按序选择
  • (13)节点轴选择
  • (14)案例应用:抓取TIOBE指数前20名排行开发语言

 lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择

XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:xpath cover page - W3C

【文章链接来源】 python3解析库lxml - Py.qi - 博客园 (cnblogs.com)

你可能感兴趣的:(Python爬虫,xml,爬虫,python)