每天一个python段子(1):xpath

暂时设置为填空题,有兴趣的可以按大纲自行补完~

背景知识:

版本

xpath的版本进化是不断扩展的过程,所以基本语法是通用的。如果需要在刁钻的的场景下使用,就得用心研究下不同版本的用法了。

  • XPath 1.0 在1999年澳门回归那年,成为W3C标准,并被广泛实现和使用在Java,C#, Python 或者Javascript中。
  • XPath 2.0 在2007年纳入标准,并与XQuery1.0这个基友绑定在一起。
  • XPath 3.0 在2014年纳入标准,又跟Xquery 3.0基友在一起。

语法:

  1. 绝对路径

  2. 相对路径

  3. 条件筛选

  4. 多路径同时选择

选择对象:

  1. text

  2. 属性

  3. tag名

  4. 通配符

调试须知:

  1. 浏览器会自动在table节点下补加入tbody元素来达到html标准的效果。有可能还有其他坑,所以安全起见,使用wget下载一份html文件,基于文件调试xpath。
  2. 推荐一些好用的浏览器调试插件。
    chrome浏览器:XPath Helper
    firefox浏览器: FirePath

相关库

  • lxml
  • scrapy

你可能感兴趣的:(python)