05_lxml模块介绍/通过XPath从html和xml中提取数据/二手房爬虫练习

1、lxml模块、xml文档、XPath介绍:

  • 一、什么是lxml模块

    • lxml是python语言中用于处理xml和html的功能最丰富最完善最简单的模块。
    • 它利用XPath就可以实现从xml或者html中解析数据。
    • lxml模块安装指令:pip install lxml
  • 二、什么是xml?

    • xml指可拓展标记语言,xml是一种很像html的标记语言
    • 但是xml和html完全属于两个领域的内容。
    • html用于从网页显示数据,xml用于在网络中传输和存储数据。
  • 三、什么是XPath?

    • XPath是一门在XML和HTMl文档中查找信息的语言。XPath使用路径表达式
    • 在xml和html文档中进行导航。XPath使用的路径表达式和我们常用的
    • 相对路径、绝对路径很相似。
    • 注意在XPath中还有谓语,谓语其实就是更细节的筛选条件,XPath路径就是一层一层筛选,而谓语就是在层内进行细化的筛选(常用的谓语有:[N]、[position]、[@属性名]、[@属性名=属性值])
    • 所以XPath就类似于CSS中的选择器,用来定位网页内容的
    • 可以借助“|”,添加多个XPath
  • 四、XPath的语法结构

    • XPath必须要理解的概念:树、节点、根节点、元素节点、属性节点
    • 注释节点、文本节点。
    • 1.树&

你可能感兴趣的:(python爬虫,html,xml,爬虫)