爬虫3

xpath

动态加载:使用json串转换

静态页面:使用正则,xpath

结构化数据:先有结构,在有数据 json  path

非结构化数据:先有数据,再有结构 正则,xpath

什么是xpath: 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。

什么是xml:是传输数据而并非显示数据

xpath 语法的目的,找到节点,提取信息

xpath 语法

使用xpath 语法提取数据

什么是xpath:    是一门在 XML 文档中提取信息数据的语言,可以用来在xml文档中对元素(标签)的属性进行遍历

xml:是一个可扩展的标记语言,语法和html相像,里面的节点可以自己定义,被设计的目的用来进行数据的传输和保存

安装lxml: pip3 install lxml

以起点中文网为例

notename:节点:查找出html中标签名为notname的节点

/ 表示从根节点的地方开始查找,(相对性的)

// 表示从任意位置匹配出你想要的节点

. 表示选取当前节点

.. 表示选取当前节点的父节点

@ 表示选择属性

text() 表示取标签文本内容

notename[1]:表示标签名为的一个的节点

notename[last()]:表示取最后一个

notename[last()-1]:表示取倒数第二个

你可能感兴趣的:(爬虫3)