xpath基础用法

网页的解析方式

"""

1.xpath

2.正则

3.css

4.bs4

"""

2.xpath的基本方式

1)环境准备: 火狐浏览器(需要视旧版)

建议使用: Firefox_50.1.0.6186_setup.exe

2)附加组件: firebug firepath

3)基本操作

例如:

1.

//div 查找网页的所有div

//元素标签名[@属性名='具体内容']

//div[@class='box'] 查找class为box的div

2.

//元素标签名[第几个]

//div[@class'box'][2] 查找符合条件的第2个div

3.

//元素/@属性名

//ul/li/div/a/img/@src

4.

//元素/text()

//a/text() 获取标签之间的文本(一级文本)

5.

//元素//text()

//div[@class='box']//text() 获取class为div下所有text文本

6.

//元素[contains(@属性名, '相关属性值')]

//div[contians(@class, 'zhangsan')] 查找class中包含zhangsan的div

7.

//*[@属性='值']

//*[@name='lisi'] 查找name为lisi的元素

8.

//a[text()=''下一页"]/@href

这是方便获取页面的下一页的地址, 但是要注意, 全页面上只有一个下一页可以, 当然具体情况具体分析



你可能感兴趣的:(xpath基础用法)