Xpath知识讲解

###Xpath的使用
导入依赖库

from lxml import etree 
selector = etree.HTML(html)     (html为目标网站文本)
// 定位根节点
/ 往下层寻找
提取文本内容:/text()
提取属性内容:/@xxxx

####提取文本

eg:content = selecort.xpath('//ul[@id="useful"/li/text()'])
提取'ul'下id为useful子目录为'li'里面的文本内容

####提取属性

eg: link = selector.xpath('//a/@herf')

####Xpath的特殊用法
1.以相同的字符开头

starts-with(@属性名称,属性字符相同部分)
eg:content = selecort.xpath('//div[starts-with(@id,"test")]/text()')
能将div中id以test开头的文本内容提取出来,返回为list

2.标签套标签 string(.)

content = selecort.xpath('//div[@id="test3"]')[0]
info = content.xpath('string(.))
将id为test3下的文本全部提取出来不用分层读取

你可能感兴趣的:(Python,xpath,爬虫,python)