XPath的使用

//定位根节点

/往下层寻找

提取文本内容: /text()

提取属性内容: /@xxx

 

特殊用法:

starts-width(@属性名称,属性字符相同部分) 

<div id="test-1">需要的内容1</div> 
<div id="test-2">需要的内容2</div> 
<div id="testdefault">需要的内容3</div>

 使用方法:

selector = etree.HTML(html)
content = selector.xpath('//div[starts-with(@id,"test")]/text()') # 得到一个列表
print content
for each in content:
    print each

 标签套标签: string(.)

 <div id="class3">美女,
        <font color=red>你的微信是多少?</font>
 </div>

使用方法:

selector = etree.HTML(html)
data = selector.xpath('//div[@id="test3"]')[0] #得到一个整体内容的列表,只有一个元素
info = data.xpath('string(.)')
content2 = info.replace('\n','').replace(' ','').replace('\t','')
print content2

你可能感兴趣的:(XPath的使用)