案例:xpath实例+功能

素材:test.html 代码如下:



    
        
        Title
    
    
        我爱你
        
        
  1. 飞机
  2. 大炮
  3. 火车
李嘉诚
胡辣汤

爬虫代码:常用

from lxml import etree
# from lxml import html
# etree = html.etree
# # 需要加载准备解析的数据
f= open('test.html',mode='r',encoding='utf-8')
pageSource=f.read()
# print(pageSource)
# 加载数据,返回element对象
et=etree.HTML(pageSource)
# print(et)
# xpath语法
# result = et.xpath('/html') #/html表示根节点
# result = et.xpath('/html/body') #表达式中的/表示一层html节点
# result = et.xpath('/html/body/span/text()') #text()表示提取标签中的文本信息
# result = et.xpath('/html/body/*/li/a/text()') # * 表示任意的,通配符,
# result = et.xpath('/html/body/*/li/a/@href') # @ 表示属性
# result = et.xpath('//li/a/@href') # // 表示任意位置
# result = et.xpath('//div[@class="job"]/text()') # [@xx='xx'] 表示属性上的限定
# print(result)

# 带循环的
result = et.xpath("/html/body/ul/li")
for item in result:
    href = item.xpath("./a/@href")[0] # ./ 表示当前这个元素
    text = item.xpath("./a/text()")[0]
    print(text,href)

运行结果如下:

百度 http://www.baidu.com
谷歌 http://www.google.com
搜狗 http://www.sogou.com

你可能感兴趣的:(python,案例,功能和用法,python,开发语言)